以前、とりんさまアートを活用して色々遊んでいましたが、以降は少し遠のいてました。
最近はOpenAIのChatGPT4vにDALL-E3が搭載されてそちらでの画像生成もかなり実用性の高いものになってきましたが、生成できるものに制限があったり、リクエスト回数の制限があったり、生成物にやや海外臭さが出てしまったりと思ったほどイメージした通りのものが作れない状況でした。
ところが、ふとしたきっかけでStableDiffusionを使い始めてその面白さに気づいたので、環境構築、使い方に関する個人的な備忘メモを作っておこうと思います。
最終的に実現したものと雑感
なんやかんやで架空のアニメの公式サイトとYouTubeチャンネルを創造しました。
構想2日、構築5日ほどで生まれたコンテンツです。結構それっぽくできているので良かったらみてあげてください。
なかなか難しいもので、プロンプトで任意の同じキャラクタを生み出すのは難易度が高く、架空の作品ということで細部は割り切っています。
また複数のキャラを1枚の画像に含めるのがまた難しく、次の画像はStableDiffusionで実現していますが、普通にプロンプトでキャラの出しわけってできないのですよね(なんでも良ければ複数人出すのは容易)。
そのため、次の画像では、個別に出力した3人の画像を、加工した写真画像に重ねる形で1枚のイラストに仕上げています。
同じキャラの生成は難しいですが、seed値を指定することで近いキャラを出せることを覚えました。
どうでも良いですが、全裸も普通に生成できてしまうので程よく見えない入浴シーンとか難しかったです。
なお、作品名やキャラクタ設定の検討、ロゴのデザインは人力で生成AIは基本使ってないです。一応、培ってきたスキルもあるのです。
基礎環境準備
Stable Diffusionと書いてきましたが、利用してるのはStable Diffusion WebUI(AUTOMATIC1111)というものを利用させていただきました。
利用PCは、MacBook Air(M1、RAM16GB)です。
(はじめてM1プロセッサのGPUがそれらしく活かせる機会となりました)
インストール手順については、「Stable Diffusion Web UI のMac用がめちゃくちゃ便利なので紹介してみる」に従って進めさせてもらいました。
細かい手順はただの転載にしかならないので割愛します。
ポイントを2点だけメモしておきます。
モデルのインストール
画風を決めるコアとも言えるモデルを必ず追加しておきます。
格納先はこちら stable-diffusion-webui/models/Stable-diffusion
私はKayWaiiを利用させていただきました。可愛い系のアニメイラストに強く、利用制限もゆるくモデルを直接使った商売をする以外ならOKの模様。この辺はモデルによってことなるので気をつけましょう。
制限はゆるいのですが、既存作品を連想できる生成結果が得られたので(たとえばyurucampなどをプロンプトに入れるとゆるキャン色が強くなる)、節度をもった利用が必要と思いました。
あと、起動はインストール先のディレクトリに移動して「./webui.sh」。
追加インストールした方が良いExtentions
Stable Diffusion Web UIにはExtentionsという機能の追加が可能です。
ざっくり手順としては、Extensionsタブ>Install from URL > URLを入力してInstall > SettingタブでReload UI。
よく使ってるものは次の通りです
ABG Remover 背景を透過にする
キャラクタを切り抜いて利用したい場合に必須の拡張機能です。
入力するURLはこれ https://github.com/KutsuyaYuki/ABG_extension
ScriptでABG Removerを選べば以降の生成画像が透過になります。
参考:https://romptn.com/article/1268#google_vignette
Openpose Editor ポーズ人形的なもので出力を制御
入力するURLはこれ https://github.com/fkunn1326/openpose-editor.git
ControlNetも必須です https://github.com/Mikubill/sd-webui-controlnet.git
参考:https://ai-illust-kouryaku.com/?p=521
使い方メモ
基本的な使い方としては、img2imgタブでプロンプトとネガティブプロンプトを入れてGenerateを押すだけ。よく使うプロンプトはスタイルとして登録しておくと呼び出しがしやすいです(基本ちび、シンプルと書かれてるのが登録したスタイル)。
プロンプトは先人の知恵をお借りするのが手っ取り早いですが、img2imgのタブで画像を貼って「Interrogate CLIP」または「Interrogate DeepBooru」を押すと画像からプロンプトを逆算することも可能です。
ただ、どういった場合もプロンプトに「(masterpiece,best quality)」、ネガティブプロンプトに「EasyNegative, extra fingers, fewer fingers, multiple girls」などを入れて、画質の担保、手の崩れ、出力人数の1人化(複数出力を避けたい場合)などは入れておいた方が良さそうです。
各パラメータは理解し切れてなくて、そんなにいじらないですが、めぼしいところでは以下の通り。
- Width、Height:サイズ。大きいと時間がかかる。
- Batch count:1回の出力で複数パターン出力したい場合。
- Seed:デフォルト-1。任意の数字を入れると再現性のある生成ができる。-1でやるとランダムで数字が決められ生成結果に表示される。気に入ったパターンがあったら数字を控えてSeedに入れると良し。
プロンプト参考リンク
その他、プロンプトの参考にしているページのリンク貼っておきます。
Stable Diffusion プロンプト(呪文)一覧
程よくよく使うものが網羅されてます
【Stable Diffusion】表情・顔のパーツに関する呪文(プロンプト)
表情指定の参考に。出力例あります。
トップス、シャツ類(tops,shirt)画像付きプロンプトまとめ(43種)
上下一体服オールインワン(all-in-one)画像つきプロンプトまとめ(23種)
スカート(skirt)画像付きプロンプトまとめ(41種)
服装系の参考に。出力例あります。ちょっとマニアック。
Stable Diffusionでアニメ調イラストに使える呪文(プロンプト)を紹介!
浅く広い感じ。
【プロンプト解説】Stable Diffusionで正面や横顔など顔の向きを指定する方法
意外と横向いてくれないので参考になりました。個人的には「facial profile」が良かった。
色々覚えたことあるので、そのうち追記します
コメント