StableDiffusionの環境構築と、活用して架空のアニメを作った話

以前、とりんさまアートを活用して色々遊んでいましたが、以降は少し遠のいてました。

最近はOpenAIのChatGPT4vにDALL-E3が搭載されてそちらでの画像生成もかなり実用性の高いものになってきましたが、生成できるものに制限があったり、リクエスト回数の制限があったり、生成物にやや海外臭さが出てしまったりと思ったほどイメージした通りのものが作れない状況でした。

ところが、ふとしたきっかけでStableDiffusionを使い始めてその面白さに気づいたので、環境構築、使い方に関する個人的な備忘メモを作っておこうと思います。

最終的に実現したものと雑感
基礎環境準備
1. モデルのインストール
追加インストールした方が良いExtentions
1. ABG Remover　背景を透過にする
2. Openpose Editor　ポーズ人形的なもので出力を制御
使い方メモ
1. プロンプト参考リンク

最終的に実現したものと雑感

なんやかんやで架空のアニメの公式サイトとYouTubeチャンネルを創造しました。
構想2日、構築5日ほどで生まれたコンテンツです。結構それっぽくできているので良かったらみてあげてください。

「未知ノクロニクル」公式サイト

「未知ノクロニクル」は、半引きこもりの会社員"泉おとめ"が観光ツアーに出かけるところから始まる物語。仙台に集まった3人の女性が織りなす「ちょい旅」のお話です。

「未知ノクロニクル」公式チャンネル

非実在作品「未知のクロニクル」の公式チャンネルです。作品詳細は公式サイトをご覧ください。 BGM: DOVA-SYNDROME 架空主題歌(フリー素材): Ronto (龍崎一氏) ※イラストにはStableDiffusionによるAI...

なかなか難しいもので、プロンプトで任意の同じキャラクタを生み出すのは難易度が高く、架空の作品ということで細部は割り切っています。

また複数のキャラを１枚の画像に含めるのがまた難しく、次の画像はStableDiffusionで実現していますが、普通にプロンプトでキャラの出しわけってできないのですよね（なんでも良ければ複数人出すのは容易）。

そのため、次の画像では、個別に出力した3人の画像を、加工した写真画像に重ねる形で１枚のイラストに仕上げています。

同じキャラの生成は難しいですが、seed値を指定することで近いキャラを出せることを覚えました。

どうでも良いですが、全裸も普通に生成できてしまうので程よく見えない入浴シーンとか難しかったです。

なお、作品名やキャラクタ設定の検討、ロゴのデザインは人力で生成AIは基本使ってないです。一応、培ってきたスキルもあるのです。

基礎環境準備

Stable Diffusionと書いてきましたが、利用してるのはStable Diffusion WebUI(AUTOMATIC1111)というものを利用させていただきました。

利用PCは、MacBook Air（M1、RAM16GB）です。
（はじめてM1プロセッサのGPUがそれらしく活かせる機会となりました）

インストール手順については、「Stable Diffusion Web UI のMac用がめちゃくちゃ便利なので紹介してみる」に従って進めさせてもらいました。

細かい手順はただの転載にしかならないので割愛します。
ポイントを２点だけメモしておきます。

モデルのインストール

画風を決めるコアとも言えるモデルを必ず追加しておきます。

格納先はこちら stable-diffusion-webui/models/Stable-diffusion

私はKayWaiiを利用させていただきました。可愛い系のアニメイラストに強く、利用制限もゆるくモデルを直接使った商売をする以外ならOKの模様。この辺はモデルによってことなるので気をつけましょう。

制限はゆるいのですが、既存作品を連想できる生成結果が得られたので（たとえばyurucampなどをプロンプトに入れるとゆるキャン色が強くなる）、節度をもった利用が必要と思いました。

あと、起動はインストール先のディレクトリに移動して「./webui.sh」。

追加インストールした方が良いExtentions

Stable Diffusion Web UIにはExtentionsという機能の追加が可能です。

ざっくり手順としては、Extensionsタブ>Install from URL > URLを入力してInstall > SettingタブでReload UI。

よく使ってるものは次の通りです

ABG Remover　背景を透過にする

キャラクタを切り抜いて利用したい場合に必須の拡張機能です。
入力するURLはこれ https://github.com/KutsuyaYuki/ABG_extension

ScriptでABG Removerを選べば以降の生成画像が透過になります。

参考：https://romptn.com/article/1268#google_vignette

Openpose Editor　ポーズ人形的なもので出力を制御

入力するURLはこれ　https://github.com/fkunn1326/openpose-editor.git

ControlNetも必須です　https://github.com/Mikubill/sd-webui-controlnet.git

参考：https://ai-illust-kouryaku.com/?p=521

使い方メモ

基本的な使い方としては、img2imgタブでプロンプトとネガティブプロンプトを入れてGenerateを押すだけ。よく使うプロンプトはスタイルとして登録しておくと呼び出しがしやすいです（基本ちび、シンプルと書かれてるのが登録したスタイル）。

プロンプトは先人の知恵をお借りするのが手っ取り早いですが、img2imgのタブで画像を貼って「Interrogate CLIP」または「Interrogate DeepBooru」を押すと画像からプロンプトを逆算することも可能です。

ただ、どういった場合もプロンプトに「(masterpiece,best quality)」、ネガティブプロンプトに「EasyNegative, extra fingers, fewer fingers, multiple girls」などを入れて、画質の担保、手の崩れ、出力人数の１人化（複数出力を避けたい場合）などは入れておいた方が良さそうです。

各パラメータは理解し切れてなくて、そんなにいじらないですが、めぼしいところでは以下の通り。

Width、Height：サイズ。大きいと時間がかかる。
Batch count：1回の出力で複数パターン出力したい場合。
Seed：デフォルト-1。任意の数字を入れると再現性のある生成ができる。-1でやるとランダムで数字が決められ生成結果に表示される。気に入ったパターンがあったら数字を控えてSeedに入れると良し。