次はStable Diffusionの拡張機能(主にAutomatic1111 WebUIに対する)一覧です。ワークフローを効率的に強化させるものや、まだ完全にテストしていないが評価の高い拡張機能も含めました。本記事では、今回ご紹介する拡張機能を皆さんへ提供しながら、このリストを更新し続けていきます。
更新(2024.07.05):今週発見した二つの新しい拡張機能をPart 5に追加しました。SDでは拡張機能をテストすることが非常に楽しいです。
この記事は前の記事から引用&翻訳した記事です。少しでもお役に立てれば幸いです。追加したい機能がある場合は、下のコメント欄でシェアしてください。
拡張機能のインストール方法?
こちらは、text2prompt 拡張機能のGithubリンクを例として説明させていただきます:
• WebUIの拡張機能タブからインストール
https://github.com/toshiaki1729/stable-diffusion-webui-text2prompt.gitを「Install from URL」タブへコピーしてから「Install」をクリック。
• 手動でインストール
リポジトリを拡張機能フォルダにクローンしてからWebUIを再起動。
クローン先:https://github.com/toshiaki1729/stable-diffusion-webui-text2prompt.git extensions/text2prompt
ZIPファイルをダウンロードして、拡張機能フォルダで解凍してもOKです:\extensions\[extension name]
Part 1. 画像拡大と強化に最適なStable Diffusionの拡張機能をおすすめ
1. Tiled Diffusion & VAE
4.6k stars | 330 forks
https://github.com/pkuliyi2015/multidiffusion-upscaler-for-automatic1111
Tiled Diffusionとは領域ごとに画像を分割して生成することで、領域ごとにプロンプトが混ざるのを防いだり、高解像度な画像を生成する際にVRAMメモリの削減や高速化に効果がある拡張機能です。
Regional Prompt Control、ControlNet、DemoFusionをワークフローに統合し、制作パイプラインに柔軟かつ便利に活用できます。
PotatCatによる詳細なチュートリアル(PDF)はこちら: https://civitai.com/models/34726
2. Ultimate SD Upscale
1.5k stars | 153 forks
https://github.com/Coyote-A/ultimate-upscale-for-automatic1111
Ultimate SD Upscale拡張機能とは、特にhighres.fixにGPU(メモリ)不足のエラーが発生した場合、処理時間を短縮したい場合、より高解像度に拡大したい場合に役立ちます。調整次第で元画像を変えずに拡大するには、この拡張機能をControlNetと組み合わせることをお勧めします。
この拡張機能は、画像を小さなピースに分けて、エッジに沿った継ぎ目を修正して再描画し、マスクのぼかしとパディングのパラメータを微調整して、順番に生成を行い最終的に一つの大きな画像に縫い合わせますので、画像のクオリティや生成速度が大きく変わります。アップスケーリングのアルゴリズムに対して、写実的な画像にはESRGAN、その他にはR-ESRGAN 4x+を選択するのは一番簡単です。各パラメータの詳細なチュートリアルと説明については拡張機能のウィキをご参照ください。
3. スダンドアローンソフトウェア
CUDAの問題 (VRAM不足) がある場合、または詳細を維持したままで大量の画像を一括拡大したい場合は、スタンドアローンのAI画像アップスケーラーをお試しください。
Aiarty Image Enhancer:画像を8K・16Kへ一括でロスレス拡大、細部加工、VRAM不足に最適化、画質強化。
今、無料で1年間全機能を無制限に使えるライセンスを期間限定配布中、気になったらまずダウンロードして触ってみるのがオススメです。
Part 2. Stable Diffusionに最適なプロンプトとタグの拡張機能をおすすめ
1. Promptgen
448 stars | 85 forks
https://github.com/AUTOMATIC1111/stable-diffusion-webui-promptgen
Promptgenを使用すると、Stable Diffusion WebUI 内でプロンプトを生成できます。作者はlexica.art および majinai.art (NSFWフィルターあり/なし) から取得したプロンプトのGPT2微調整を行っています。ユーザーは設定でモデルを追加できます。
2. Tokenizer
139 stars | 23 forks
https://github.com/AUTOMATIC1111/stable-diffusion-webui-tokenizer
Tokenizer(トークナイザ)とはstable-diffusion-webuiの拡張機能で、文章を語彙(トークン)に分割したうえで、BERTモデルに入力できる形に変換する処理です。
3. Model-keyword
233 stars | 13 forks
https://github.com/mix1009/model-keyword
Model-keywordとはA1111 WebUIの拡張機能で、txt2img 及びimg2img に応用され、各モデルやLoRAで使用が必須とされているキーワードを自動で補完させます。
4. Prompt Generator
228 stars | 19 forks
https://github.com/imrayya/stable-diffusion-webui-Prompt_Generator
AUTOMATIC1111 WebUIでは動作するPrompt Generatorとは基本のプロンプトを詳細な説明やスタイルに拡張できる機能です。スクリプトは distilgpt2-stable-diffusion-v2 by FredZhang7 及び MagicPrompt-Stable-Diffusion by Gustavostaに基づき、インターネットに接続せずにローカルで実行されることができます。
Fredのスクリプトは、記述的なsafebooruタグとdanbooruタグを生成できるため、アニメスタイルに集中するtxt2img モデルでは便利な拡張機能になります。MagicPromptシリーズは、AI画像のプロンプトを生成するGPT-2モデルです。
モデルがHugging Faceでホストされる限り、\extensions\stable-diffusion-webui-Prompt_Generator\models.jsonを編集することができます。
5. Text2prompt
159 stars | 15 forks
https://github.com/toshiaki1729/stable-diffusion-webui-text2prompt
A1111 WebUI のText2prompt とは単語を入力するだけで複数のプロンプトを生成し、AIイラストの制作をサポートする便利な拡張機能です。右側の設定欄にある「K value」と「P value」の値を大きくしたり、「Use weighted choice」のチェックを外したりすると効果的です。また、「Cut off and Power」ではなく「Softmax」を使用することで生成結果が変わることもあります。
ご注意: danbooru タグを含むプロンプトのみ生成できます。
6. Novelai-2-local-prompt
69 stars | 14 forks
https://github.com/animerl/novelai-2-local-prompt
novelai-2-local-promptとは、画像生成AI「Novel AI」用のプロンプトを、Stable Diffusion用のプロンプトに変換してくれる拡張機能です。プロンプトとネガティブプロンプトを貼り付けて、「NAI Convert History」をクリックすれば変換完了。
7. Ranbooru
61 stars| 7 forks
https://github.com/Inzaniak/sd-webui-ranbooru
この拡張機能は、Boorus画像サイト(Gelbooru, Rule34, Safebooru, yande.re, konachan, aibooru, danbooru及びxbooruを含む)からタグのセットをランダムに選択し、プロンプトに追加できるサービスです。Ivragiから推薦。
Part 3. Stable Diffusion A1111のUI用の拡張機能
1. Stable Diffusion Themes – Lobe Theme
2.3K stars | 215 forks
https://github.com/lobehub/sd-webui-lobe-theme
デフォルトのGradioを搭載したWebUIインターフェースが気に入らない場合、この拡張機能を使用することでモダン風のUIを利用できます。Githubページにはインストールやカスタマイズの詳細なガイドが掲載されています。
ご注意:テーマをインストールする前に、互換性の問題について注意してください。例えば、ローブテーマ v3はSD WebUI v1.6以降でのみ動作します。古いバージョンにはレガシーテーマを使用する必要があります。
2. A1111 WebUI Image Browser
596 stars | 109 forks
https://github.com/AlUlkesh/stable-diffusion-webui-images-browser
この拡張機能は、以前に作成した画像を確認し、生成されたメタデータを調べ、そのデータを利用してA1111 WebUI内でtxt2img、またはimg2imgのプロンプトを使用したさらなる画像生成プロセスを実行するのに役立ちます。
また、好みの画像を「お気に入り」アルバムに追加したり、興味がなくなった画像を削除する機能も提供します。
3. Config-Presets
252 stars | 16 forks
https://github.com/Zyin055/Config-Presets
「Config-Presets」を使用すると、ユーザーフレンドリーでで調整可能な各種設定条件を設定して、txt2imgおよびimg2imgタブのパラメータを変更しやすくします。
個人の好みに合わせて値を調整することで、ワークフローの効率を向上させることができます。
4. Inspiration (Artist Styles and Genre)
114 stars | 22 forks
https://github.com/yfszzx/stable-diffusion-webui-inspiration
Stable Diffusion WebUI Inspiration拡張機能は、特定のアーティストや芸術ジャンルのシグネチャースタイルを持つランダムな画像を表示できます。選択すると、そのアーティストやジャンルからさらに多くの画像が表示され、望むスタイルを視覚化しやすくなります。
約6000人のアーティストとスタイルの膨大なコレクションを備えており、キーワードを使用してアーティストやジャンルを絞り込むことができます。好みのスタイルをお気に入りに保存し、気に入らないスタイルをブロックすることもできます。
5. Infinity Grid Generator Script
174 stars | 24 forks
https://github.com/mcmonkeyprojects/sd-infinity-grid-generator-script
この拡張機能は無限次元のグリッドを作成できます。X/Yプロットグリッドに詳しい方なら、これはより多くの軸を持つ「無限次元のグリッド」です。この拡張機能を利用すると、はるかに多量のパラメータの組み合わせから結果を急速に分析することができます。
ご注意:グリッドを生成するのにかかる時間は指数関数的に増加することに注意してください。例えば、4つの変数それぞれに5つの異なるオプションがある場合、その結果は5の4乗として計算され、驚異的な625枚の画像になります。
Part 4. Stable Diffusionに最適なアニメーションと動画用の拡張機能をおすすめ
1. Animate Diff
2.9k stars | 246 forks
https://github.com/continue-revolution/sd-webui-animatediff
Animate Diffは、Stable Diffusionでビデオを生成する最も人気のある方法の一つです。この使いやすいツールを使って、Stable Diffusionで生成された1枚の画像を元にアニメーションを作成できます。
Animate Diffの作者は、インペインティングを強化する「Segment Anything」と、セマンティック・セグメンテーションを強化する「ControlNet」も作成しました。
2. Deforum
2.6k stars | 383 forks
https://github.com/deforum-art/sd-webui-deforum
これは、Stable Diffusion Automatic1111 WebUI用のDeforumの移植版(公式)です。Deforumとは、数秒の動画を簡単に生成する、Stable Diffusionの拡張機能です。Deforumを使用すると、テキストプロンプトとカメラコントロールを使用してアニメーションを作成できます。
このツールは2Dと3Dの動作タイプを選択できるため、アニメーションや動画の視覚効果を好みに合わせて調整できます。また、補間機能も使用できます。
3. Seed Travel
302 stars | 25 forks
https://github.com/yownas/seed_travel
Seed Travelは、Stable Diffusion WebUIの拡張機能で、指定したシードの範囲に基づいて一連の画像を生成するのに役立ちます。
具体的には、すべての可能なノイズパターンをマップとして比較し、各シードをそのマップ上のポイントとして表現します。シードトラベリングは、このマップ上の2つの「ポイント」を選び、その間を「トラベル」して、一連の画像を提供します。これらの静止画を使用してアニメーションを作成できます。
4. Prompt Fusion
257 stars | 16 forks
https://github.com/ljleb/prompt-fusion-extension
Prompt Fusionは、単一の画像のサンプリングプロセスで「トラベル」し、一貫性のあるわずかに反復されたビジュアルを作成できます。プロンプト補間機能を使用すると、潜在空間を段階的に探索して一連の画像を反復的に生成することで、動画を作成できます。また、複数の画像を生成するためのアテンション補間機能も備えています。
似た拡張機能:
Prompt Travel: https://github.com/Kahsolt/stable-diffusion-webui-prompt-travel
Part 5. Stable Diffusionのコントロール、編集、微調整用の拡張機能
1. ControlNet
16.3k stars | 1.9k forks
https://github.com/Mikubill/sd-webui-controlnet
ControlNetはStable Diffusionの拡張機能の一つで、キャラクターのポーズや輪郭を参考画像から指定できる機能です。画像からポーズや構図といった特徴を抽出します。そして、その特徴から大きく外れないように画像に制限を加え、指定した画像を生成するのです。OpenPose、Canny、HED、Scribble、Mlsd、Seg、Depth、Normal Map などプリプロセッサを活用して、よりリアルで細部までこだわり抜いた画像を生成できます。
2. DWPose
2k stars | 133 forks
https://github.com/IDEA-Research/DWPose
DWPose(DW Openpose)とは画像に写る人物のポーズを推定するためのモデルです。従来のOpenpose技術に比べて正確な推論をすることができます。参考画像から棒人間みたいな情報を抽出して、それをもとにイラストを生成する機能になります。ご注意: DWPoseを使用するには、ControlNetのバージョンをv1.1.237以上にアップデートする必要があります。
3. ADetailer
3.9k stars | 303 forks
https://github.com/Bing-su/adetailer
ADetailerは、顔や手の崩れを自動で修正してくれる拡張機能です。Stable Diffusion Web UIの最も人気のある拡張機能の一つで、キャラクターを固定したまま表情を変えることができます。
画像に過剰に適合する場合、パラメータを使用することで、生成画像の仕上がりを調整できます。
4. Detection Detailer
336 stars | 74 forks
https://github.com/dustysys/ddetailer
絵の顔や全身の[自動認識]と[マスク]が出来ます。主に[inpaint]で使用。顔だけ・全身の描き変えに有効。逆に顔以外、全身以外(背景)の描き変えにも有効です。
5. Reactor (Face Swap)
2.3k stars | 245 forks
https://github.com/Gourieff/sd-webui-reactor
Stable Diffusion WebUIユーザー必見の拡張機能ReActorを使えば、画像内の顔を指定した別の顔画像に高速かつ高精度に入れ替えることができます。ReActorディープフェイク動画の作成などにも応用できる非常に優れた拡張機能です。事前にAuto1111版のStable Diffusion WebUIが動作する環境が必要です。
複数人の顔を一度に入れ替えられ、性別を検出して同性の顔同士を自然に入れ替えてくれます。
Roopも使える: https://github.com/s0md3v/sd-webui-roop
免責事項: フェイススワップ機能を使用する際は、注意を払い、現地の規制を遵守することが不可欠です。実際の人物の顔を変更するためにソフトウェアを使用する場合は、関係者から許可を得ることをお勧めします。結果として得られる画像またはビデオがディープフェイクであることを明示的に示すことが重要です。
6. Depth Map Script
1.6k stars | 152 forks
https://github.com/thygate/stable-diffusion-webui-depthmap-script
MiDaSを生成するスクリプトDepth Map Scriptは、ボタン一発で、Depth画像を生成して、そのまま生成した画像と一体化した画像データを作成してくれます。
Depthは被写体深度のことであり、画像から深度情報を読み取って再度画像生成させる方法になっています。この深度マップを用いることで、1枚の画像からサイドバイサイド(視差画像)画像を作り出せるため、これをVRデバイスのビューアーで閲覧すると、立体的に見えるのです。
7. Dynamic Thresholding
1.1k stars | 100 forks
https://github.com/mcmonkeyprojects/sd-dynamic-thresholding
Dynamic Thresholding (CFG Scale Fix)とはCFG Scaleの値が7から大きく離れても絵の破綻が起きないようにしてくれる拡張機能です。Stable Diffusionの便利な拡張機能の一つです。CFG Scale を大きくした場合でも破綻せずに画像が綺麗に生成されます。色彩の破綻は、Mimic CFG Scaleで調整できます。
8. Multi-subject Render
365 stars | 27 forks
https://github.com/Extraltodeus/multi-subject-render
Multi-subject Renderは1枚の画像に複数の被写体を綺麗に配置して画像生成するのに役立つ拡張機能です。「背景画像と被写体の画像を別々に生成して、AIの力で合成する」という離れ技を実行できます。1枚に複数のキャラを生成します。
複数の被写体を含む画像は生成にくいですが、画像を重ね合わせるようにして作成します。背景の生成→前景の被写体の生成→背景と被写体の合成→img2imgで仕上げ という一連の流れを簡単に実行可能です。
9. Composable LoRA
470 stars | 72 forks
https://github.com/opparco/stable-diffusion-webui-composable-lora
Composable LoRAは「Latent Couple」機能にLoRAモデルを追加生成させることが出来る様になる拡張の拡張機能です。AND 構文と併用することで、複数LoRA使用時に各LoRAの影響範囲を特定のプロンプトに限定できます。一応ある程度緩和する方法として、拡張機能のComposable Loraを使用するかLoRA Block Weightで構図周りのみを切って出力させるなどあります。
10. Cutoff for SD WebUI
1.2k stars | 85 forks
https://github.com/hnmr293/sd-webui-cutoff
本機能が、色指定の精度がUPするAUTOMATIC1111版web UIのエクステンションとして提供されています。
このエクステンションの主な機能は、「Cutting Off Prompt Effect」を行うことです。これにより、指定した色が正確に反映されるようになります。例えば、アニメの女の子が青い髪でピンクのスカートを履いていることを希望する場合、生成された画像ではスカートが乱れ、髪の色がピンク色に変更され、指定通りの配色にはならないことが多いです。
Cutoff 拡張機能を有効にすると、色を指定したい部分のキーワードを「Target tokens」に入力して、イラストの色移りを防止することができます。
ご覧のとおり、2行目は Cutoff 拡張機能をオンにして生成された色指定の精度がUPした画像です。髪の色 (青) とスカートの色 (ピンク) は乱れていません。
11. Latent Couple (Two Shot Diffusion Port)
704 stars| 105 forks
https://github.com/opparco/stable-diffusion-webui-two-shot
この拡張機能を使うことで、キャンパスを任意の数に分割することができるようになります。そのため、分割した画面1つ1つに対して個別で命令できるようになり、複数のキャラクターそれぞれに特徴や服装等の指定ができるようになります。
例えば、マスク1には山、マスク2には木、マスク3には月を指定します。「分割(Divisions)」「位置(Positions)」「重み(Weights)」を設定し、プロンプトを入力して、サンプリング方法や画像のサイズを指定するだけです。
Part 6. その他の便利なStable Diffusionの拡張機能
1. A1111 Aspect Ratio Selector
209 stars | 35 forks
https://github.com/alemelis/sd-webui-ar
A1111 Aspect Ratio Selectorは、導入することで画像のアスペクト比やサイズをワンクリックで調整できるようにする拡張機能です。アスペクト比や解像度のプリセットを呼び出すボタンを追加できます。
「URLからインストール」をクリック>「拡張機能のリポジトリのURL」にhttps://github.com/alemelis/sd-webui-arと入力>「インストール」をクリック。
導入するとtxt2imgやimg2imgの左下辺りにボタンが追加されます。Config PresetやPreset Utilitiesより機能が限定されてるけど、これはこれでシンプルな良さがあります。WidthとHeightを入れ替える「⇅」ボタンと組み合わせて利用するのも良いです。
アスペクト比は/sd-webui-ar/aspect_ratios.txtに記載されています。形式は次のとおりです:
ボタンラベル、幅、高さ、# オプションのコメント。
例:
1, 512, 512 # 1:1 square
# はコメントを表すので、# で始まる行は無視されます。
2. OpenOutpaint
395 stars | 24 forks
https://github.com/zero01101/openOutpaint-webUI-extension
openOutpaint. Outpaintingが大変便利に実行できる専用キャンバスをweb UIに追加できます。既存の画像を好きな方向に好きな大きさで拡張でき、レイヤーシステムや領域の拡大縮小・回転といった編集機能も搭載します。
この拡張機能を有効にするには、webui-user 起動スクリプトに --api フラグを含める必要があることに注意してください。
3. 3D Model Loader
228 stars | 22 forks
https://github.com/jtydhr88/sd-3dmodel-loader
3Dモデルを画像生成の元画像にできる拡張機能です。現在、名前が「3D Model Loader」→「3D Model&Pose Loader」に変更になりました。「ControlNet」と「3D Model & Pose Loader」のインストールが必要です。
4. Save Intermediate Images
109 stars | 16 forks
https://github.com/AlUlkesh/sd_save_intermediate_images
生成される画像の途中過程の画像を保存してくれる拡張機能になります。つまり、Stable Diffusionによって生成された画像がどんなふうに画像を作りあげていくのかを一枚一枚見ることが出来ます。
5. Conditioning-highres-fix
46 stars | 8 forks
https://github.com/klimaleksus/stable-diffusion-webui-conditioning-highres-fix
構図の破綻を抑えつつ高解像度の画像を生成するためのweb UIのオプションです。画像のぼやけがなくなる画像のクオリティを上げることができます。
画像をアップスケールしながら、ノイズや歪みなどを除去してクリアで鮮明な画像が生成できます。画像が破綻する場合は「Denoising strength」を調整します。
6. SD Scale Calculator
https://preyx.github.io/sd-scale-calc/
Stable Diffusionの拡張機能ではなく、オンラインツールです。画像のアスペクト比を瞬時に呼び出し、計算できます。
よく使う画像サイズをワンクリックで選択できたり、自動計算でアスペクト比を反映してくれます。片方のサイズを記入してアスペクト比を自動計算して数値を出して反映してくれます。高解像度の修正や img2img 解像度設定に非常に便利です。
本記事を読んで、ご投票いただき、ありがとうございます。投票結果から見れば、精密制御、編集、微調整、AI拡大などのStable Diffusionの拡張機能に多くの方が興味を持っているようです。これらの分野で拡張機能をもっと探索していくべきでしょうか?コメント欄でお考えをお聞かせください。