(Rev.1)追記 トークン数のお話しを最後に追記しました
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
illustriousに限らずですけど、私の構図プロンプトに対して、全然効果がないんだけど。。
何故に?
AI君に聞いたら、、
「あなたの構文が悪いのですよ!。。」(ルイスさん風)
「ははははい。わわわわかりました。。」
以下の順番が 最も安定し、破綻しにくく、キャラ再現も構図暴走も抑えるのです!
よく覚えておくように!
【1. キャラ名】
<キャラ名英語>, <別名>, <日本語名>
【2. 固有外見】
髪色, 髪型, 目の色, 特徴的パーツ(リボン・髪飾り・アホ毛など)
【3. 服装】
衣装名, 色, 装飾, 作品固有の服要素
【4. 作品タグ】
作品名, シリーズ名
【5. 構図(最重要)】
solo, single panel, full body / upper body, looking at viewer, standing
【6. 背景】
detailed background, room / outdoor / sky / moonlight など
【7. 画風補正】
sharp lines, vibrant colors, detailed face, clean shading
これをセラムンに置き換えると
【1. キャラ名】
sailor moon, usagi tsukino, セーラームーン
【2. 固有外見】
blonde hair, long hair, twin tails, odango hair, blue eyes
【3. 服装】
sailor suit, white leotard, blue skirt, red ribbon, tiara
【4. 作品タグ】
bishoujo senshi sailor moon
【5. 構図】
solo, single panel, full body, looking at viewer, standing
【6. 背景】
detailed background, moonlight, night sky
【7. 画風補正】
sharp lines, vibrant colors, detailed face
これをプロンプトに変換すると:
sailor moon, usagi tsukino, セーラームーン,
blonde hair, long hair, twin tails, odango hair, blue eyes,
sailor suit, white leotard, blue skirt, red ribbon, tiara,
bishoujo senshi sailor moon,
solo, single panel, full body, looking at viewer, standing,
detailed background, moonlight, night sky,
sharp lines, vibrant colors, detailed face
llustrious は特に構図学習が強いので、
順番を整えないとモデルが主導権を握って暴走する!
タグが多いと“矛盾”が発生しやすい!
こういう矛盾があると、
モデルは 最も確率の高い構図(テンプレ構図) を選ぶ。
→ 結果として「いつもの構図」になる
→ 背景もテンプレ化する
なぜプロンプトが多いと逆効果になるのか
🔥 1. モデルは「重要度の高いタグ」から順に解釈する
Stable Diffusion(特に llustrious)は、
プロンプトを 前から順に重み付けして読む。
だから:
- キャラ名
- 外見
- 服装
- 構図
- 背景
この順番が重要。
でも、タグが多すぎると…
→ モデルが「何を優先すべきか」判断できなくなる
→ 結果として 学習時の prior(テンプレ構図・テンプレ背景)に戻る
つまり:
タグが多いほど“モデルの癖”が強く出る。
🔥 2. 背景タグはキャラタグより弱い
背景は UNet の early layer で決まるので、
キャラの外見タグや服装タグが多いと、
背景タグが完全に押しつぶされる。
→ 背景が変わらない
→ ファンタジー背景が出ない
→ いつもの“テンプレ背景”になる
🔥 3. LoRA を使うとさらに優先順位がキャラ側に偏る
LoRA はキャラの prior を強化するので、
- キャラの外見タグ
- 服装タグ
- LoRA が学習した背景の傾向
これらが全部優先される。
→ 背景プロンプトが負ける
→ LoRA の背景が出る
→ プロンプトを増やすほど背景が固定される
🔥 4. タグが多いと“矛盾”が発生しやすい
例:
- dynamic pose
- standing
- full body
- upper body
- looking at viewer
- looking away
こういう矛盾があると、
モデルは 最も確率の高い構図(テンプレ構図) を選ぶ。
→ 結果として「いつもの構図」になる
→ 背景もテンプレ化する
🎯 つまり:プロンプトが多いほど“モデルの癖”が強く出る
プロンプトを増やす=自由度が上がる ではなく、
プロンプトを増やす=モデルの prior が勝つ という逆の現象が起きる。
<ではどうすればいいのか?>
✔ 1. キャラタグは最小限にする
キャラ名+外見2〜3個で十分。
✔ 2. 服装タグも必要最低限
服装を細かく書くほど背景が負ける。
✔ 3. 背景を変えたい時は“背景タグを強く・具体的に”
抽象語は弱い。
✔ 4. 構図の直後に背景タグを置く
背景は early layer で決まるので、
構図のすぐ後ろに置くと効きやすい。
✔ 5. LoRA の強度を下げる
0.5〜0.7 が背景の自由度を確保しやすい。
<<最終まとめ>>
✔ プロンプトが多いと逆効果になるのは事実
→ モデルの優先順位が混乱する
→ prior(テンプレ構図・背景)が勝つ
✔ 背景を変えたいなら
→ キャラタグを減らす
→ 背景タグを具体的にする
→ 構図の直後に置く
→ LoRA の強度を下げる
「ふむふむ。。」
「じゃぁ、自然言語だとどうなる??あまりやった事ないけど。。」
✔ 自然言語も“プリセット構造”が必要
→ というより 構造がある方が圧倒的に安定する
→ llustrious や LoRA を使うなら“構造なしはほぼ無理”
✔ 自然言語とキャラLoRAは“役割分担”で組み合わせる
→ LoRA=キャラの形状・雰囲気の固定
→ 自然言語=構図・背景・雰囲気の指示
→ 役割が重なると破綻する
→ 役割が分かれると最強に安定する
🌌 1. 自然言語にもプリセット構造が必要な理由
Stable Diffusion は自然言語を「文章」として理解していない。
内部では 単語の集合(タグの集合) として扱っている。
だから、自然言語で書いても、結局は:
- キャラ情報
- 外見情報
- 服装情報
- 構図情報
- 背景情報
- 雰囲気情報
これらが 混ざっているとモデルが混乱する。
つまり:
🎯 自然言語でも“カテゴリごとに分けて書く”と安定する
例:
A girl with long blonde hair and blue eyes,
wearing a white dress with golden ornaments,
standing on floating islands under a celestial sky,
surrounded by glowing crystals and ethereal light.
これは自然言語だけど、構造は:
- 外見
- 服装
- 構図
- 背景
- 雰囲気
という プリセット構造になっている。
→ だから安定するのだぞ!
🌙 2. 自然言語とキャラLoRAの組み合わせ方(最重要)
🎯 LoRA と自然言語は“役割分担”が必要
LoRA の役割
- 顔
- 髪型
- 体型
- 服装(LoRAに含まれる場合)
- キャラの雰囲気(色味・光)
自然言語の役割
- 構図
- 背景
- 雰囲気(LoRAと被らない範囲)
- ポーズ
- シーン
🔥 3. LoRA と自然言語が“衝突”すると破綻する
例:
LoRA が「青い服のキャラ」を学習しているのに
自然言語で:
wearing a red dress
と書くと、モデルは:
- LoRA → 青
- 自然言語 → 赤
で衝突し、
→ 顔が崩れる
→ 背景が固定される
→ 色が濁る
→ 服が破綻する
つまり:
🎯 LoRA が学習している部分は自然言語で上書きしない
これが鉄則。
🌌 4. 自然言語 × LoRA の最適構造
<lora:character:0.6>
【キャラ(LoRAに任せる)】
(自然言語では書かない or 最小限)
【外見(LoRAと被らない部分だけ)】
long hair, blue eyes
【服装(LoRAと被らない部分だけ)】
white dress, golden ornaments
【構図】
full body, dynamic pose
【背景(自然言語で強く指定)】
floating islands, celestial sky, glowing crystals
【雰囲気】
ethereal light, magical particles
ポイント:
- LoRA が担当する部分は自然言語で書かない
- LoRA が担当しない部分だけ自然言語で補う
- 背景は自然言語で強く書く(LoRAは背景を固定しがち)
- LoRA の強度は 0.5〜0.7 が背景の自由度が最も高い
🌙 5. 最終回答だぞ よく理解しな!!
✔ 自然言語もプリセット構造が必要
→ というより、構造がある方が圧倒的に安定する
→ llustrious や LoRA を使うなら必須に近い
✔ 自然言語とキャラLoRAは“役割分担”で組み合わせる
→ LoRA が担当する部分を自然言語で書かない
→ 背景・構図・雰囲気は自然言語で強く書く
→ これが最も安定する組み合わせ
「はい わかりました。。。」 (あまりわかってないけど。。)
「じゃあ、魔法使いの女の子が杖を構えて、目の前に魔法陣が展開するような自然言語ってどうなるの?」
「そんなの簡単!こうだ!」
🔥 1. 自然言語で魔法シーンを描くときの“構造”
自然言語でも、結局は SD がタグとして解釈するから、
カテゴリごとに分けて書くと圧倒的に安定する。
魔法シーンの場合はこの順番が最強:
- キャラ(LoRAに任せる)
- 外見(LoRAと被らない部分だけ)
- 服装(LoRAと被らない部分だけ)
- 構図(最重要)
- アクション(魔法発動の動作)
- 魔法陣(具体的な名詞)
- 背景(ファンタジー系)
- 光・エフェクト(雰囲気)
🔮 2. 自然言語 × LoRA の役割分担
✔ LoRA が担当する部分
- 顔
- 髪型
- キャラの雰囲気
- 服装(LoRAに含まれる場合)
✔ 自然言語が担当する部分
- 魔法の動作
- 魔法陣
- 光
- 背景
- 構図
- シーンの雰囲気
つまり:
魔法シーンの“演出”は自然言語で書く方が強い。
LoRA はキャラの見た目だけに集中させるのが最も安定する。
✨ 3. 自然言語プロンプト(構造化)例
A young witch girl holding her magic staff forward,
casting a spell with a determined expression.
A glowing magic circle appears in front of her,
floating in the air with rotating runes and radiant symbols.
She stands in a dynamic pose, her cloak fluttering from the magical energy.
The background shows floating islands and a celestial sky,
with ethereal light, magical particles, and shimmering air.
これをタグ的に分解すると:
- 外見:witch girl
- 構図:holding staff forward, dynamic pose
- アクション:casting a spell
- 魔法陣:glowing magic circle, runes, symbols
- 背景:floating islands, celestial sky
- 雰囲気:ethereal light, magical particles
自然言語だけど、内部的には 完全に構造化されたタグ列として解釈される。
🔮 4. 魔法陣を安定して出すための“強い単語”
魔法陣は抽象語だと弱いので、
具体的な名詞を入れると一気に安定する。
強い語彙:
- magic circle
- glowing magic circle
- floating magic circle
- arcane circle
- summoning circle
- rotating runes
- radiant symbols
- spell glyphs
- arcane sigils
特に:
✔ “glowing magic circle”
✔ “rotating runes”
この2つはモデルの反応が非常に強い。
🌌 5. 背景をファンタジーにする語彙
- floating islands
- celestial sky
- enchanted forest
- ancient ruins
- glowing crystals
- divine light
- ethereal atmosphere
背景は 具体名詞+光 の組み合わせが最強。
🔥 6. LoRA を組み合わせるときの最適形
<lora:character:0.6>
A young witch girl holding her magic staff forward,
casting a spell with a glowing magic circle floating in front of her,
surrounded by rotating runes and radiant symbols.
She stands in a dynamic pose with magical energy swirling around her.
The background shows floating islands and a celestial sky,
with ethereal light and magical particles.
ポイント:
- LoRA の強度は 0.5〜0.7
- LoRA が学習している服装は自然言語で書かない
- 魔法陣・背景・光は自然言語で強く書く
🎯 最終まとめ
✔ 自然言語にも“構造”が必要
→ その方がモデルが理解しやすい
→ llustrious や LoRA では特に重要
✔ LoRA と自然言語は“役割分担”が最強
- LoRA → キャラの見た目
- 自然言語 → 魔法・背景・光・構図
✔ 魔法陣は「具体名詞」で書くと安定
- glowing magic circle
- rotating runes
- radiant symbols
**LoRAを使う場合は「先頭に置いて、キャラ名・外見・服装だけに任せる」**というのが最も安定する運用法。
🔮 LoRA使用時のプロンプト構造
<lora:キャラ名:0.6>
【キャラ名】
(自然言語では書かない or 1回だけ)
【外見】
髪型・目の色など、LoRAに含まれていない部分だけ
【服装】
LoRAに含まれていない装飾や色だけ
【構図】
full body, dynamic pose, casting spell
【魔法演出】
glowing magic circle, rotating runes, radiant symbols
【背景】
floating islands, celestial sky, enchanted forest
【雰囲気】
ethereal light, magical particles, divine glow
🎯 なぜこの構造が安定するのか
- LoRAは「キャラの見た目+雰囲気」を強く固定する
- 自然言語でそれを上書きすると破綻する
- だから「LoRAに任せる部分」と「自然言語で補う部分」を明確に分ける
- 特に背景・魔法陣・光はLoRAが弱いので、自然言語で強く指定するのが最適
「よっしゃぁ!わかった! こんな感じでどうだ!」
「あ!モニカは無詠唱。しかも浮遊魔術はつかえないんだよぉ。。まぁ いいよね。。」

<lora:monica_everett_illustXL_locon_v1:0.6>monica everett, brown hair, blonde hair, long hair, sidelocks, ahoge, crossed bangs, messy hair, low twin braids, hair between eyes, eyebrows visible through hair, brown eyes, hooded robe, black hoodie, black robe, hood down, drawstring, rope belt, no socks, black footwear, mary janes,
A young witch girl holding her magic staff forward,
casting a spell with a determined expression.
A glowing magic circle appears in front of her,
floating in the air with rotating runes and radiant symbols.
She stands in a dynamic pose, her cloak fluttering from the magical energy.
The background shows floating islands and a celestial sky,
with ethereal light, magical particles, and shimmering air.
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
ーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー
(rev.1)ととトークン数についててて。。でででですすす
📝 1. A1111 のワード数(token)制約について
■ 基本仕様(Stable Diffusion 1.x / 2.x 共通)
Stable Diffusion のテキストエンコーダ(CLIP)は
最大 75 tokens × 2 セグメント = 150 tokens
までしか読めない。
A1111 は 75 tokens を超えると自動で2セグメント目に分割して処理する
150 tokens を超えた部分は 完全に無視される
■ 「ワード数」ではなく「トークン数」
英単語1つ=1トークンとは限らない
例:“masterpiece” → 1 token
“ultra detailed” → 2 tokens
“beautifully” → 2 tokens
日本語はさらに分割されやすい
「美しい」→ 3〜4 tokens になることもある
■ A1111 の便利機能
プロンプト欄の右下に 現在の token 数がリアルタイム表示される
75 / 150 を超えると色が変わる
■ 実務的な指針
75 tokens 以内に重要要素を詰める
76〜150 tokens は「補助的なニュアンス」程度に使う
150 tokens を超えた部分は捨てられるので書くだけ無駄
重要語は前半に寄せる
というルールを徹底すると安定性が上がる。
🔀 2. BREAK 構文の正しい使い方
■ BREAK の役割
A1111 の プロンプト分割構文で、
前後のプロンプトを“完全に独立したセグメント”として扱わせるためのもの。
■ 書式
prompt1 BREAK prompt2 BREAK prompt3
■ 何が起きるのか?
BREAK の前後で 別々の 75-token セグメントとして扱われる
つまり、
prompt1→ 75 tokensprompt2→ 75 tokensprompt3→ 75 tokens
のように 最大 75 × n セグメントに分割できる
■ ただし注意点
BREAK を使っても CLIP の限界(150 tokens)は変わらない
A1111 が内部で「複数回エンコードして合成」しているだけ
モデル側は「長文を理解できるようになった」わけではない
■ 実際の効果
プロンプトの優先度を強制的に分離できる
例:girl, blue eyes, silver hair BREAK detailed background, fantasy city
→ キャラと背景の干渉が減る
長文プロンプトを無理やり通すための裏技
→ ただし、長くすればするほど効果は薄まる
■ BREAK の使いどころ
キャラと背景を分離したい
スタイルと内容を分離したい
LoRA のトリガー語を確実に効かせたい
長文プロンプトを整理したい
🧠 3. 実務的な最適化
■ 1. 重要語は最初の 75 tokens に集約
→ キャラの外観・構図・LoRA トリガーなど
■ 2. 背景・雰囲気・スタイルは BREAK で後半へ
→ 干渉が減り、キャラ崩壊が起きにくい
■ 3. BREAK は「セクション分け」として使う
(character block) BREAK (background block) BREAK (style block)
■ 4. 150 tokens を超える部分は完全に無視
→ プロンプト整理のためにも token 数は常に確認
🔧 最適化した例
masterpiece, best quality, 1girl, silver hair, blue eyes, detailed face, soft lighting, upper body, fantasy outfit, intricate design BREAK ancient city background, floating structures, warm sunset, volumetric light BREAK illustration, anime style, high detail, sharp focus
キャラ → 背景 → スタイル
という 干渉の少ない構造になる重要語は最初の 75 tokens に集中
後半は雰囲気調整として扱われる
<illustriousではどうなのよ?>
結論から言うと 「ほぼ同じだが、挙動の“効き方”は違う」。
。
🎨 1. illustrious の token 制約は A1111 と同じ?
■ CLIP の仕様は同じ
illustrious(特に 1.0〜1.3 系)は SD1.5 ベース
つまり CLIP の 75 tokens × 2(150 tokens)制限は完全に同じ
→ 150 tokens を超えた部分は無視される
→ 重要語は前半に寄せるのが鉄則
→ BREAK を使っても CLIP の限界は変わらない
ここまでは A1111 と全く同じ。
🧠 2. ただし “効き方” が違う理由
illustrious は プロンプト依存性が極端に高いモデルで、
以下の特徴がある。
■ ① 語順の影響が SD1.5 より強い
前半に置いた語の影響がより強く出る
後半の語は SD1.5 よりさらに弱くなる傾向
→ 150 tokens 以内でも後半はほぼ効かないことがある
■ ② BREAK の効果が SD1.5 より“薄い”
BREAK は A1111 の内部処理で
「別セグメントとしてエンコード → 合成」
という仕組みだが、
illustrious は
キャラ・スタイル・背景の結合が強いモデルなので、
BREAK を入れても SD1.5 ほど綺麗に分離しない。
例:
girl BREAK background BREAK style
→ SD1.5:キャラと背景が比較的分離
→ illustrious:背景がキャラに“染み込む”ように影響する
■ ③ スタイル語の優先度が高い
illustrious は
“illustration”
“anime style”
“high detail”
などのスタイル語が 異常に強く効く
BREAK で後半に置いても前半に干渉する。
🔀 3. illustrious での BREAK の最適な使い方
illustrious は BREAK を使うとき、
SD1.5 と同じ構造を使うと逆に不安定になる。
■ 最適構造はこれ
(キャラの外観) BREAK (背景) BREAK (スタイル語は前半に寄せる)
■ なぜ?
スタイル語は後半に置くとキャラに干渉して崩れる
キャラ情報は前半に置くと安定
背景は BREAK で分離すると干渉が減る
■ 実務ルール
スタイル語は最初の 75 tokens に入れる
キャラ情報も最初の 75 tokens に入れる
背景は BREAK で後半へ
150 tokens を超える部分は完全に捨てる
🧪 4. illustrious でのプロンプト例(安定構造)
masterpiece, best quality, illustration, anime style, high detail, 1girl, silver hair, blue eyes, detailed face, soft lighting, fantasy outfit, intricate design BREAK ancient city background, floating structures, warm sunset, volumetric light
スタイル語 → 前半
キャラ → 前半
背景 → BREAK 後
干渉が最小化される
🧩 5. まとめ
項目 | A1111 | illustrious
token 制限 |同じ(75×2=150) | 同じ
BREAK の効果 | 強い(分離しやすい) | 弱い(混ざりやすい)
語順の影響 | 普通 | 強い
スタイル語の強さ | 普通 | 非常に強い
最適構造 | キャラ→背景→スタイル | スタイル+キャラ→背景
「うげ。。。一生懸命入力したプロンプト(ワード)は、切り捨てられていた可能性が1000%だ!」
ちなみにGoogleにトークンの制約の質問をしたら、Google君の回答は。。
A1111(Stable Diffusion WebUI)やForgeで使用する Illustrious-XL(およびベースとなるSDXL)には、事実上のトークン数制限はありませんが、処理上の区切りとして75トークン(システム上の上限は77トークン)が1つの単位(チャンク)となっています。 主な仕様と注意点は以下の通りです(2026年現在)。
実質的な制限はない A1111やForgeには「プロンプトの連結機能(Prompt Concatenation)」が標準で備わっているため、75トークンを超えて入力してもエラーにはならず、自動的に次の「75トークンのグループ」として処理されます。
「75トークン」ごとの区切り モデルが一度に処理できる最大値は77トークン(開始・終了トークンを含むため、実質は75トークン)です。 影響: 75トークンを超えると、プロンプトが分割されます。分割地点の単語のつながりが弱くなったり、後半に入力したタグの効きが弱くなったりする現象(トークンカット)が発生しやすくなります。 対策: 重要なタグを前方に配置するか、BREAK 構文を使用して意図的に区切り位置を調整することが推奨されます。
Illustrious-XL特有の性質 Illustrious-XLはSDXLベースのモデルであるため、従来のSD1.5よりもプロンプトの理解力が高まっています。 プロンプト密度: あまりに長すぎるプロンプトは一つ一つの単語の影響力を希薄にするため、予測可能な結果を得るには可能な限り簡潔にまとめるのが理想的です。 結論として、ソフトウェア側の制限を気にする必要はありませんが、プロンプトの品質と効き目を維持するためには、75トークン以内に収めるのが最も効率的です
でもCopilot君は。。(ルイスさん風)
その説明は「間違ってはいないけど“誤解しやすい書き方”」になっている。
特に 「実質的な制限はない」 の部分が、技術的な意味と生成結果の意味でズレているのが混乱の原因。
結論から整理すると こういう構造になる。
🎯 結論:Illustrious-XL(SDXL系)は “技術的には無制限”、でも “生成結果としては75トークン単位の制約が強く残る”
Google の説明は 技術仕様(ソフト側の制限) を語っていて、
みんなが気にしているのは 生成結果(モデル側の挙動)。
この2つは別物。
🧩 1. 技術的には「無制限」 → これは正しい
A1111 / Forge の SDXL 系は
Prompt Concatenation(プロンプト連結) が標準で入っている。
つまり:
75 tokens を超えても エラーにならない
75 tokens ごとに 自動でチャンク分割
何チャンクでも入力できる(技術的には無制限)
これは Google の説明通り。
🔍 2. しかし「モデルが一度に理解できるのは75 tokens(実質)」 → ここが本質
SDXL も SD1.5 も、
CLIP の1回の処理上限は 77 tokens(実質75)
これは変わらない。
つまり:
75 tokens を超えた部分は
別チャンクとして“別々にエンコード”されるチャンク間の関連性は 弱い
後半チャンクの影響は 極端に薄くなる
→ “無制限に入力できる”=“無制限に理解できる”ではない
ここが Google の説明では曖昧。
🧠 3. Illustrious-XL(SDXL系)は「理解力が高い」=「長文に強い」ではない
Google の説明にある:
Illustrious-XLはSDXLベースのモデルであるため、従来のSD1.5よりもプロンプトの理解力が高まっています。
これは 1チャンク(75 tokens)内での理解力が高い という意味。
しかし:
チャンクをまたぐ理解力は ほぼ増えていない
75 tokens を超えると 急激に効きが弱くなる
長文にすると 単語の影響力が希薄になる
→ “理解力が高い”=“長文に強い”ではない
ここが誤解されやすい。
🧨 4. 実際の生成結果で起きること(みんなの経験と一致するはず)
■ 75 tokens 以内
→ 効きが強い
→ キャラ安定
→ スタイルも素直
■ 75〜150 tokens
→ 効きが弱くなる
→ キャラ崩壊しやすい
→ 背景が混ざる
→ LoRA トリガーが薄まる
■ 150 tokens 以上
→ ほぼ無視される
→ 影響は極小
■ BREAK を使うと
→ チャンク境界を意図的に作れる
→ ただし SDXL はチャンク間の結合が弱いので
SD1.5 ほど綺麗に分離しない
📌 5. 疑問に対する最終回答
■ Google の説明は「技術的には正しい」
A1111 / Forge は長文を受け付ける
SDXL は 75 tokens ごとにチャンク化される
エラーは出ない
無制限に入力できる
■ しかし「生成結果としては75 tokens 制約が強く残る」
モデルが一度に理解できるのは 75 tokens
チャンクをまたぐと効きが弱くなる
BREAK で制御できるが SDXL は分離が弱い
長文は密度が下がり、効果が薄まる
プロンプトの品質と効き目を維持するためには、75トークン以内に収めるのが最も効率的
これは 実務的には完全に正しい判断。
🧭 6. 最適解(SDXL / Illustrious-XL)
■ 1チャンク(75 tokens)に
キャラ
スタイル
LoRA トリガー
重要語
を全部入れる。
■ 背景は BREAK 後に分離
→ 干渉を最小化
■ 150 tokens 以上は書くだけ無駄
→ ほぼ無視される
「ふむふむ。。無理だ。。絶対オーバーする自信あるw」
「キャラLora使うとトークン数を減らす効果あるのかなぁ?」
結論から言うと 「はい、キャラLoRAには“トークン節約効果”が確実にある」。
しかも SDXL / Illustrious-XL では SD1.5 よりその効果が大きい。
この質問は本質を突いていて、
実際 LoRA を使う最大のメリットのひとつが token 密度の節約なんだ。
🎯 1. なぜキャラLoRAは token を節約できるのか?
キャラLoRAは
キャラの特徴(髪型・顔立ち・服・雰囲気)を“重み”としてモデルに直接焼き込む
仕組み。
つまり:
本来なら
silver hair
blue eyes
twin braids
sharp eyes
pale skin
fantasy outfit
etc…
と大量のタグが必要なところを、
LoRA なら
<lora:キャラ名:1>
だけで 同等以上の情報量を注入できる
→ プロンプトの token 消費が激減する
🔥 2. SDXL / Illustrious-XL では token 節約の価値がさらに高い理由
SDXL 系は:
1チャンク(75 tokens)内の“密度”が結果に直結する
チャンクをまたぐと効きが弱くなる
スタイル語が強いのでキャラ情報が押し負けやすい
Illustrious は特に語順依存が強い
つまり:
キャラ情報を LoRA に逃がすほど、プロンプトの前半を“重要語”で埋められる
これは SD1.5 より SDXL のほうが効果が大きい。
🧠 3. キャラLoRAが token 節約として機能する仕組み(内部的)
■ LoRA の内部処理
LoRA は UNet の重みを直接変化させる
つまり「キャラの特徴」を モデルの内部表現として注入する
プロンプトの token とは別レイヤーで働く
→ プロンプトの token 数とは独立してキャラ情報が入る
■ 結果
プロンプト側でキャラの特徴を細かく書く必要がなくなる
75 tokens の“貴重な枠”を節約できる
キャラの安定性が上がる
背景や構図に token を回せる
📌 4. 疑問への最終回答
✔ キャラLoRAには token 節約効果がある
→ これは事実。
✔ SDXL / Illustrious-XL では特に重要
→ チャンク境界の影響が強いから。
✔ キャラLoRAを使うと、プロンプトの“前半75 tokens”を他に使える
→ キャラ安定性と背景の両立がしやすくなる。
🧪 5. 実務的な最適化
■ キャラLoRAを使う場合の構造
<lora:キャラ名:1>
masterpiece, best quality, illustration, anime style,
1girl, pose, composition, lighting, camera, etc…
BREAK
background block
キャラ情報は LoRA に任せる
プロンプト前半は構図・光・スタイルに集中
背景は BREAK 後に分離
■ キャラLoRAを使わない場合
→ キャラ情報だけで 20〜40 tokens 消費
→ 75 tokens の枠がすぐ埋まる
→ 背景や構図が弱くなる
→ Illustrious だとキャラ崩壊しやすい
「おおぉぉを!しまったぁ。。Loraの補足情報を書きすぎたのかも。。本当は減らせることができたのかもwww」
「キャラLoRAを学習させるときに、キーワードを埋め込むよね? そのキーワードがトリガーになるんじゃなの?」
結論から言うと 「はい、そのキーワードは“トリガー”になる。ただし“トリガー=キャラ再現の必須条件”ではない」。
そして LoRA の本質は“キーワードよりも重みそのもの”にある。
ここを正しく理解すると、プロンプト設計がさらに強くなる。
🎯 1. LoRA 学習時のキーワード(trigger word)は何をしている?
学習時に設定するキーワードは、
「この単語が来たら、このキャラの特徴を出す」
という“紐付け”を作るためのもの。
つまり:
<Lora:キャラ名:1>
キャラ名(学習時の trigger word)あるいは
character_nameのようなタグ
これらが キャラの特徴を呼び出すスイッチになる。
🔥 2. ただし“LoRA の本体”はキーワードではなく“重み”
ここが誤解されやすい。
LoRA の本質は:
UNet の重みを微調整して
キャラの顔・髪・雰囲気・服・色味などを
モデル内部に直接焼き込む
という仕組み。
つまり:
✔ キーワードは「呼び出しスイッチ」
✔ キャラの情報そのものは「LoRA の重み」に入っている
だから キーワードがなくても LoRA はある程度効く。
🧪 3. 実際の挙動:キーワードなしでもキャラが出る理由
経験あると思うけど、
LoRA を読み込んで <Lora:キャラ名:1>だけ書いても
キャラが出てくることがある。
これは:
LoRA の重みが強い
キャラの特徴が UNet に直接注入されている
キーワードは“補助的な強化”に過ぎない
という理由。
🧠 4. SDXL / Illustrious-XL では“キーワードの重要度が下がる”
SDXL 系は:
テキスト理解が強い
LoRA の重みが SD1.5 より深く効く
キャラの特徴が LoRA 側に強く寄る
そのため:
✔ キーワードがなくてもキャラが出やすい
✔ キーワードを入れると“より安定する”
✔ でも token を圧迫するなら削っても良い
という挙動になる。
📌 5. 疑問への最終回答
✔ キーワードはトリガーになる
→ LoRA 学習時に設定した単語は“呼び出しスイッチ”。
✔ でも LoRA の本体は重みなので、キーワードがなくても効く
→ 特に SDXL / Illustrious では顕著。
✔ キャラLoRAは token 節約効果がある
→ キャラ情報をプロンプトに書かなくてよくなる。
✔ キーワードは“補助的な強化”として使うのが最適
→ 必須ではない。
🧭 6. 最適な使い方
■ 1. LoRA の呼び出しだけで十分な場合
<lora:キャラ名:1>
→ token 節約
→ キャラ安定
■ 2. キャラの再現度を最大化したい場合
<lora:キャラ名:1>, キャラ名
→ LoRA の重み+キーワードの両方で強化
→ 顔の安定性が上がる
■ 3. token が足りない場合
→ キーワードは削ってOK
→ LoRA の重みだけで十分効く
「でもね、髪の毛の色とか違ったりするから、髪の毛の色指定してるよ?」
髪色がズレる──これは LoRA の“構造”と“プロンプト密度”の両方が原因で起きる典型例で、
色指定トリガーを書いているのは 完全に正しい判断なんだ。
ただ、ここにはもう少し深い仕組みがある。
LoRA の「トリガー語」と「色指定語」は、実は役割が違う。
🎯 1. キャラLoRAのトリガー語は“キャラの特徴セット”を呼び出すだけ
LoRA のトリガー語は:
顔の形
髪型
雰囲気
服の傾向
色味の傾向(※強制ではない)
こういう “キャラの特徴パッケージ” を呼び出すスイッチ。
つまり:
✔ トリガー語は「髪色を固定するものではない」
LoRA の学習データに髪色が混在していたり、
背景色や照明の影響が強いと、
髪色は簡単にズレる。
🎨 2. 髪色がズレる理由
■ ① SDXL / Illustrious は“色の再解釈”が強い
SDXL 系は色を「文脈」で解釈する傾向が強い。
光源
背景色
スタイル語
LoRA の重み
露出・彩度の傾向
これらが髪色に干渉する。
→ LoRA のトリガーだけでは色が安定しない
■ ② LoRA 学習時に髪色が完全に固定されていない
学習データに:
光の色が違う
影で暗く見える
彩度が違う
背景反射で色が変わる
こういう画像が混ざると、
LoRA は “髪色の平均的な傾向” しか学習しない。
→ 色がブレる
■ ③ プロンプト密度の問題
SDXL は 75 tokens を超えると色指定の効きが弱くなる。
→ 後半に書いた色指定はほぼ無視される
🔥 3. だから“色指定トリガーを書く”のは正しい
silver hair
blonde hair
pink hair
のような 色指定タグを明示的に書くのは、
LoRA の弱点を補う最も確実な方法。
✔ LoRA のトリガー語
→ キャラの特徴セットを呼び出す
✔ 色指定タグ
→ 髪色を“強制的に上書き”する
この2つは役割が違うので、
両方書くのが最適解。
🧠 4. 髪色がズレる“本当の原因”
✔ SDXL / Illustrious の色再解釈が強い
✔ LoRA の学習データの色が揺れている
✔ プロンプト後半の色指定が弱くなる
✔ 背景色・光源が髪色に干渉する
✔ BREAK の位置によって色指定が弱まる
→ だから色指定タグは必須になる
🧭 5. 最適構造(髪色を絶対にズラさない)「ずらじゃない」
<lora:キャラ名:1>
masterpiece, best quality, illustration, anime style,
1girl, silver hair, blue eyes, detailed face, soft lighting,
fantasy outfit, intricate design
BREAK
background block
ポイント
髪色は必ず最初の 75 tokens に入れる
LoRA トリガー語より前に置いてもOK
BREAK の後に色指定を書くと効きが弱くなる
背景は後半に追いやる
🎉 6. 最終結論
✔ キャラLoRAのトリガー語は“キャラの特徴セット”を呼び出すだけ
✔ 髪色を固定する力は弱い
✔ SDXL / Illustrious は色の再解釈が強い
✔ だから髪色がズレる
✔ 色指定タグを書くのは完全に正しい
✔ しかも“前半75 tokens”に置くのが最重要
「ううう。Loraの使い方も間違えてたのか。。」
必要最低限のトークン数でトライした結果です。
指の破綻がほぼ無くなって、今までにない構図で生成できました。


<lora:asakura_dim32:0.7> general, sfw, masterpiece, best quality, illustration,
1girl, asakura toru, multicolored hair, short hair, brown hair, blue hair, blue eyes, white sundress, spaghetti strap,
park, bench, fountain, flower beds, trees, clear sky, gentle wind, dynamic background, peaceful atmosphere,
BREAK,
A girl sits alone on a park bench, reading a book. A sudden gust of wind surprises her, and she looks up at the sky. Around her, the park feels lively: colorful flower beds in full bloom, a fountain sparkling in the sunlight, leaves rustling in the trees, and the gentle motion of nature. The atmosphere is bright, serene, and filled with soft movement.
自然言語を使うと情景を作るのが楽になるかもですね

