ENG original: https://civitai.com/articles/6309/towards-pony-diffusion-v7-going-with-the-flow

訳注：流れに乗るFlowとベースモデルに採用したAuraFlowとをかけている

PurpleSmartAI / 2024年8月23日

皆さん、こんにちは！ついにアップデートのお知らせです。お待たせして大変申し訳ありませんでした。技術的な作業を優先していたため、時間がかかってしまいました。

お知らせしたいことがたくさんあるので、お急ぎの場合は各セクションの要約をご覧ください。

ベースモデル

要約：最初にAuraFlowでトレーニングを行い、FLUXをセカンダリバックアップとして使用します。

過去数か月にわたっていくつかのモデルオプションを評価した結果、Pony Diffusion V7のプライマリベースとしてAuraFlowを選択しました。これは、優れたプロンプト理解を備えた堅牢なモデルアーキテクチャであり、収益化の目標と一致するApache 2ライセンスの下で提供されています。非常に少人数の才能あるエンジニアのグループによるプロジェクトであることに感銘を受けています。Simo氏はそれをリードする素晴らしい仕事をしており、FALのサポートは刺激的で尊敬に値します。そのため、個人的に彼らの努力を称賛し、モデルが成功することを願っています。AuraFlowのツールと美学は改善の余地があり、現在16チャンネルVAEがありませんが、これらの問題は致命的ではなく、時間とともに軽減できると確信しています。

FLUXは最新の話題であり、オリジナルのStable Diffusionチームが再び活動しているのを見るのは素晴らしいことです。一方でFLUXに対する私の懸念は、そのライセンスとトレーニングの複雑さにあります。FLUX.1-schnellバージョンのみがApache 2であるため、Pony Diffusionを蒸留モデルでトレーニングする必要があります。このこと自体は可能ですが、Ponyスケールの微調整に関しては未知の領域です。ツールが急速に成熟しているのを見るのは素晴らしいことですが、私は依然として慎重です。FLUXは、何らかの理由でAFが失敗した場合の優れたバックアップオプションであり、いくつかの初期実験を実行する予定です。

その他の検討事項にはSD3が含まれます。これは、前回議論されて以来ライセンスがわずかに改善されましたが、特に競合他社と比較して、モデル自体は物足りないままです。SAIの方向性に大きな期待はしていませんが、私の考えが間違っていることが証明されることを願っています。

また、SDXLバージョンに関するコミュニティからのフィードバックも求めています。AuraFlowとFLUXが登場するまでは、これが私の主要な候補でした。一部のユーザーは依然としてSDXLオプションを望んでいると聞いていますが、3番目のバージョンを導入したいとは思いません。AuraFlowまたはFLUXが堅牢なツールを使用してミッドレンジハードウェアのパフォーマンスに対する需要を満たすことができれば、SDXLバリアントは不要になる可能性があります。ただし、私は皆さんの意見を歓迎します。

もう1つ：Open Model Initiative（OMI）は注目すべきものです。これは、誰でも自由に使用、研究、変更できる完全にオープンソースなモデルを作るためのコラボレーションです。現在、ある程度許可するライセンスを持つモデルはたくさんありますが、最初から最後まで完全にオープンなモデルはまだ存在していません。私は自分の専門知識をグループと共有できてうれしく思います。すぐに実現するものではありませんが、可能性に興奮しています。

キャプション付け

要約：Ponyは現在、最先端の文字認識とNSFWサポートを備えたGPT-4oレベルのキャプションを使用しています。ただし、このような大規模なデータセットにキャプションを付けるには時間がかかります。

PD V6や他の多くの新しいモデルで見てきたように、高品質のキャプションはモデルのパフォーマンスにとって極めて重要です。貧弱なキャプションは、AuraFlowやFLUXのような最高のモデルでさえも台無しにしてしまうので、私の目標は、内容の範囲全体をカバーする密度の高い詳細なキャプションを生成することです。これは、現在のほとんどのビジョン言語モデル（VLM）が検閲されているか、私たちが必要とするドメイン固有の知識を欠いていることを考えると、簡単なことではありません。

キャプションを改善するために、まずV6ですでに使用されているタグベースのプロンプトを強化し、キャラクター名のような特殊なケースをより良く認識し、焦点を当てるようにしました。また、VLM出力をガイドし、「画像は…を描いています」のような意味をなさない決まり文句を避けるために、1000以上の詳細で意見のあるキャプションのセットを作成し、キュレーションしました。

VLMの評価プロセスはかなり時間がかかりました。最初の主要候補はCOGで、全般的に良い経験をしました。タグベースのプロンプトに良く反応し、軽い検閲のみで、微調整にも応じやすかったです。しかし、キャプションの品質は私が望むものよりもわずかに低く、適切なライセンスの確保が問題となりました。私のすべての連絡の試みは応答がありませんでした。

次に、Dolphin 72Bを探索しました。これは検閲がなく、さらに優れたプロンプト遵守と一般知識を持つ別の優れたモデルでした。主な欠点は、COGと比較してOCR能力がわずかに劣ることと、「かわいい」幻覚を作り出す傾向—画像に存在しない合理的な詳細情報を追加してしまうこと—でした。Dolphinの微調整は課題がありましたが、不可能ではなく、このモデルを使用して最初のバッチのキャプションを成功裏に生成しました。ただし、そのサイズの大きさがプロセスを遅くしました。

幸運にも、より小さな代替案であるInternVL2、特に40Bバリアント（InternVL2には76Bバージョンもありますが、私のテストでは顕著な改善は見られませんでした）が現れました。このモデルはさらに優れていることが判明し、GPT-4レベルのキャプション付けを達成し、優れたプロンプト理解、より良いOCR、より多くのドメイン知識を持ち、そして検閲がありませんでした。評価の結果、InternVL2が現在の主要なキャプション付けモデルとなっています。

Florence-2も言及に値します。私の実験では、これは驚くべき性能を持つ非常にコンパクトなモデルです。しかしアーキテクチャが異なるため、他のVLMのように複雑なタグベースのプロンプトを処理できません。より大きなモデルの出力を使用してFlorence-2を訓練し、より高速なキャプション付けを行うことを検討しています。より大きなモデルはハイエンドのコンシューマーGPUでさえまかなえない能力を要求されることを考えると、LoRAのキャプション付けを支援するためのより小さなバージョンを持つことが重要です。

最大の課題は、トレーニングデータセット全体にキャプションを付けることです。もしあなたが、今後のV7リリースで紹介されることに興味があり、80GB以上のVRAMを搭載したサーバーへのアクセスを持ち提供の意思がある企業（または疑わしいほど裕福なfurry）である場合（またはレンタルする意思がある場合）、Civitまたは[email protected]で私に連絡してください。パートナーシップの機会について話し合いましょう。

日本語編集注：不審なほど裕福なfurry、原文のSuspiciously Wealthy FurryはX（当時のTwitter）アーティストのKastry氏「アートは常に富裕層によって支配されている」ことを揶揄するジョークの中で生み出した「疑わしいほど裕福なケモ愛好家」のこと。キャラクターが投稿された後、多くのファンアートが生まれた。

美的分類器（Aesthetic Classifier）

要約：V6の分類器はV7でも良く機能しますが、新しいデータ型を反映するために更新されました。

Pony Diffusionにおける美的分類器の概念と重要性については、「score_9とは何か、そしてPony Diffusionでどのように使用するか」（英語記事）をチェックすることをお勧めします。V5/V6のトレーニングではCLIPベースの分類器を使用し、最終的にはCLIPのViT-L/14バージョン（OpenAIがリリースした最大かつ最後のモデル）に落ち着きました。その性能には概ね満足していましたが、間違ったツールを使用している可能性や、利用可能な最善のCLIPモデルを使用していない可能性について懸念がありました。OAIモデルの後、多くのバージョンがリリースされているからです。

V7の画像を選択する前に、さまざまなCLIPモデルとVisual Transformersを使用して広範なテストを実施しました。ViTモデルは強力なパフォーマンスを発揮する一方で、CLIPモデルの規模で美的サンプルにさらされておらず、より多くのデータを必要とするため、美的理解との整合性に欠けていることがわかりました。たとえば、特定のポーズなどの特定の視覚要素を、他の要素に関係なく、不均衡に高くランク付けします。これは、同様のポーズを使用して非常に異なる画像に同様のランキングをいくつか追加するとすぐに発生します。新旧モデルの違いの大きなサンプルをレビューし、より多くの人間データを追加することでこれを手動で調整しようとしましたが、これはモグラたたきのようになってしまいました。

対照的に、最小のものから最大のEVA-02のような複数のCLIPモデルは、最初から美的理解とより良く整合していました。しかし、全体的な性能はViTや古いモデルほど正確ではありませんでした。必死になって、古いOpenAI ViT-L / 14 CLIPモデルを新しいパイプラインに移植したところ、すぐに最良の結果が得られました。ベンチマークではパフォーマンスが劣っていたもののOAIはモデルをはるかに多様なデータセットで訓練しており、これが実際のタスクではよりよく機能しているのだと思います。多くの時間を「無駄に」したように感じましたが、V6で使用したアプローチが正当化され、まだ有用であることを確認できて嬉しく思います。最後のステップとして、写実的な画像をより良くカバーするために10,000以上の人間の評価を追加し、より正確な評価を得るために別のEloベースの人間のフィードバック収集パイプラインを開始しました（同様にランク付けされた2つの画像からより良い方を選ぶことで）。しかし、これが大きな影響を与えるには時間がかかるでしょう。

V7のリリース後に分類器をリリースする予定なので、LoRAやマージを訓練する際にプロンプトに美的データを追加できるようになります。

スーパーアーティスト

要約：V7は、アーティストのスタイルを直接コピーすることなく、一般化されたスタイルを提供します。

Ponyは常に独自の道を切り開いてきました。そのことが成功に貢献したと願っています。このモデルの特徴のひとつは、特定のアーティストのスタイルを回避することです。しかし、Ponyが提供する弱いスタイル制御は明らかに不十分であることが、一般的および特定のアーティストのスタイルの両方を実装するLoRAの人気に示されています。スタイル制御の強化は、常にV7の最優先事項でした。

最初のステップとして、美的分類器で使用されたものと類似した技術を採用して、アーティストのスタイルを区別できる新しいモデルを開発しました。ViTとCLIPに基づく複数のアーキテクチャ、異なる微調整戦略、異なるタイプの埋め込みの使用を評価しました。美的分類器で経験した問題とは異なり、このタスクでは、はるかに多くのデータにアクセスできました。ViTのパフォーマンスを引き出すために非常に重要であることが証明されました。

興味深い発見は、一部のアーティストが持つ作品の多様性でした。アーティストが「スケッチ」と「フルカラー」のように複数の明確なスタイルを持つことは予想していましたが、数十の作品以上を持つほとんどのアーティストが2つ以上のコアスタイルクラスターと「実験的」な数多くのスタイルを持っていました。

現在、芸術的な埋め込みを生成できるネットワークが装わったことで、訓練データセット内の画像をより一般的で多様なスタイル（例：'anime_42'）でクラスター化し、タグ付けできるようになりました。これらのクラスターが既存のアーティストを密接に模倣しないようにするためにはまだ作業が必要ですが、全体的に結果は有望で、この領域はほぼリスクが取り除かれたと信じています。モデルが訓練されるのを待ってから、完全に影響を評価する必要がありますが、現時点でかなり楽観的です。

また、これがうまく機能しない場合のバックアッププランにも取り組んでいます。コンテンツのキャプションに加えて、画像のスタイルと芸術的特性の記述にのみ焦点を当てたスタイル固有のキャプション付けも行っています。

まだ完全に注力してはいませんが、ユーザーが特定の画像入力に基づいて類似したスタイルを発見できるようなツールのリリースを検討しています。これにより、スタイルの発見が簡素化されるでしょう。

データセット

要約：よりよいデータ選択により、最新のPonyは写実的な画像も扱えるようになりました。

3000万以上のデータセットから1000万枚の高品質画像を選択する作業をほぼ完了し、800万枚がすでに確定しています。データセットは現在、より強力なアニメベースを持ち、Pony/furry/西洋コミックのコンテンツを更新し、そして初めて強力な写真を追加しましたた。全体として、データセットはNSFWが少し少なくなるように調整されています。また、より良い色制御のためのシーンカラーパレットタグなどの実験的機能を追加し、アーティストのブロックリストを更新して、キャラクター名がアーティストとして検出され削除される事例をより多くキャッチするようにしました。

選択が完了したときにより詳細な内訳を提供しますが、現時点でモデルは以下の一般的な構成要素から成り立っています：Pony10%、furry10%、西洋コミック20%、アニメ25%、写実25%、残りの10%がその他のデータです。（Pony Diffusionのデータセットであることを考えると）Ponyのコンテンツの量がV6よりも少ないことに驚かれるかもしれませんが、これらは相対的な数字であり、実際にはすべての種類のデータがはるかに増えています。ただ、一部の領域では「完了」しています。つまり、追加できる高品質の画像がもうあまりないのです。

すべてのデータが安全性フレームワークに準拠していることを確認するための追加作業が残っていますが、現時点でほとんどすべてが完了しています。安全性へのコミットメントの一環として、V7後に安全性分類器とキャラクターコーデックスをリリースする予定です。

次のステップと今後の展開

要約：トレーニングは間近です。

トレーニングパイプラインの準備が整っていることを確認するために、数日以内に小規模な微調整を開始します。美的分類器の調整、キャプション付け、VAEのキャッシングはまだ進行中ですが、フルスケールの訓練を開始する準備が整いつつあります。皆さんの忍耐に感謝し、再び瓶の中に稲妻を捕らえられることを願っています。

日本語編集注：「稲妻を瓶に閉じ込めるような、非常に稀で奇跡的な成功や機会。つまりもう一度、V6の奇跡的な成功を再現したい」の比喩。

最後に：インフラストラクチャとデータセットの状態に非常に興奮しています。V6からV7への移行には多くの再考と再作業が必要でしたが、最終的にプロセスに満足し、今後のバージョンではより短い準備時間が期待できます。また、大量のビデオトレーニングデータを収集することができたので、将来のT2V（テキストから動画）の機会に興奮しています。

Pony Diffusionの使用を楽しんでいてサポートしたいと思われる方は、私たちのDiscordに参加することを検討してください（プロジェクトを支援するためにサブスクすることもできます）。または、Civitジェネレーターを引き続き使用してください。現在、クリエイターとBUZZを共有しています。チップを増やすことでクリエイターの取り分を増やすこともできます。

Pony Diffusion V7に向け、流れに乗って

ベースモデル

キャプション付け

美的分類器（Aesthetic Classifier）

スーパーアーティスト

データセット

次のステップと今後の展開

Comments

Pony Diffusion V7に向け、流れに乗って

ベースモデル

キャプション付け

美的分類器 （Aesthetic Classifier）

スーパーアーティスト

データセット

次のステップと今後の展開

Comments

美的分類器（Aesthetic Classifier）