Sign In

Pony Diffusion V7へ... いや、V6.9へ!

Pony Diffusion V7へ... いや、V6.9へ!

皆さん、こんにちは。

私の最新のPony Diffusionに関する投稿で、次期V7でSD3を活用したいという意向を示しました。詳しくお話ししましょう。

本日、Stability AIは新しいSD3 Mediumモデルを発表しました。オープンモデルコミュニティにとって重要なマイルストーンであり、心よりお祝いを申し上げます。リリースされたのは20億のパラメータを持つ小規模なモデル(SDXLと同程度の規模)のみですが、重要な技術的改良が多数含まれています。SD3が次期Ponyモデルの強力な基盤となり、将来的にはより大規模なモデルも利用できるようになることを期待しています。

予想された通り、SD3の初期リリースではコミュニティやファインチューニングへの支援が不十分でした。私の当初の目標は、これらの課題に真正面から取り組み、早期にSD3ベースのモデルを提供することでした。しかしながら、私のSD3ベースPonyモデル開発への関心はいまだ高いものの、皆さんにもうしばらく待っていただくようお願いしなければなりません。今後のロードマップと意思決定の背景を説明します。

新規の方に説明すると、Pony Diffusionは非写実的でキャラクター重視のモデルであり、幅広いクリエイティブな表現を可能にします。自然言語のプロンプトを使えるほか、アーティスト名に頼らずに多様なアート・スタイルをサポートしています。SD 1.4から始まったPonyは、8つのバージョンを経て進化し、技術的能力とコミュニティへの影響力を高めてきました。最新のV6モデルはSDXLをベースとしていますが、ファインチューンの成果物であるにもかかわらず、高い評価を得るベースモデルとしての地位を確立しています。

個人的には、自分のモデルが人気になり、利用者が自己表現をする様に驚いています。皆に喜びをもたらしているすべての Pony Diffusion の(合法的な)利用を嬉しく思っています。 

現在、Ponyとその派生モデルは、CivitにおけるダウンロードとAI画像生成の両面で、SDXLベースモデルを上回っています。ガレージから大企業と勝負するのは簡単なことではありません。Ponyの人気の高まりは私の誇りです。もちろん、これはStability AIの努力あって可能になったことを十分に承知しています。Stability AIとそのコミュニティの相乗効果は、text2image分野で大きな意味を持っています。

残念ながら、SD3の商用ライセンスに関する曖昧な方針発表は、非常に失望させられるものでした。新モデルの商用利用について、Stability AIから明確かつ積極的なコミュニケーションがなかったこと、特に最初のリリースアナウンスでは非商用ライセンスにしか言及がなかったことで、私は大きな不安を感じました。

Stability AIはプロ向けのメンバーシップを提供しており、少額の料金を支払うことで、年間収益が100万ドル未満の企業であれば、モデルを商用利用できます。PurpleSmartAIはこのプログラムに参加していますが、メンバーシップがSD3をカバーするかどうかについてはアナウンスがなく、Stability AIのDiscordサーバーで説明を求めるしかありませんでした。メンバーシップで十分かもしれないという返事はいくつか受け取りましたが、問題を完全に解決することはできず、Stabilityの技術スタッフでも詳細について確信が持てないようで、製品担当者からの説明はありませんでした。

では、なぜ常に無料で提供してきたPonyが商用ライセンスを気にかけるのでしょうか。Ponyは愛情の結晶であるだけでなく、多大な投資の成果でもあります。膨大なデータの準備とGPU時間のコストは私のコミットメントによるもので、SaaSサービスとの連携など、モデルを様々な形で収益化することは、開発コストや、誰もが無料でPony Diffusionを使えるDiscordサーバーの運営費用の捻出に不可欠です。これらの取り組みによりPonyは商用プロジェクトとなっており、ライセンス要件の尊重からオプトアウトプログラムによるアーティスト意向の尊重まで、正しいやり方で物事を進め、責任あるコミュニティ・フレンドリーなプロジェクトとして維持するよう努めています。 

こうした懸念を明らかにしようと努力する中で、SD3リリースの準備に忙しいSAIの技術チームとようやく話をする機会を得ました。彼らの見解が会社全体を代表しているかどうかは判断しかねますが、会話は後味の悪いものでした。彼らがPonyの目的や技術的な裏付けを理解しているとは思えず、予想外に高圧的な態度でした。問題の核心は、彼らがPonyをニッチに特化した(手間のかからない)ファインチューンに過ぎないと一蹴し、私の技術的な取り組みに興味を示さないことにあるように思えます。 

これは残念な結果でしたが、派生モデルにおけるCSAM保護の改善など、まだ探求すべき重要なトピックがありました。Stabilityならではの専門知識を生かせるこれらの分野は、たとえ技術的な見解が一致しなくても議論する価値があります。残念ながら、これらの領域でより詳しい手法を学ぼうとする私の努力も身を結びませんでした。 

PurpleSmartAIではこれらの問題を非常に真剣に受け止めています。プロジェクトの開始当初から、推論ネットワークとモデルに入力されるデータの人的および自動モデレーションに多大なリソースを投下してきました。SAIがモデル作成者を支援する意思がないとしても、今後もこの分野への投資を継続し、ツールと知見を広くコミュニティと共有していきたいと考えています。 

朗報は、本日のSD3リリースに伴い、新しいライセンス条項が発表されたことです。ただし、状況はさらに複雑になりました。「Professional Tier」は新しい「Creator License」に置き換えられ、月間6000枚のイメージ制限が導入されました。これを超えるにはEnterprise Licenseが必要です。私は喜んで契約したいと考えています。新しい商用ライセンスが事前発表された当日にStability AIに連絡しましたが、返答や情報はまだ得られていません。 

発表によると、大規模/企業向けライセンスは「企業が当社の利用ガイドラインを順守しつつ、モデルの力を最大限に活用できるようにする」ためのものだそうです。しかし、そのガイドラインの中身は明らかにされていません。Stability AIの利用規約(AUP)を指すだけなのかもしれませんが、公式な説明はありません。SAIが定めたAUPは疑いなく合理的で歓迎すべきガイドラインですが、恣意的な取り締まりによってSD3ベースモデルの種類を管理しようとする試みである可能性もあります。もっと明確な答えが欲しいところですが、前述の通り、これまでのところSAIからこの件に関する連絡を受け取れていません。 

今後の展望ですが、SD3への熱意は薄れたものの、Ponyへのコミットメントは揺るぎません。次期V6.9("noice")では、前回のV7アップデートで説明した技術的改良をすべて取り入れる予定で、数週間後に予定しているモデルのトレーニング開始に合わせて初期サンプルをお見せできることを楽しみにしています。 

SD3ベースのV7については、いずれライセンスの懸念が解消され、エンタープライズライセンスでモデル制限が課される心配が杞憂に終わることを願っています。妥当な条件であればライセンスを取得するつもりです。それまでは待つしかありません。 

いずれにせよ、変わらぬご支援に感謝いたします。次期モデルのリリースを楽しみにお待ちいただき、リリースの暁にはともにお祝いしましょう! 

19

Comments