Vroidのオリジナルモデルをどんな感じのデータセットでどんな設定でどれくらい学習させればいい感じになるのかの参考に公開します。
モデルは7thのv3Cです。NAIやAなんとかというモデルで学習させたほうが良いらしいですが最初から生成したいモデルが決まっている場合はそのモデルで学習させて大丈夫そうです。
設定はポップアップ版のDIMを256にしてほかはデフォルトだったはずです。
データセットは14080stepのところに素材を。7040stepのところに正規化素材をアップロードしてます。正規化画像は同解像度(512*512)の透過PNGです。
下のモデルをVroidで読み込み使っています。
https://hub.vroid.com/characters/324070346244547041/models/8715183545374415581
素材22枚×20回繰り返し
1epochあたり440stepで2epochごとに出力しています。
7040stepを0.5-1.0くらいに薄めて使うのがきせかえとか出来ていい感じです。
体感ですが
red hair,medium hair, purple eyes, ahoge, <lora:utinoko akagami-000016:0.5>,swimsuit, bikini, dynamic pose, beach,
という感じで
(髪型などの身体的特徴)<loraのタグ>,服装やポーズなど
の順番でプロンプト組むといい感じです。
Controlnetも問題なく適用できそうです。
"base_model": 7th_anime_v3_C.safetensors
"change_output_name": "utinoko akagami",
"load_json_path": null,
],
"net_dim": 256,
"alpha": 256.0,
"scheduler": "cosine_with_restarts",
"cosine_restarts": 4,
"scheduler_power": 1,
"warmup_lr_ratio": null,
"learning_rate": 0.0001,
"text_encoder_lr": 0.0001,
"unet_lr": 0.0001,
"num_workers": 1,
"persistent_workers": true,
"batch_size": 2,
"num_epochs": 30,
"save_at_n_epochs": 2,
"shuffle_captions": true,
"keep_tokens": 1,
"max_steps": null,
"train_resolution": 512,
"min_bucket_resolution": 320,
"max_bucket_resolution": 960,
"lora_model_for_resume": null,
"save_state": false,
"load_previous_save_state": null,
"training_comment": null,
"unet_only": true,
"text_only": false,
"clip_sk