Can you do "someone" for me?
Anyone here with the knowledge and hardware to make a Textual Inversion or a LoRA? I want to recreate a person for a personal project, but tbh, the multiple tutorials I've checked confuse me a lot, and my GPU is not as great. I don't want a Checkpoint because I want to be able to use it with different models and styles. Thanks in advance.
2 Answers
Если это кому-то поможет, вот мой способ обучения на конкретного человека:
1. Количество исходных изображений должно быть ~50 для лучшего результата. Для приемлемого результата ~15.
2. На изображении должен быть только целевой человек.
3. Разные позы, одежда и окружение на фотографиях.
4. Если вас интересует генерация изображений в конкретной позе, то в исходных фотографиях должны быть те, где целевой персонаж либо полностью воспроизводит эту позу, либо его лицо в достаточной степени развёрнуто, чтобы совпасть с целевой позой; потому что нейросеть не умеет "додумывать" как выглядит человек в определённой позе, если нейросеть не видела человека в этой позе.
6. Чем выше качество фотографий, тем лучше.
7. Как можно меньше артефактов на лице, например, макияжа.
8. Каждое фото обработать в несколько разрешений, можно с помощью "предварительной обработки фото" во владке "обучение" прямо в A1111, оно работает куда лучше фотошопа и других редакторов.
9. Сгенерировать подсказки через утилиты Лоры со стандартными настройками.
10. В целевой папке должно быть указано 350 шагов, т.е. папка вида 350_Test.
Ну и конечно же, во многом успех зависит от выбранной модели. Лучше выбирать те, где акцент делается на фотореалистичных лицах.
Когда обработаете изображения и лора сформирует файл, не забудьте, что лучше всего генерация будет работать с соотношением высоты и ширины, которые такие же, как и у исходных фото. Именно для этого нужно много разных версий для одной фотографии.