Tutorial - Como creo Loras en CivitAI (español)

Hola!! Bueno, ya que el español es mi idioma original, y hay pocos articulos tutoriales en este idioma aquí en la página, y además, entre mis seguidores muchos hablan español, he decidido hacer este tutorial para explicar de forma "sencilla" como crear buenos Loras usando el Entrenador de loras de la página.

Empecemos con el ejemplo práctico pues:

Decidir el Personaje

Me parece que es un poco obvio que primero debes tener idea de que personaje vas a poner a entrenar. Para este ejemplo haremos a Ranma Saotome mujer, del Remake de Netflix.

Armar el dataset

Ya que tienes idea de a quien quieres crear, es hora de buscar las imágenes. Yo recomiendo de 30 a 50 imágenes para personajes, y para estilos, arriba de 100 está perfecto. Mis estilos de Fire Emblem y Sugimori fueron entrenados con un dataset de 140 y 171 imágenes respectivamente.

Pero ¿De dónde vas a sacar tanta imágen?

Empieza siempre buscando en Pinterest. Yo ya tengo preparado un album con las imagenes seleccionadas. Si no encuentras suficientes imágenes en Pinterest, puedes buscar otros loras del mismo personaje y bajar unas cuantas imágenes.

Ya una vez juntadas las imagenes, descárgalas todas y colócalas en una carpeta.

Las imágenes posiblemente tengan todas tamaños distintos, por lo que lo mejor es hacerles un escalado. Para eso, hay una pagina bastante buena llamada https://www.birme.net/ donde subes tus imagenes y las puedes escalar. Yo por lo general uso un tamaño de 1400px de altura.

Le das donde dice Save as Zip. Posteriormente te vas a la pagina de Civit, y te vas a entrenar tu lora.

Entrenar tu Lora.

Lo primero es seleccionar un Tipo de Lora y el nombre. Como este será un lora de personaje, seleccionamos Character y le damos el nombre, para posteriormente apretar next.

Posteriormente se te abrirá un anuncio de que accedes que el dataset lo armaste tu solo y que se apega a terminos y condiciones y blah blah, le das aceptar y se abre esta ventana:

Como ves, aparecen opciones para importar desde el generador de imagenes, añadir desde el perfil, o reutilizar un dataset para probar otro modelo, por ejemplo. Nosotros le daremos en el centro para subir imágenes y subiremos el archivo zip que descargamos previamente ya escalado.

Una vez cargadas las imagenes, lo primero que hay que hacer es poner una palabra de activación para el lora. Puede ser la que tu quieras, pero recomiendo que no sea directamente el nombre a secas del personaje, ya que los modelos basados en XL tienen personajes que aparecen sencillamente sin Loras, pero no son muy semejantes o no varian en estilo. Yo elegiré "ranmaxd" para este ejemplo.

Lo segundo que hay que hacer es correr la ventana de auto label.

Te recomiendo que elijas tags porque es un personaje de animacion, las captions son para modelos en flux para personajes reales.
Donde dice Max tags, selecciona 30, y deja el min threshold igual (este ultimo es para que los tags sean mas específicos, pero he notado que falla más si le das valores más altos).

Le das en Submit y empezará a auto etiquetar las imágenes. Una vez terminado el procedimiento, revisa de preferencia imágen por imágen o las etiquetas en conjunto.

No es recomendable que en los tags incluyas nombres de personajes ya que eso podría hacer que falle tu entrenamiento. También revisa si faltan etiquetas. Por ejemplo el personaje de ranma deberia tener "red hair, braided ponytail, single braid, y red eyes" en la gran mayoria de las imagenes, si no es que en todas. Muchas veces, si las etiquetas de caracteristicas fisicas son iguales en todas tus imagenes, deberias colocarlas desde la ventana donde seleccionas el numero de etiquetas que quieres.

Aquí quiero añadir una observación. Si quieres que tu personaje sea muy flexible, es decir, que puedas lograr imagenes más creativas, con distintos estilos, se recomienda etiquetar todas las caracteristicas que tenga, por ejemplo color de cabello, largo del cabello, color de ojos, para que puedas hacer al mismo personaje con distintos tipos de cabello, color de ojos, y otras caracteristicas.

Al hacer esto, se provoca que el personaje tenga que estar delimitado por los prompts que se colocan en la imagen. Si por ejemplo yo coloco "1girl, ranmaxd, blonde hair, single braid, braided ponytail, blue eyes" en vez de darme la imagen de ranma de siempre, le teñirá el cabello de rubio y los ojos azules.

Por el contrario, si quieres que tu lora sea estricto con el personaje y que todas las imagenes sean iguales, coloca solo una etiqueta (como DefRanma) en todas las imagenes donde Ranma esté con su camisa roja manga larga. Esto hará que, a la hora de usar tu lora, si en los prompts pones "1girl, ranmaxd, Defranma, action pose," la imágen resultante será Ranma, con su cabello rojo, trenza, ojos rojos, y su camisa roja manga larga en una pose de accion.

Donde dice Prepend Tags, son etiquetas importantes que deberian ir en todas las imagenes, ahi podrías poner por ejemplo las caracteristicas fisicas del personaje.

Una vez que todas las etiquetas estan colocadas y que no hayan etiquetas incorrectas, dale donde dice:

y dale al Next.

Se abrira, despues de subirse el dataset ya configurado, la ventana final.

En esta parte puedes elegir si entrenar múltiples modelos, por si quieres crear al mismo tiempo uno para Pony diffussion y uno en Illustrious, por ejemplo. Nosotros elegiremos Illustrious, y últimamente he visto que usar modelos como wainsf, mejoran muchísimo la calidad del modelo.

Yo entrenare con wai nsfw, aunque, ahi mismo te explica que tiene mas riesgo de fallar, y cuesta mas buzz, en este caso 1000 buzz. Entrenarlo con el modelo básico de Illustrious, cuesta solo 500 buzz. No tiene que ser buzz amarillo, puedes usar buzz azul, por lo que, si no tienes modelos, tocará hacer misiones en civit para obtener buzz o participar en bountys.

Despues, coloca algunos prompts, para las tres imágenes de ejemplo:

Para los training parameters te recomiendo que ajustes el numero de repeticiones hasta que te de un total de entre 500 y 600 steps, un total de 10 epoch, la resolución en 1024, y clip skip en 2.

Estos parametros dejalos exactamente igual. En mi poca experiencia haciendo loras, te dan mucha flexibilidad para usar otros loras de estilos con el tuyo, incluso mezclar dos loras de personaje.

Por último le damos en submit, para Iniciar el entrenamiento.

Se abrirá esta ventana donde puedes ver los entrenamientos que has hecho y seleccionarlos.

Como ves, al momento de la captura, apenas está empezando a entrenar el lora de Ranma, el sistema nos dijo que tardara alrededor de 49 minutos, por lo que puedes si quieres irte a tomar un cafe, jugar un videojuego, ir al baño o ver videos en you....tube!! obvio que youtube ;).

Una vez que los resultados de las epoch se vayan mostrando, irán cargándose también los preview de las imágenes que se irán generando. Por lo general la epoch #10 es la que mejores resultados da, aunque variará respecto a tu gusto.

Por último solo queda descargar la epoch que te guste y probarla, si tienes forma de generar imágenes en modo local por automatic 111 o forge por ejemplo, o simplemente darle en continuar, para publicar el modelo en CivitAi y probarlo con el generador de la página.

Si tienes dudas, puedes preguntarme en los comentarios, estaré feliz de ayudarte, y espero que este tutorial te sirva para ir obteniendo Buzz para entrenar mas loras.