El código usa librerías que debería podes ejecutarse en cualquier entorno ademas de colab y me parece bastante bien explicado en el colab, en todo caso se puede usar comentarios. Ayer me quede hasta las dos de la manana rompiéndome la cabeza, no para crear el bot sino para crear algunas maneras de sin usar gpu lograr una buena gestion de la descarga masiva, parecería que todo anda bien. Estoy algo cansado de anoche, por lo que dejo la explicación mas detallada para otro día. Por el momento solo se puede poner el tags a descargar y no un sistema de search como el de rule 34, pero tengo entendido que es bastante fácil de hacer ponerle ese sistema. Sin embargo , por hoy no tengo ganas, tal vez a la noche.
~~~~~~~ V2 --> Cambios
Se agrego la opcion de limpiar las carpetas, es decir eliminar imagenes y .txt , de esta forma no deberas reiniciar el entono de ejecucion para empezar otro prollecto:
Se Agrego la opcion de descargar los tags de las imagenes puestos por los usuarios, de tal maneras podras usar el programa tanto para entrenar Loras como entrenar bots de reconocimientos de imagenes.
Formato estándar para Loras:
~~~~~V3
Recrear el search box del sitio (Venia de base)
Se agrego un tutorial de la funcion usada en espanol
Se agrego un tutorial de como usar el search box de rule34
Se agrego el eliminador de imagenes duplicadas
~~~~V5
Se testio el codigo completo y se logro un exito
Se agrego la funcion de descartar videos y gif de la funcion de descarga
Se modifico el Eiminador Big Data V2 para hacerlo mas eficiente para grandes volúmenes ( por el momento 150 y anda de diez)
Se aumento la velocidad de descarga de la funcion de descarga.
~~~~~V6
Se aumento aun mas la velocidad de descarga.
Se arregle el problema con el metodo imagehash
Se agrego una funcion a la descarga de archivos para definir un tamano minimo para las imagenes descargadas del entorno de ejecucion
~~~~~V7
Se volvio a poner el descargaor de tag que por un problema de guardado se habia perdido
Se agrego otro metodo de bajada de imagenes (supuestamente mas rapido)
Se agrego una nueva funcion: "Tags por comentarios" , la idea y el motivo por la cual la agrego esta en el colab.
El metodo de salida es estandar, pero se agregan una comillas indicando la separacion de comentario y que es un comentario. En principio el programa deberia deducir tras una buena cantida de comentarios que las comillas indican algo, seria interesante ver este metodo de tag combinado con otros metodos de tags. ( Si quieren una funcion para ir combinando tags de distintos archivos .txt pidanla)
~~~~V8
En general se modificaron la mayoría de código principales para que sea menos spamero y molestos de usar.
Se agrego una funcion pra verficar el mach entre las imagenes descargadas y los archivo .txt descargados, de esa forma se pueden eliminar mas facilmente los tag de los .gif que no pueden ser usados. Ademas se puede eliminar imagenes y luego quedarse unicamente con los tags de las que son mas aptas para el dataset de forma mas comoda.
~~~~~~~ Futuras adiciones:
-Algo mas que se necesite? (Dejalo en comentarios) , cualquier idea que se te ocurra para mejorar la calidad de vida del codigo ayuda a todos