Overview of Part 2

Part 2 transforms your generated character images from Part 1 into a professional LoRA training dataset ready for CivitAI or any other platform. This involves technical preparation, file organization, metadata creation, and understanding CivitAI's specific requirements for successful character LoRA training.

Dataset Preparation Fundamentals

Understanding CivitAI Dataset Requirements

Technical Specifications:

Image Format: PNG or JPG (PNG recommended for quality)
Resolution: Minimum 512x512, optimal 768x768 or 1024x1024
Aspect Ratio: Square images (1:1) work best for character training
File Size: Under 10MB per image (typically 2-5MB optimal)
Color Profile: sRGB color space recommended

Dataset Structure Requirements:

Minimum 20 images (60-80 recommended for characters)
Maximum 150 images per dataset (diminishing returns beyond this)
Consistent image quality across all training images
Balanced variety in poses, expressions, and scenarios

File Organization and Naming Conventions

A good file structure would look as shown below and this may work for other platforms, however, I have found that CivitAI works best with your caption and image files together, just make sure you have one for one and that the file naming coincides

Best Practice Folder Structure:

Marisol_GV_Dataset/
├── images/
│   ├── 001_marisol_portrait_front.png
│   ├── 002_marisol_portrait_side.png
│   ├── 003_marisol_fullbody_casual.png
│   ├── 004_marisol_expression_happy.png
│   └── ...
├── captions/
│   ├── 001_marisol_portrait_front.txt
│   ├── 002_marisol_portrait_side.txt
│   ├── 003_marisol_fullbody_casual.txt
│   └── ...
├── metadata.json
└── dataset_info.txt

Best Practice Folder Structure:

Marisol_GV_Dataset/
├── 001_marisol_portrait_front.png
├── 002_marisol_portrait_side.png
├── 003_marisol_fullbody_casual.png
├── 004_marisol_expression_happy.png
└── ...
├── 001_marisol_portrait_front.txt
├── 002_marisol_portrait_side.txt
├── 003_marisol_fullbody_casual.txt
└── ...
├── metadata.json
└── dataset_info.txt

File Naming Best Practices:

Sequential Numbering: Use 3-digit prefixes (001, 002, 003...)
Descriptive Names: Include character name and image type
Consistent Format: Maintain same naming pattern throughout
No Special Characters: Avoid spaces, use underscores instead
Matched Pairs: Each image file should have corresponding caption file

Image Processing and Standardization

I have found that if you have followed through with part one and selected images that meet your requirements from the beginning you may not need to do much in the way of batch processing or upscaling.

Pre-Upload Image Processing:

Resolution Standardization:

Batch Resize: Process all images to consistent resolution (768x768 recommended)
Aspect Ratio: Crop to square format, focusing on character
Quality Check: Ensure no compression artifacts or blur
Format Consistency: Convert all to PNG for best quality retention

Quality Enhancement Steps:

Upscaling: Use AI upscalers for images below target resolution
Noise Reduction: Clean up any generation artifacts
Color Correction: Ensure consistent lighting and color tone
Crop Optimization: Frame character optimally within square format

Tools for Batch Processing:

BIRME (Bulk Image Resizing Made Easy) - Web-based batch resizer
XnConvert - Free batch image processor
ImageMagick - Command-line tool for advanced users
Adobe Bridge/Lightroom - Professional batch processing

Caption File Creation

Caption File Format:

Each image needs a corresponding .txt file with identical filename:

001_marisol_portrait_front.png → 001_marisol_portrait_front.txt
Contains single line of descriptive text
No line breaks or special formatting

Caption Writing Standards for Character LoRAs:

Character-First Format:

Marisol_GV, Latina woman with asymmetric cut long thick wavy dark hair, colorful highlights, glossy lips, large hoop earrings, [specific details about this image]

Caption Examples by Image Type:

Portrait Captions:

Marisol_GV, Chicana woman with asymmetric cut dark hair, colorful highlights, glossy lips, light tanned skin, large hoop earrings, smiling, front view, portrait

Full Body Captions:

Marisol_GV, Latina woman with thick wavy dark hair, colorful highlights, large soft breasts, light tanned skin, large hoop earrings, standing, floral print long skirt and white shirt, full body shot

Expression-Focused Captions:

Marisol_GV, Chicana woman with asymmetric cut dark hair, colorful highlights, glossy lips, large hoop earrings, shy expression, looking at viewer, three-quarter view

Action/Pose Captions:

Marisol_GV, Latina woman with long thick wavy dark hair, colorful highlights, light tanned skin, large hoop earrings, sitting, crossed legs, casual pose, medium shot

Caption Quality Control:

Consistency Checklist:

☐ Trigger word "Marisol_GV" appears first in every caption

☐ Core features mentioned in consistent terminology

☐ Image-specific details accurately described

☐ No contradictory information included

☐ Grammar and spelling verified

Common Caption Mistakes to Avoid:

Inconsistent feature descriptions across files
Missing trigger word or character name
Overly long captions (keep under 200 characters)
Vague descriptions that could apply to anyone
Technical terms from prompts (like "1girl" or resolution specs)

Metadata and Documentation Files

Now I am the first to admit that this step could be seen as overkill, however, documentation will come in handy later when you are looking to build version two.

Creating metadata.json:

{
  "character_name": "Marisol_GV",
  "character_type": "Original Character",
  "total_images": 75,
  "creation_date": "2025-01-15",
  "source_tool": "https://perchance.org/ai-text-to-image-generators",
  "core_features": [
    "asymmetric cut long thick wavy dark hair",
    "colorful highlights",
    "Latina/Chicana features",
    "glossy lips",
    "light tanned skin",
    "large soft breasts",
    "large hoop earrings"
  ],
  "image_categories": {
    "portraits": 25,
    "full_body": 20,
    "expressions": 15,
    "poses": 15
  },
  "training_notes": "Focus on maintaining facial features and signature hairstyle. Hoop earrings are essential identifier."
}

Dataset Information File (dataset_info.txt):

MARISOL_GV CHARACTER DATASET
============================

Character: Marisol_GV (Original Character)
Total Images: 75
Resolution: 768x768 pixels
Format: PNG

CORE FEATURES:
- Asymmetric cut long thick wavy dark hair
- Side-parted hair with colorful highlights
- Latina/Chicana facial features
- Glossy lips
- Light tanned skin
- Large soft breasts
- Large hoop earrings (signature accessory)

DATASET COMPOSITION:
- Portrait shots: 25 images
- Full body shots: 20 images
- Expression variations: 15 images
- Pose variations: 15 images

TRAINING RECOMMENDATIONS:
- Learning Rate: 0.0001 (start conservative)
- Training Steps: 1000-1500
- Batch Size: 1-2
- Focus on facial feature consistency
- Monitor for overfitting after 800 steps

TRIGGER WORD: Marisol_GV

CivitAI Upload and Configuration Process

Preparing for Upload

Final Quality Assurance:

Image Review: Final check of all images for consistency
Caption Verification: Proofread all caption files
File Structure: Verify folder organization and naming
Backup Creation: Save complete dataset locally before upload

Compression and Archive:

Create ZIP Archive: Compress entire dataset folder
Size Limits: Ensure archive under CivitAI's size limits (typically 2GB - 1000 Files, individual image files not over 50MB)
Test Archive: Verify ZIP file opens correctly before upload

Account Requirements:

CivitAI Account: Free registration required
Creator Mode: Enable creator permissions for model uploads
Profile Setup: Complete profile for credibility
Community Guidelines: Review terms of service for character content

Navigating to Model Creation:

Log into CivitAI account
Click "Create" in top navigation
Select "Model" from dropdown
Choose "LoRA" as model type
Begin model configuration process

Model Configuration for Character LoRAs

Basic Model Information:

Model Details:

Model Name: Make it some clear and understandable, eg. "Marisol_GV - Original Character"
Model Type: LoRA
Base Model: Specify the base model you'll train on (SD 1.5, SDXL, etc.) I personally prefer Pony and Illustrious.
Model Description: Detailed description of your character
Tags: Relevant tags (character, OC, Latina, portrait, etc.)

Description Template:

# Marisol_GV - Original Character LoRA

A LoRA model trained to generate Marisol_GV, an original Latina character with distinctive features.

## Key Features:
- Asymmetric cut long thick wavy dark hair with colorful highlights
- Latina/Chicana facial features with glossy lips
- Light tanned skin tone
- Signature large hoop earrings
- Consistent character recognition across poses and expressions

## Usage:
Trigger Word: Marisol_GV
Recommended Weight: 0.7-1.0
Compatible Base Models: [List compatible models]

## Sample Prompts:
- "Marisol_GV, portrait, looking at viewer"
- "Marisol_GV, full body, standing, casual outfit"
- "Marisol_GV, smiling, three-quarter view"

## Training Details:
- Dataset: 75 high-quality images
- Training Steps: [To be updated after training]
- Learning Rate: [To be updated after training]

Advanced Configuration Options:

When it comes to the advanced settings I know they are there, but luckily I have not needed to play with anything so I leave everything as default and for your first models I would suggest you do the same.

Training Parameters Section:

Learning Rate: 0.0001 (conservative starting point)
Training Steps: 1000-1500 (adjust based on dataset size)
Batch Size: 1-2 (character LoRAs need careful attention)
Network Dimension: 32-64 (higher for complex characters)
Network Alpha: 16-32 (typically half of network dimension)

Regularization Settings:

Use Regularization Images: Recommended for character LoRAs
Regularization Weight: 0.1-0.3
Class Token: "woman" or "person" for general regularization

Dataset Upload Process

Step-by-Step Upload:

Select Dataset Upload: Choose "Upload Training Dataset" option
Upload ZIP File: Select your prepared dataset archive
Extraction Verification: Confirm CivitAI extracted files correctly
Image Preview: Review uploaded images in CivitAI interface
Caption Verification: Check that captions loaded correctly

Upload Troubleshooting:

Common Upload Issues:

File Size Exceeded: Compress images or reduce dataset size
Format Errors: Ensure all files are proper format (PNG/JPG, TXT)
Naming Conflicts: Check for duplicate filenames or special characters
Archive Corruption: Re-create ZIP file if extraction fails

Resolution Steps:

Verify internet connection stability during upload
Try uploading during off-peak hours for better speeds
Contact CivitAI support for persistent technical issues
Keep local backup in case re-upload is needed

Training Configuration and Launch

Final Training Setup:

Parameter Optimization for Characters:

Learning Rate: 0.0001
Training Steps: 1200
Batch Size: 1
Network Dimension: 64
Network Alpha: 32
Optimizer: AdamW
Scheduler: Cosine
Warmup Steps: 100

Advanced Options:

Mixed Precision: Enable for faster training
Gradient Checkpointing: Enable to reduce memory usage
Save Every N Steps: 100-200 steps for monitoring progress
Keep Only N Models: 3-5 checkpoints to save storage

Pre-Training Checklist:

☐ All images uploaded successfully

☐ Captions loaded and verified

☐ Training parameters configured

☐ Base model selected appropriately

☐ Regularization settings applied

☐ Preview generation settings tested

Launching Training:

Review All Settings: Double-check parameters before starting
Estimate Training Time: CivitAI will provide time estimates
Monitor Initially: Watch first few steps for obvious issues
Check Intermediate Results: Review sample generations periodically

Training Monitoring and Management

Progress Tracking:

Key Metrics to Monitor:

Loss Curve: Should generally trend downward
Sample Generations: Character consistency over time
Training Speed: Steps per minute/hour
Memory Usage: Ensure not hitting limits

Sample Generation During Training:

Enable periodic sample generation (every 100-200 steps)
Use consistent test prompts to track progress:

  Marisol_GV, portrait, front view, looking at viewer

  Marisol_GV, full body, standing, casual outfit

  Marisol_GV, smiling, three-quarter view

When to Stop Training:

Optimal Stopping Indicators:

Character features consistently generated
Good variety in poses and expressions
No obvious overfitting signs
Sample quality plateaued or stable

Overfitting Warning Signs:

Images become too similar to training data
Loss of variation in generations
Artifacts or distortions appear
Character becomes too rigid or "baked in"

Training Completion Steps:

Select Best Checkpoint: Choose optimal training step
Download LoRA File: Save final model locally
Test Generation: Verify LoRA works in your local setup
Documentation Update: Add training results to model description

Post-Training Optimization and Publishing

Model Testing and Validation:

Comprehensive Testing Protocol:

Basic Generation Test: Simple trigger word prompts
Style Compatibility: Test with different base models
Weight Sensitivity: Test various LoRA weights (0.5, 0.7, 1.0, 1.2)
Prompt Flexibility: Test complex and minimal prompts
Negative Prompt Response: Test with style negatives

Quality Assurance Checklist:

☐ Character instantly recognizable in generations

☐ Features consistent across different prompts

☐ No artifacts or distortions in normal use

☐ Compatible with intended base models

☐ Responds appropriately to weight adjustments

Model Publication:

Version Information: Clear version numbering (v1.0, v1.1, etc.)
Example Images: Upload best sample generations
Usage Instructions: Clear guidance for optimal results
Compatibility Notes: Which base models work best

Community Engagement:

Respond to Comments: Help users with issues
Update Documentation: Based on user feedback
Version Updates: Improve model based on community input
Share Techniques: Contribute to community knowledge

Troubleshooting Common Dataset and Training Issues

Image Consistency Issues:

Problem: Generated LoRA produces inconsistent character features
Solution: Review dataset for feature drift, remove inconsistent images, retrain with stricter quality control

Caption Quality Problems:

Problem: LoRA doesn't respond well to specific prompts
Solution: Audit captions for consistency, ensure trigger word appears first in all captions, verify feature descriptions match across files

Dataset Size Issues:

Problem: Overfitting with small dataset or underfitting with large dataset
Solution: Optimal range is 60-80 images for characters, adjust training steps proportionally

Training Parameter Problems

Learning Rate Issues:

Too High: Rapid overfitting, loss of detail, unstable training
Too Low: Very slow learning, may not capture character effectively
Solution: Start with 0.0001, adjust based on loss curve behavior

Training Steps Problems:

Too Few Steps: Character not fully learned, inconsistent features
Too Many Steps: Overfitting, loss of flexibility, baked-in poses
Solution: Monitor sample generations, stop when quality plateaus

CivitAI Platform Issues

Upload Failures:

Large File Size: Compress images or reduce dataset size
Network Timeouts: Upload during off-peak hours, stable connection
Format Issues: Verify file formats match requirements exactly

Training Failures:

Out of Memory: Reduce batch size, enable gradient checkpointing
Invalid Parameters: Check all settings against CivitAI documentation
Base Model Compatibility: Ensure base model supports your settings

Best Practices Summary for Part 2

Dataset Preparation Excellence:

Quality Over Quantity: 60 perfect images beats 100 inconsistent ones
Systematic Organization: Consistent naming and folder structure
Caption Precision: Every word matters in training effectiveness
Technical Standards: Meet all CivitAI requirements exactly

Training Success Factors:

Conservative Parameters: Start with proven settings, adjust gradually
Active Monitoring: Watch training progress, intervene if needed
Testing Throughout: Regular sample generation during training
Documentation: Record what works for future reference

Community Contribution:

Clear Documentation: Help others understand your model
Responsive Support: Assist community with usage questions
Knowledge Sharing: Contribute techniques and improvements
Ethical Considerations: Respect copyright and community guidelines

Conclusion

Part 2 has taken your character images from Part 1 and transformed them into a professional, CivitAI-ready training dataset. You've learned the technical requirements, organizational standards, and training parameters needed for successful character LoRA creation.

Part 2 Achievements:

Professional dataset structure and organization
High-quality caption creation and metadata preparation
CivitAI upload and configuration mastery
Training parameter optimization for character LoRAs
Monitoring and troubleshooting capabilities
Community publishing and support knowledge

With both Part 1 (image generation) and Part 2 (dataset creation and training) mastered, you have a complete workflow for creating high-quality Original Character LoRAs using https://perchance.org/ai-text-to-image-generators and CivitAI. This systematic approach ensures consistent, recognizable character generation while contributing valuable resources to the AI art community.

Part 2: Creating and Importing Character Datasets into CivitAI

Overview of Part 2

Dataset Preparation Fundamentals

Understanding CivitAI Dataset Requirements

Technical Specifications:

Dataset Structure Requirements:

File Organization and Naming Conventions

Pre-Upload Image Processing:

Caption File Creation

Caption Writing Standards for Character LoRAs:

Metadata and Documentation Files

CivitAI Upload and Configuration Process

Preparing for Upload

CivitAI Account Setup and Navigation

Model Configuration for Character LoRAs

Advanced Configuration Options:

Dataset Upload Process

Upload Troubleshooting:

Training Configuration and Launch

Launching Training:

Training Monitoring and Management

When to Stop Training:

Post-Training Optimization and Publishing

Troubleshooting Common Dataset and Training Issues

Training Parameter Problems

CivitAI Platform Issues

Best Practices Summary for Part 2

Conclusion

Part 2: Creating and Importing Character Datasets into CivitAI

Overview of Part 2

Dataset Preparation Fundamentals

Understanding CivitAI Dataset Requirements

Technical Specifications:

Dataset Structure Requirements:

File Organization and Naming Conventions

Pre-Upload Image Processing:

Caption File Creation

Caption Writing Standards for Character LoRAs:

Metadata and Documentation Files

CivitAI Upload and Configuration Process

Preparing for Upload

CivitAI Account Setup and Navigation

Model Configuration for Character LoRAs

Advanced Configuration Options:

Dataset Upload Process

Upload Troubleshooting:

Training Configuration and Launch

Launching Training:

Training Monitoring and Management

When to Stop Training:

Post-Training Optimization and Publishing

Publishing and Community Sharing:

Troubleshooting Common Dataset and Training Issues

Dataset-Related Problems

Training Parameter Problems

CivitAI Platform Issues

Best Practices Summary for Part 2

Conclusion