一、不同維度的LoRA訓練步數建議
-
2D風格訓練
- 數據規模:建議20-50張高質量圖片(分辨率≥1024×1024),覆蓋多角度、多表情的平面風格。
- 步數范圍:總步數控制在1000-2000步,公式為
總步數 = Repeat × Image × Epoch / Batch_size
。 - 示例:Image=30張,Repeat=10,Epoch=5,Batch_size=2 → 750步(偏低,需增加Epoch至10)。
-
2.5D風格訓練
- 數據規模:30-60張圖片,需兼具平面與立體細節(如半厚涂、輕3D渲染)。
- 步數范圍:推薦1500-3000步,通過提高Epoch(8-12輪)增強細節捕捉能力。
-
3D風格訓練
- 數據規模:50-100張高精度建模圖,需包含光影、材質、多視角特征。
- 步數范圍:建議15000步左右,搭配Dadaptation優化器動態調整學習率。
二、不同底模的步數適配策略
底模類型 | 適用場景 | 步數調整要點 | 推薦總步數范圍 |
---|---|---|---|
Pony | 二次元、輕量化風格 | 降低Epoch(5-8輪),防止過擬合 | 800-1500步 |
F1 | 厚涂、ACG風格 | 提高Repeat至12-15次以強化質感 | 1200-2500步 |
SD1.5 | 通用型、人像與場景兼容 | 標準參數(Repeat=10,Epoch=10) | 1000-2000步 |
Illustrious | 高精度3D與寫實風格 | 增大Batch_size(4-6)以加速深度訓練 | 2000-3000步 |
三、LoRA訓練小技巧
數據預處理優化
- 使用智能裁剪工具(如ComfyUI)聚焦主體,避免“截肢”或背景干擾。
- 結合BLIP或WD 1.4 Tagger生成標簽后,手動補充細節描述(如材質、光源)。
參數調優技巧
- 學習率平衡:Unet學習率設為0.0001-0.001,Text Encoder學習率降低至其1/5-1/10。
- 正則化圖像:添加5-10張非目標風格圖片(如素描),提升模型泛化性。
硬件適配策略
- 顯存≤6G時,Batch_size=1,通過提高Repeat或Epoch補償訓練強度。
- 顯存≥12G時,Batch_size=4-6,結合梯度累積加速收斂。
模型性能評估
- Loss率監控:保持Loss在0.3-0.5區間,過低(<0.1)可能過擬合。
- 多輪次保存:每輪訓練保存模型,測試時選擇泛化性與細節平衡的版本。
四、典型訓練方案示例
場景 | 底模 | Image數量 | Repeat | Epoch | Batch_size | 總步數 |
---|---|---|---|---|---|---|
輕量2D角色訓練 | Pony | 25張 | 10 | 6 | 2 | 750步 |
深度3D材質訓練 | F1 | 50張 | 15 | 10 | 4 | 1875步 |
通用寫實場景訓練 | SD1.5 | 40張 | 12 | 8 | 3 | 1280步 |
總結
- 訓練步數需根據公式動態調整,優先保證數據質量與標簽精準度。
- 2D/2.5D場景推薦1000-3000步,3D場景建議提升至1500步以上。
- 底模選擇上,SD1.5和Illustrious適合通用需求,Pony/F1需針對性優化參數。
- 結合正則化圖像與學習率平衡策略,可顯著提升模型泛化性。