后訓練微調的重要性
預訓練使大模型獲得豐富的語言和知識表達能力,但其輸出往往與用戶意圖和安全性需求不完全匹配。業內普遍采用三階段訓練流程:預訓練 → 監督微調(SFT)→ 人類偏好對齊(RLHF)。預訓練階段模型在大規模語料上學習語言規律;監督微調利用人工標注的數據讓模型更擅長理解和執行指令;對齊階段則通過強化學習或其他方法進一步優化,使模型輸出更有用、符合人類偏好并更安全。這種后續微調策略顯著提高了模型的實用性和安全性,彌補了純預訓練模型的局限。
DeepSeek的指令微調策略
以DeepSeek V2為例,其指令微調數據集規模高達約150萬條。其中,**“有益”數據約120萬條(包括對話、數學題、編程題等),“安全”**數據約30萬條(涵蓋各種敏感問題及拒絕回答的多樣化示例)。這些數據經人工和算法共同篩選以提升質量,減少模型幻覺和不當回答。微調過程中,模型的訓練目標是使其生成符合示范答案的高質量回復,即最大化正確回答的可能性并注重準確性。在實際經驗中,大規模高質量的SFT數據往往能顯著提升模型表現,DeepSeek V2在這個數據集上訓練了多輪(2個epoch)微調,學習率很低(約5×10^-6)