【如何把領域文獻批量轉換為可供模型微調的數據集?】 https://www.bilibili.com/video/BV1y8QpYGE57/?share_source=copy_web&vd_source=8f9078186b93d9eee26026fd26e8a6ed
幾個問題
首先要先搞清楚這幾個問題
- LLM 訓練方法
- 如何選擇合適的訓練方式
- 如何判斷是否需要微調 LLM
- LLM 微調數據集準備
- 數據質量/數量
- 數據多樣性
- LLM的數據管道如何構建
幾篇論文
在書生大模型微調模型打榜過程中,很明顯的一個感受就是數據質量的好壞,直接影響模型的評估效果,所以我要看幾篇論文來了解模型微調的數據處理的技術論文。
數據處理在微調過程中扮演著核心角色,包括數據清洗(去除噪聲和冗余)、預處理(格式化數據以適應模型輸入)和增強(增加數據多樣性以提高泛化能力)
大模型微調前的數據預處理和數據科學中建模前的數據預處理本質是一樣的,在數據科學界流傳著一種說法,“數據決定了模型的上限,算法決定了模型的下限”,這足以說明數據處理的重要性。
論文1
- Fine-tuning large language models for domain adaptation: exploration of training strategies, scaling, model merging and synergistic capabilities (面向領域適應的大語言模型微調:訓練策略探索、規模擴展、模型融合與協同能力)
- 發表信息:Nature, 2025
- 鏈接:https://www.nature.com/articles/s41524-025-01564-y
- 摘要:本文探討了LLMs在領域適應的微調策略,包括持續預訓練(CPT)、監督微調(SFT)、直接偏好優化(DPO)和幾率比偏好優化(ORPO),以及模型合并技術(如SLERP)。研究重點在于如何通過數據處理提升模型性能,特別適用于材料科學和工程領域的技術任務。
- 數據處理技術:
- CPT:使用原始文本數據,添加起始標記(start token),采用樣本打包(sample packing)提高效率。訓練腳本可參考https://github.com/lamm-mit/LLM-finetuning。
- SFT:使用問答格式,角色包括用戶和助手,采用樣本打包,填充標記(pad token)與結束標記(EOS token)區分。
- DPO和ORPO:使用選擇和拒絕響應對進行微調,最大化DPO損失的似然,ORPO使用對數幾率比項,無需參考模型。
- 模型合并(SLERP):使用球面線性插值(Spherical Linear Interpolation)合并模型參數,涉及非線性參數交互。
- 數據集示例:使用約21,000條蜘蛛絲相關問答對和5,000條生物啟發材料數據,處理工具包括Marker(https://github.com/VikParuchuri/marker)用于PDF轉換。
- 實驗細節:Llama(8B)和Mistral(7B)在8xH100節點(8 GPU)上訓練,SmolLM(1.7B)在單GPU上訓練,數據集規模對性能有顯著影響,擴展數據集(3826條額外論文)可能因格式多樣性降低性能。
- 貢獻:該論文提供了系統化的數據處理流程,特別適用于領域適應的微調,強調了數據格式化和增強的重要性。
論文2
-
Parameter-efficient fine-tuning in large language models: a survey of methodologies (大型語言模型中的參數高效微調:方法綜述)
-
發表信息:Artificial Intelligence Review, 2025
發表信息:《人工智能評論》,2025 年 -
鏈接:https://link.springer.com/article/10.1007/s10462-025-11236-4
-
摘要:本文對參數高效微調(PEFT)方法進行了全面綜述,涵蓋添加式PEFT(如適配器、軟提示)、重參數化PEFT(如LoRA)、選擇性PEFT(如參數掩碼)、混合PEFT(如MAM-Adapter)、量化PEFT(如QLoRA)和多任務PEFT(如AdapterFusion)。這些方法顯著降低了計算成本(例如,從400萬GPU小時減少到40萬GPU小時用于LLaMA-3.1 405B)。
-
數據處理技術:
- 添加式PEFT:通過添加適配器(如Houlsby et al.)或軟提示(如Li and Liang, 2021)處理數據,更新參數比例≤0.01%。
- 重參數化PEFT:如LoRA,使用低秩矩陣(A為d×r,B為r×k,r?min(d,k))適應模型,涉及數據通過低秩近似的處理。
- 選擇性PEFT:通過掩碼選擇參數進行微調,如U-Diff使用L0范數剪枝,BitFit修改偏置項。
- 混合PEFT:如UniPELT動態激活子模塊,涉及數據通過不同適配器的處理。
- 量化PEFT:如QLoRA將權重量化到4位NormalFloat(NF4),涉及數據處理以適應低精度計算。
-
數據集示例:預訓練評估使用Common Crawl(8年以上,多語言)和The Pile(22個子集,內容多樣)。
-
實驗細節:綜述了2019年6月至2024年7月超過100篇相關文章,強調PEFT在多任務學習和資源有限設備上的應用。
-
貢獻:該論文提供了PEFT方法的系統性綜述,涵蓋了數據處理在微調中的多種形式,特別適用于資源受限場景。
論文3
-
Parameter-efficient fine-tuning of large language models using semantic knowledge tuning (基于語義知識調優的大語言模型參數高效微調)
-
發表信息:Nature, 2024
-
鏈接:https://www.nature.com/articles/s41598-024-75599-4
-
摘要:本文提出了一種名為語義知識微調(SK-Tuning)的新方法,使用語義有意義的提示或前綴進行適配器訓練,充分利用LLM的零樣本能力。論文還回顧了適配器訓練、提示微調、前綴微調和低秩適應(LoRA)等方法。
-
數據處理技術:
- SK-Tuning:使用真實語義提示,加速收斂,RoBERTa-base(125M參數)使用0.60M參數,RoBERTa-large(355M參數)使用1.02M參數。
- 適配器訓練:插入小神經網絡(適配器)處理數據,挑戰在于確定最佳位置和捕獲復雜數據模式。
- 提示微調:使用軟提示(自然語言提示)處理數據,支持連續學習,包括動態和層次化變體。
- 前綴微調:在每個Transformer層輸入添加可學習前綴,保持原始參數固定,涉及數據增強。
- LoRA:學習低秩矩陣適應模型,評估排名為2和4,涉及數據通過低秩近似的處理。
-
數據集示例:評估使用GLUE基準(如CoLA、SST-2、MRPC),數據集鏈接包括https://huggingface.co/datasets/glue/viewer/cola/等。
-
實驗細節:使用Bloom 7b、Llama2 7b、Mistral 7b等模型,學習率范圍為1×10^-4 至2×10^-6
,訓練10個周期,丟棄率0.2。 -
貢獻:該論文提出了創新的SK-Tuning方法,強調了數據提示增強在微調中的重要性,適用于多種NLP任務。