LLM微調隨記錄

【如何把領域文獻批量轉換為可供模型微調的數據集?】 https://www.bilibili.com/video/BV1y8QpYGE57/?share_source=copy_web&vd_source=8f9078186b93d9eee26026fd26e8a6ed

幾個問題

首先要先搞清楚這幾個問題

  • LLM 訓練方法
  • 如何選擇合適的訓練方式
  • 如何判斷是否需要微調 LLM
  • LLM 微調數據集準備
  • 數據質量/數量
  • 數據多樣性
  • LLM的數據管道如何構建

幾篇論文

在書生大模型微調模型打榜過程中,很明顯的一個感受就是數據質量的好壞,直接影響模型的評估效果,所以我要看幾篇論文來了解模型微調的數據處理的技術論文。
數據處理在微調過程中扮演著核心角色,包括數據清洗(去除噪聲和冗余)、預處理(格式化數據以適應模型輸入)和增強(增加數據多樣性以提高泛化能力)
大模型微調前的數據預處理和數據科學中建模前的數據預處理本質是一樣的,在數據科學界流傳著一種說法,“數據決定了模型的上限,算法決定了模型的下限”,這足以說明數據處理的重要性。

論文1

  • Fine-tuning large language models for domain adaptation: exploration of training strategies, scaling, model merging and synergistic capabilities (面向領域適應的大語言模型微調:訓練策略探索、規模擴展、模型融合與協同能力)
  • 發表信息:Nature, 2025
  • 鏈接:https://www.nature.com/articles/s41524-025-01564-y
  • 摘要:本文探討了LLMs在領域適應的微調策略,包括持續預訓練(CPT)、監督微調(SFT)、直接偏好優化(DPO)和幾率比偏好優化(ORPO),以及模型合并技術(如SLERP)。研究重點在于如何通過數據處理提升模型性能,特別適用于材料科學和工程領域的技術任務。
  • 數據處理技術:
    • CPT:使用原始文本數據,添加起始標記(start token),采用樣本打包(sample packing)提高效率。訓練腳本可參考https://github.com/lamm-mit/LLM-finetuning。
    • SFT:使用問答格式,角色包括用戶和助手,采用樣本打包,填充標記(pad token)與結束標記(EOS token)區分。
    • DPO和ORPO:使用選擇和拒絕響應對進行微調,最大化DPO損失的似然,ORPO使用對數幾率比項,無需參考模型。
    • 模型合并(SLERP):使用球面線性插值(Spherical Linear Interpolation)合并模型參數,涉及非線性參數交互。
  • 數據集示例:使用約21,000條蜘蛛絲相關問答對和5,000條生物啟發材料數據,處理工具包括Marker(https://github.com/VikParuchuri/marker)用于PDF轉換。
  • 實驗細節:Llama(8B)和Mistral(7B)在8xH100節點(8 GPU)上訓練,SmolLM(1.7B)在單GPU上訓練,數據集規模對性能有顯著影響,擴展數據集(3826條額外論文)可能因格式多樣性降低性能。
  • 貢獻:該論文提供了系統化的數據處理流程,特別適用于領域適應的微調,強調了數據格式化和增強的重要性。

論文2

  • Parameter-efficient fine-tuning in large language models: a survey of methodologies (大型語言模型中的參數高效微調:方法綜述)

  • 發表信息:Artificial Intelligence Review, 2025
    發表信息:《人工智能評論》,2025 年

  • 鏈接:https://link.springer.com/article/10.1007/s10462-025-11236-4

  • 摘要:本文對參數高效微調(PEFT)方法進行了全面綜述,涵蓋添加式PEFT(如適配器、軟提示)、重參數化PEFT(如LoRA)、選擇性PEFT(如參數掩碼)、混合PEFT(如MAM-Adapter)、量化PEFT(如QLoRA)和多任務PEFT(如AdapterFusion)。這些方法顯著降低了計算成本(例如,從400萬GPU小時減少到40萬GPU小時用于LLaMA-3.1 405B)。

  • 數據處理技術:

    • 添加式PEFT:通過添加適配器(如Houlsby et al.)或軟提示(如Li and Liang, 2021)處理數據,更新參數比例≤0.01%。
    • 重參數化PEFT:如LoRA,使用低秩矩陣(A為d×r,B為r×k,r?min(d,k))適應模型,涉及數據通過低秩近似的處理。
    • 選擇性PEFT:通過掩碼選擇參數進行微調,如U-Diff使用L0范數剪枝,BitFit修改偏置項。
    • 混合PEFT:如UniPELT動態激活子模塊,涉及數據通過不同適配器的處理。
    • 量化PEFT:如QLoRA將權重量化到4位NormalFloat(NF4),涉及數據處理以適應低精度計算。
  • 數據集示例:預訓練評估使用Common Crawl(8年以上,多語言)和The Pile(22個子集,內容多樣)。

  • 實驗細節:綜述了2019年6月至2024年7月超過100篇相關文章,強調PEFT在多任務學習和資源有限設備上的應用。

  • 貢獻:該論文提供了PEFT方法的系統性綜述,涵蓋了數據處理在微調中的多種形式,特別適用于資源受限場景。

論文3

  • Parameter-efficient fine-tuning of large language models using semantic knowledge tuning (基于語義知識調優的大語言模型參數高效微調)

  • 發表信息:Nature, 2024

  • 鏈接:https://www.nature.com/articles/s41598-024-75599-4

  • 摘要:本文提出了一種名為語義知識微調(SK-Tuning)的新方法,使用語義有意義的提示或前綴進行適配器訓練,充分利用LLM的零樣本能力。論文還回顧了適配器訓練、提示微調、前綴微調和低秩適應(LoRA)等方法。

  • 數據處理技術:

    • SK-Tuning:使用真實語義提示,加速收斂,RoBERTa-base(125M參數)使用0.60M參數,RoBERTa-large(355M參數)使用1.02M參數。
    • 適配器訓練:插入小神經網絡(適配器)處理數據,挑戰在于確定最佳位置和捕獲復雜數據模式。
    • 提示微調:使用軟提示(自然語言提示)處理數據,支持連續學習,包括動態和層次化變體。
    • 前綴微調:在每個Transformer層輸入添加可學習前綴,保持原始參數固定,涉及數據增強。
    • LoRA:學習低秩矩陣適應模型,評估排名為2和4,涉及數據通過低秩近似的處理。
  • 數據集示例:評估使用GLUE基準(如CoLA、SST-2、MRPC),數據集鏈接包括https://huggingface.co/datasets/glue/viewer/cola/等。

  • 實驗細節:使用Bloom 7b、Llama2 7b、Mistral 7b等模型,學習率范圍為1×10^-4 至2×10^-6
    ,訓練10個周期,丟棄率0.2。

  • 貢獻:該論文提出了創新的SK-Tuning方法,強調了數據提示增強在微調中的重要性,適用于多種NLP任務。

比較總結

image.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/87910.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/87910.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/87910.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

高效處理大體積Excel文件的Java技術方案解析

高效處理大體積Excel文件的Java技術方案解析 引言 在數據密集型應用中,處理數百MB甚至GB級的Excel文件已成為業務剛需。傳統基于DOM模型的Excel解析方式(如Apache POI的XSSF)在處理大規模數據時存在嚴重的內存瓶頸。本文將深入探討Java生態中…

JVM垃圾回收機制深度解析

🗑? JVM垃圾回收機制深度解析 文章目錄🗑? JVM垃圾回收機制深度解析🔍 垃圾判定算法🔢 引用計數法🌐 可達性分析算法🔄 垃圾回收算法🏷? 標記-清除算法📋 復制算法🔧 …

Docker:容器化技術的基石與實踐指南

在現代軟件開發和部署中,Docker 作為一種領先的容器化平臺,已經成為了開發人員和運維工程師不可或缺的工具。它不僅簡化了應用的部署過程,還提高了應用的可移植性和可擴展性。本文將深入探討 Docker 的核心概念、基本操作以及如何在實際項目中…

java web7(黑馬)

Filter簡介概念: Filter 表示過濾器,是 JavaWeb 三大組件(Servlet、Filter、Listener)之一。過濾器可以把對資源的請求攔截下來,從而實現一些特殊的功能。過濾器一般完成一些通用的操作,比如:權限控制、統一編碼處理、敏感字符處理等等.快速入…

React-forwardRef-useImperativeHandle

forwardRef 暴露dom節點作用:使用ref暴露DOM節點給父組件案例例如在父組件中想要獲取子組件input的輸入值,和讓input獲取焦點父組件import { Button } from antd-mobile import Son from "./components/son"; import { useState,useRef } fro…

Unity 用AI自動開發游戲----Cursor研究(實現一套利用Cursor生成模板快速實現原型的框架)

Unity 快速原型開發框架(基于 Cursor AI) 🧩 框架簡介 本框架結合了 AI 編程助手 Cursor 的代碼生成能力,構建出一套適用于 Unity 項目的模塊化原型開發架構。它旨在極大提升開發效率、降低試錯成本,特別適用于快速搭…

D觸發器實現2分頻verilog及電路

使用D觸發器完成2分頻電路即通過時鐘的上升沿或下降沿到來時進行翻轉得到,信號的兩個狀態所占時間長度相同,因此它的輸出時鐘的占空比為50%。 D觸發器實現2分頻的電路圖如下所示:通過將D觸發器2分頻電路級聯,可實現輸入時鐘的2N倍…

UniApp完美對接RuoYi框架開發企業級應用

UniApp完美對接RuoYi框架的完整方案及可開發系統類型,結合企業級實踐與開源項目經驗整理而成,涵蓋技術對接、系統設計及實戰案例。 🔧 一、UniApp與RuoYi對接全流程 1. 后端配置(RuoYi-Vue/RuoYi-Cloud) 跨域支持 在網…

【通識】深度學習理論基礎

1. 深度學習導論 導論和簡介的基礎知識和路徑。 深度學習的各項涵蓋范圍:深度學習MLPs,然后是機器學習、邏輯回歸,知識基礎等等 1)連結神經網絡等等:Cybernetics控制論,Connectionism連結主義&#xff0…

sql-labs(11-12)-萬能密碼登錄

sql-labs(11-12)萬能密碼登錄 第十一關: 這關是一個登陸口,也是一個sql注入的漏洞,也就是常說的萬能密碼。 在輸入框賬號密碼種分別輸入 1’ 和1’ 頁面會報錯。后臺使用的單引符號進行的拼接。賬號輸入1’ or ‘1’‘1 密碼輸入 1’ or …

MsSql 其他(2)

???????????????Mysql中的MVCC 一、MVCC 的核心目標與設計背景 MVCC(Multi-Version Concurrency Control,多版本并發控制) 是 InnoDB 存儲引擎為實現高并發事務處理而設計的核心機制。其核心目標是:在不犧牲事務隔…

解決本地部署n8n,域名訪問為什么一直有connection lost的報錯

問題:本地部署的n8n服務用IP訪問一切都正常,但是使用域名后報錯connection lost思路:首先懷疑是ngnix配置問題或者是docker中的環境問題查看docker logsOrigin header does NOT match the expected origin. (Origin: "nxxx.online:1181&…

傳統架構開發VS PREEvision:一場效率與可靠性的降維打擊

當前,整車功能數量激增,意味著需要更龐大的整車數據庫、更復雜的硬件傳感器與執行器網絡、更密集的跨系統交互接口以及更難以預測的耦合效應。這樣一來,單一功能的微小改動,可能會因復雜的依賴關系而引發意想不到的連鎖反應&#…

深度學習基礎1

一、張量 張量其實就是數組,不過是在深度學習中是這樣的叫法 1.張量的創建 (1)基本創建方式 torch.tensor():根據指定數據創建張量 import torch import numpy as np """創建張量標量""" data to…

力扣網編程274題:H指數之普通解法(中等)

一. 簡介 本文記錄力扣網上涉及數組,排序方面的編程題:H指數。 二. 力扣網編程274題:H指數(中等) 給你一個整數數組 citations ,其中 citations[i] 表示研究者的第 i 篇論文被引用的次數。計算并返回該研…

iptables防火墻,多IP環境下, 指定某個目的IP地址通過某個本地IP訪問,策略路由!

需求在CentOS 7.9中,若需從特定源IP(10.0.0.3)訪問目標網段 1.1.1.0/24方法一:策略路由(支持網段)1. 創建自定義路由表# 添加名為custom_table的路由表(ID200) echo "200 custo…

數字孿生技術引領UI前端設計新趨勢:數據可視化與交互設計的深度融合

hello寶子們...我們是艾斯視覺擅長ui設計、前端開發、數字孿生、大數據、三維建模、三維動畫10年經驗!希望我的分享能幫助到您!如需幫助可以評論關注私信我們一起探討!致敬感謝感恩!一、引言:數字孿生驅動 UI 設計的范式革新在大數據與三維可視化技術爆發的今天&…

【機器學習筆記 Ⅱ】6 激活函數

激活函數是神經網絡的核心組件,其作用遠不止“引入非線性”。以下是系統化的解析:1. 核心作用 (1) 引入非線性沒有激活函數:多層神經網絡等價于單層線性變換(矩陣連乘仍是線性)。加入激活函數:每層通過非線…

AI無標記動捕如何結合VR大空間技術打造沉浸式游戲體驗

隨著數字科技的迅猛發展,VR大空間技術正逐步成為各行業探索沉浸式體驗的重要方向。在VR游戲領域,市場對于高度沉浸式體驗的需求日益增長,而傳統VR游戲主要依賴手柄和基礎體感進行交互,而在VR大空間中,用戶可以通過全身…

Qt智能指針

在 Qt 框架中,智能指針用于自動管理對象的生命周期,防止內存泄漏。以下是 Qt 中主要的智能指針及其用法詳解:1. QScopedPointer作用:獨占所有權,超出作用域時自動釋放對象(類似 std::unique_ptr&#xff09…