【大模型】大模型數據訓練格式

1. SFT(有監督微調)

1.1 數據格式

  • JSONL(每行一個 JSON 對象)最為流行;也可用 CSV/TSV,但 JSONL 更靈活。
  • 字段設計
    • prompt:用戶輸入或任務指令(通常以“系統指令+用戶問題”拼接)
    • completion:希望模型生成的“黃金”回答
    • 可選 metadata:如示例來源、類別標簽、示例難度等
{"prompt": "<|SYSTEM|>你是一名法律顧問。\n<|USER|>合同糾紛如何處理?", "completion": "首先,應當……并在必要時咨詢專業律師。"}
{"prompt": "<|SYSTEM|>你是一名旅游助手。\n<|USER|>去巴黎有什么推薦?", "completion": "巴黎的必去景點包括埃菲爾鐵塔……"}
  • 長度與拆分
    • prompt + completion 合計 token 數一般不超過模型最大上下文長度(如 4K、8K)。
    • 對超長示例,可分段給出——比如把背景單獨一個示例,把核心提問單獨一個示例。

1.2 常見示例規模

  • 小規模:幾千條(用于快速驗證思路)
  • 中等規模:1–10 萬條(可獲得明顯效果提升)
  • 大規模:幾十萬–百萬條(面向全功能對話/寫作助手)

經驗:對于 6B 量級模型,至少需要 2–5 萬條高質量示例才能看到穩定的 SFT 提升;上不封頂,示例越多、越多樣,微調效果越好。

2. RM(獎勵模型訓練)

2.1 數據格式

  • 對比式偏好數據:每條記錄包含一對或多組生成,模型學習去區分“好”與“差”回答。
  • JSONL 格式示例:
{"prompt": "如何寫一封求職信?","response_a": "尊敬的招聘經理……",  "response_b": "你好,我想要這份工作……",  "label": 0}
  • label:通常用 01 表示哪個 response 更優(0 表示 response_a 更好,1 表示 response_b 更好)。
  • 可擴展
    • 多選對比:responses: ["A","B","C"] + label: 2
    • 打分式:score_a: 4.5, score_b: 3.2

2.2 常見示例規模

  • 中等規模:1–5 萬對(可用人工標注或半自動篩選)
  • 大規模:5–20 萬對(用于更嚴格的排序和獎勵信號)

建議:初期可先收集 2–3 萬對,高質量人工標注;后期再擴充并加入模型自標反饋(例如用當前策略生成對比對,再由人審核)。

3. PPO(強化學習微調)

3.1 數據格式

PPO 環節并不存儲單一固定的數據集,而是在每次訓練迭代(rollout)中動態生成:

  1. Prompt Batch:事先準備的一批 prompt(與 SFT 相同格式或專門設計的評測提示)。
  2. Policy Outputs:當前模型(Policy)對每個 prompt 生成的多條候選 completion
  3. Reward Scores:用 RM 或其它函數(如安全檢測、相似度、算術準確度)對每條候選打分。
  4. Advantage / Return:根據 reward 及折扣率(γ)計算出的優勢值,用于 PPO 更新。
rollout[0]:prompt: "如何寫求職信?"responses: ["版本A", "版本B", ...]rewards: [1.2, -0.3, ...]advantages: [0.8, -0.5, ...]
rollout[1]:prompt: "巴黎旅游推薦?"...
  • 存儲方式
    • 訓練過程中可按 epoch 暫存到內存或中間文件;
    • 完成后可歸檔為帶 rewardsadvantages 的 JSONL 或二進制格式,用于后續分析和復現。

3.2 常見示例規模

  • Rollout 大小:每次迭代通常采集 1–5K 個 prompt,每個 prompt 下 1–4 條生成,共 5K–2W 條樣本。
  • 訓練輪次:典型 100–500 個迭代,總樣本量可達數十萬條。

在 PPO 中,數據量并不是一次性全部收集好的,而是與訓練進度交替生成并馬上用來更新策略。

四、總結對比

環節格式要素常見規模數據來源
SFT{"prompt","completion"}1e4–1e6 條現有數據集+人工標注
RM{"prompt","response_a","response_b","label"}2e4–2e5 條對人工偏好/模型自標
PPORollout(prompt + response + reward + advantage)每迭代 5e3–2e4 條,累計 1e5–5e5動態生成+RM 評分
  • SFT:打好「基本功」,讓模型學會“如何回答”
  • RM:教會模型“如何區分好壞回答”
  • PPO:通過強化學習,最大化實際獎勵信號,進一步提升模型在真實任務中的表現

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/85973.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/85973.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/85973.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[論文閱讀] 人工智能 | 利用負信號蒸餾:用REDI框架提升LLM推理能力

【論文速讀】利用負信號蒸餾&#xff1a;用REDI框架提升LLM推理能力 論文信息 arXiv:2505.24850 cs.LG cs.AI cs.CL Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning Authors: Shuyao Xu, Cheng Peng, Jiangxuan Long, Weidi…

Cursor 1.0正式推出:全面解析你的AI 編程助手

目錄 前言 一、BugBot&#xff1a;你的私人代碼審查專家 二、Background Agent&#xff1a;7x24小時在線的云端開發伙伴 三、Jupyter Notebook 深度集成&#xff1a;數據科學家的福音 四、記憶功能 (Memories)&#xff1a;讓 AI 更懂你的項目 五、MCP 與工具生態&#xf…

QILSTE 精巧電子元件H4-108FO/5M解析

型號&#xff1a;H4-108FO/5M 在電子元件的浩瀚宇宙中&#xff0c;H4-108FO/5M 仿佛一顆散發著獨特光芒的恒星&#xff0c;其參數和特性交織成一張錯綜復雜的網絡&#xff0c;既令人困惑又充滿驚喜。這款型號的產品&#xff0c;以其 1.60.80.4mm 的微小尺寸&#xff0c;卻蘊含…

第2章_Excel_知識點筆記

Excel 知識點總結&#xff08;第2章&#xff09; 來自&#xff1a;第2章_Excel_知識點筆記&#xff0c;原筆記 基礎操作 狀態欄&#xff1a;快速查看計數/求和等數據&#xff08;右鍵可配置&#xff09;。篩選&#xff08;CtrlShiftL&#xff09;&#xff1a;按條件顯示數據…

【學習筆記】單例類模板

【學習筆記】單例類模板 一、單例類模板 以下為一個通用的單例模式框架&#xff0c;這種設計允許其他類通過繼承Singleton模板類來輕松實現單例模式&#xff0c;而無需為每個類重復編寫單例實現代碼。 // 命名空間&#xff08;Namespace&#xff09; 和 模板&#xff08;Tem…

yolo 訓練 中間可視化

yolo訓練前幾個batch&#xff0c;會可視化target: if plots and ni < 33:f save_dir / ftrain_batch{ni}.jpg # filenameplot_images(imgs, targets, paths, f, kpt_labelkpt_label)

【Linux】虛擬機代理,自動化腳本修改~/.bashrc

二選一執行 {echo ""echo "# Cla Verge代理設置 "echo "alias use-proxyexport http_proxy\"socks5h://192.168.88.1:7897\"; export https_proxy\"socks5h://192.168.88.1:7897\""echo "alias use-proxy-httpexport…

JavaScript 原型與原型鏈:深入理解 __proto__ 和 prototype 的由來與關系

引言 在 JavaScript 的世界中&#xff0c;原型和原型鏈是理解這門語言面向對象編程&#xff08;OOP&#xff09;機制的核心。不同于傳統的基于類的語言如 Java&#xff0c;JavaScript 采用了一種獨特的原型繼承機制。本文將深入探討 __proto__ 和 prototype 的由來、關系以及它…

Linux非管理員用戶安裝python環境

目錄 1. 下載2. 解壓3. 配置并指定安裝路徑&#xff08;本地用戶目錄&#xff09;4. 編譯&#xff08;不安裝系統目錄&#xff09;5. 安裝到本地用戶目錄6. 添加 Python 到環境變量7. 驗證安裝是否成功 1. 下載 版本根據需要自行指定 cd /tmp wget https://www.python.org/ft…

獵板PCB:建滔PCB板材怎么樣?

在電子元器件的精密世界中&#xff0c;PCB板材如同骨骼般支撐著整個產品的性能與壽命。面對市場上琳瑯滿目的品牌選擇&#xff0c;建滔積層板憑借三十余年技術沉淀&#xff0c;逐漸成為行業工程師與采購方口中的“品質代名詞”。今天&#xff0c;我們不談參數堆砌&#xff0c;只…

ONLYOFFICE協作空間3.1.1 企業版 介紹及部署說明:家庭云計算專家

ONLYOFFICE協作空間3.1企業版是一款專為深度集成需求設計的開源解決方案&#xff0c;其核心功能聚焦于安全性與靈活性。該版本支持私有化部署&#xff0c;允許企業將協作空間嵌入自有服務器并實現品牌定制化&#xff0c;滿足對數據主權和品牌一致性的嚴苛要求。 在安全方面&…

接IT方案編寫(PPT/WORD)、業務架構設計、投標任務

1、IT 方案編寫&#xff08;PPT/WORD&#xff09;? 定制化方案&#xff1a;根據客戶需求&#xff0c;提供涵蓋云計算、大數據、人工智能等前沿技術領域的 PPT/WORD 方案編寫服務&#xff0c;精準提煉核心價值&#xff0c;呈現專業技術內容。? 邏輯清晰架構&#xff1a;采用…

前端面試之變量與數據類型

目錄 一、聲明變量 &#xff08;1&#xff09;let &#xff08;2&#xff09;const &#xff08;3&#xff09;var var、let 和 const 的作用域差異 二、數據類型 &#xff08;1&#xff09;基本類型 undefined和null String 模板字符串拼接&#xff1a; number和b…

python queue

Python中的queue模塊提供了多種隊列實現&#xff0c;主要用于線程間安全通信。以下是主要用法&#xff1a; 基本隊列類型&#xff1a; Queue&#xff1a;先進先出(FIFO)隊列LifoQueue&#xff1a;后進先出(LIFO)隊列&#xff0c;即棧PriorityQueue&#xff1a;優先級隊列 常用方…

Linux驅動:class_create、device_create

udev是什么 動態管理設備文件 傳統的 Linux 系統通過靜態創建 /dev 目錄下的設備文件&#xff08;如早期的 mknod 命令&#xff09;&#xff0c;但現代系統中硬件設備&#xff08;如 USB 設備、存儲設備、串口等&#xff09;熱插拔頻繁&#xff0c;udev 可實時響應設備事件&…

【vLLM 學習】Cpu Offload Lmcache

vLLM 是一款專為大語言模型推理加速而設計的框架&#xff0c;實現了 KV 緩存內存幾乎零浪費&#xff0c;解決了內存管理瓶頸問題。 更多 vLLM 中文文檔及教程可訪問 →https://vllm.hyper.ai/ *在線運行 vLLM 入門教程&#xff1a;零基礎分步指南 源碼 examples/offline_inf…

基于深度強化學習的Scrapy-Redis分布式爬蟲動態調度策略研究

在大數據時代&#xff0c;網絡數據的采集與分析變得至關重要&#xff0c;分布式爬蟲作為高效獲取海量數據的工具&#xff0c;被廣泛應用于各類場景。然而&#xff0c;傳統的爬蟲調度策略在面對復雜多變的網絡環境和動態的抓取需求時&#xff0c;往往存在效率低下、資源浪費等問…

openlayers實現可拖拽的節點(類似知識圖譜)

/** * 本文介紹了實現知識圖譜可視化的技術方案&#xff0c;主要分為兩個圖層實現&#xff1a; * 1、線圖層 不拖動 * 2、點圖層 需要拖動 */ 線圖層 - 負責繪制靜態連接線&#xff0c;使用LineString創建線要素并添加到矢量圖層&#xff1b; // 線圖層 export function add…

酷黑NBA足球賽事直播源碼體育直播M39模板賽事源碼

源碼名稱&#xff1a;NBA足球賽事直播源碼酷黑體育直播M39模板賽事源碼 開發環境&#xff1a;帝國cms7.5 空間支持&#xff1a;phpmysql 帶軟件采集&#xff0c;可以掛著自動采集發布&#xff0c;無需人工操作&#xff01; 演示地址&#xff1a;https://www.52muban.com/shop…

Verilog編程技巧01——如何編寫三段式狀態機

前言 Verilog編程技巧系列文章將聚焦于介紹Verilog的各種編程范式或者說技巧&#xff0c;編程技巧和編程規范有部分重合&#xff0c;但并非完全一樣。規范更注重編碼的格式&#xff0c;像變量命名、縮進、注釋風格等&#xff0c;而編程技巧則更偏重更直觀易讀、更便于維護、綜合…