大語言模型訓練中的自監督學習和其他訓練方式

大語言模型訓練中的自監督學習和其他訓練方式。

自監督學習(Self-Supervised Learning)

1. 什么是自監督學習?

自監督學習是一種不需要人工標注數據的訓練方式,模型從數據本身學習特征和模式。

在語言模型中的具體實現:

# 示例:掩碼語言模型(Masked Language Model, MLM)
原始文本: "北京是中國的首都"
↓
訓練輸入: "北京是[MASK]的首都"
訓練目標: 預測 [MASK] = "中國"# 示例:自回歸語言模型(Autoregressive LM)
原始文本: "今天天氣很好"
↓
訓練輸入: "今天"      → 預測: "天氣"
訓練輸入: "今天天氣"   → 預測: "很"
訓練輸入: "今天天氣很" → 預測: "好"

2. 主要的自監督學習方式

a) 自回歸預訓練(GPT系列)
# Next Token Prediction
# 給定前文,預測下一個詞
輸入: "The capital of China is"
目標: "Beijing"# 這是目前最主流的方式!
b) 掩碼語言建模(BERT系列)
# Masked Language Modeling
# 隨機遮蓋部分詞,預測被遮蓋的詞
輸入: "The [MASK] of China is [MASK]"
目標: [MASK1] = "capital", [MASK2] = "Beijing"
c) 去噪自編碼(T5系列)
# Denoising Autoencoding
# 對文本添加噪聲,然后恢復原文
原始: "北京是中國的首都"
加噪: "北京[X]中國[Y]首都"
目標: 還原成原始文本

其他訓練方式對比

1. 監督學習(Supervised Learning)

需要人工標注的數據:

# 情感分析任務
輸入: "這部電影太棒了!"
標簽: "正面"  # 人工標注# 問答任務
問題: "中國的首都是哪里?"
答案: "北京"  # 人工標注

缺點

  • 標注成本高
  • 數據量有限
  • 難以擴展到大規模

2. 強化學習(Reinforcement Learning)

通過獎勵信號學習:

# RLHF (Reinforcement Learning from Human Feedback)
模型輸出: "這是一個很好的回答..."
人類反饋: 👍 (獎勵) 或 👎 (懲罰)
模型調整: 根據反饋優化

3. 半監督學習(Semi-Supervised Learning)

結合少量標注數據和大量無標注數據:

# 先自監督預訓練
大量無標注文本 → 預訓練模型# 再監督微調
少量標注數據 → 微調模型

目前主流的訓練范式

現代大模型訓練的標準流程:

階段1: 預訓練
自監督學習
階段2: 監督微調
SFT
階段3: 強化學習
RLHF/DPO
海量無標注文本
幾TB數據
高質量指令數據
幾萬到幾十萬條
人類偏好數據
幾萬條對比

具體實現:

1. 預訓練階段(自監督)
# 使用數萬億 tokens 的文本
# 目標:Next Token Prediction
model = GPT(config)
for batch in massive_text_data:loss = model.compute_loss(batch)  # 預測下一個詞optimizer.step()
2. 指令微調階段(監督)
# 使用高質量的問答對
instruction_data = [{"instruction": "解釋什么是機器學習", "response": "機器學習是..."},{"instruction": "寫一首關于春天的詩", "response": "春風送暖..."}
]
3. 偏好對齊階段(強化學習)
# 使用人類偏好數據
preference_data = [{"prompt": "如何學習編程?","chosen": "循序漸進的好答案...","rejected": "敷衍的差答案..."}
]

為什么自監督學習是基礎?

1. 數據規模優勢

監督學習:需要人工標注 → 最多百萬級樣本
自監督學習:自動從文本學習 → 可達萬億級 tokens

2. 成本效益

  • 無需人工標注
  • 可以利用互聯網上所有文本
  • 訓練數據幾乎無限

3. 通用性強

  • 學到通用的語言理解能力
  • 可遷移到各種下游任務

實際案例

GPT-3 訓練數據規模:

- Common Crawl: 410B tokens (60%)
- WebText2: 19B tokens (22%)
- Books: 12B tokens (8%)
- Wikipedia: 3B tokens (3%)
總計: 約 500B tokens

LLaMA-2 訓練過程:

1. 預訓練: 2萬億 tokens,自監督學習
2. SFT: 約10萬條高質量指令
3. RLHF: 約100萬條人類偏好比較

總結

  1. 自監督學習是基座模型訓練的核心,因為它能利用海量無標注數據
  2. 目前主流是三階段訓練:
    • 自監督預訓練(基礎能力)
    • 監督微調(任務能力)
    • 強化學習對齊(符合人類偏好)
  3. 未來趨勢
    • 更大規模的自監督預訓練
    • 更高質量的監督數據
    • 更高效的對齊方法(如 DPO)

這種組合訓練方式讓模型既有廣泛的知識基礎,又能很好地完成特定任務!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/88774.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/88774.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/88774.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[mcp-servers] 工具與資源 | 模型上下文協議MCP | 錨點分類

第三章:工具與資源 歡迎回來! 在之前的旅程中,我們認識了客戶端(第一章:客戶端)——AI的信使組件 以及MCP服務器(第二章:MCP服務器)——接收請求并具備執行能力的智能助…

2025年06月27日Github流行趨勢

項目名稱:edit 項目地址 url:https://github.com/microsoft/edit項目語言:Rust歷史 star 數:10807今日 star 數:411項目維護者:lhecker, DHowett, b6k-dev, rhysd, MingcongBai項目簡介:我們都編…

Camera Api 2 和 OPEN GL ES 使用(顯示濾鏡效果)

Camera Api 2 和 OPEN GL ES 使用&#xff08;顯示濾鏡效果&#xff09; 相機預覽和open GL 使用實現濾鏡效果 代碼 https://github.com/loggerBill/camera 相機預覽 1.相機動態權限 <uses-permission android:name"android.permission.CAMERA" /><uses-f…

CAS教務系統單點登錄分析

1. 核心 URL 結構 GET /authserver/login?servicehttp%3A%2F%2F192.168.254.188%2Fjsxsd%2Fframework%2FxsMainV.htmlx認證服務器&#xff1a;authserver.XXXX.edu.cn&#xff08;典型 CAS 系統&#xff09;目標服務&#xff1a;http://192.168.254.188/jsxsd/framework/xsMa…

利用云霧自動化在智能無人水面航行器中實現自主碰撞檢測和分類

大家覺得有讀完覺得有幫助記得關注和點贊&#xff01;&#xff01;&#xff01; 抽象 工業信息物理系統 &#xff08;ICPS&#xff09; 技術是推動海上自主化的基礎&#xff0c;尤其是對于無人水面航行器 &#xff08;USV&#xff09;。然而&#xff0c;船上計算限制和通信延遲…

AI+物聯網:從萬物互聯到萬物智聯

AI物聯網&#xff1a;從萬物互聯到萬物智聯的范式革命 當農田傳感器自主決策灌溉時機&#xff0c;當咖啡機根據睡眠數據調節濃度&#xff0c;當城市交通系統在擁堵發生前主動干預——這些場景不再是科幻想象&#xff0c;而是2025年AIoT&#xff08;人工智能物聯網&#xff09;…

Python爬蟲實戰:研究Levenshtein庫相關技術

1. 引言 1.1 研究背景與意義 隨著電子商務的快速發展,網絡上積累了海量的產品數據。這些數據來自不同的電商平臺、賣家,存在著產品名稱不統一、規格描述差異大等問題,給數據整合、價格比較、競品分析等應用帶來了極大挑戰。傳統的精確匹配方法無法處理產品名稱中的拼寫錯誤…

MySQL 總是差八個小時,如何破?

MySQL 總是差八個小時&#xff0c;如何破&#xff1f;_mysql__江南一點雨-Byzer 白澤 解決 SpringBoot 應用中 MySQL 時區配置引起的時間不一致問題 - 路有所思 - 博客園

iOS 為圖片添加水印

(instancetype)waterMarkWithImage:(UIImage *)image andMarkImageName:(NSString *)markName{ UIImage *watermarkImage [UIImage imageNamed:markName]; if (!watermarkImage) { NSLog("水印圖片加載失敗: %", markName); return image; } // 獲取原圖尺寸和方向 …

藍牙工作頻段與跳頻擴頻技術(FHSS)詳解:面試高頻考點與真題解析

藍牙技術憑借其低功耗、短距離通信的特性,已成為物聯網、智能穿戴等領域的核心技術之一。其核心競爭力在于對 2.4GHz ISM 頻段的高效利用與跳頻擴頻技術(FHSS)的創新應用。本文將系統梳理藍牙工作頻段與 FHSS 的高頻考點,并結合歷年真題與解析,快速掌握核心知識,輕松應對…

ArkTS與倉頡開發語言:鴻蒙編程的雙子星

前言 鴻蒙是多語言生態&#xff0c;ArkTS、倉頡和 C/C充分互補。ArkTS 是動態類型編程語言&#xff0c;主打易學易用、生態豐富、極簡開發、持續創新四大特征&#xff1b;倉頡是靜態類型編程語言&#xff0c;主打高性能、強安全、跨平臺、智能化等特性。為滿足不同業務場景訴求…

怎么把本地倉庫push 到gitlab 上

1. 首先 我們需要再gitlab 上建立一個group &#xff0c; &#xff08;group 可也設定是public 還是private&#xff09;&#xff0c;public 可以不用用戶密碼用 https 下載 2. 再gitlab 的group 下 建立一個倉庫 &#xff08;pulbic/private) 如何刪除 一個倉庫&#xff08;…

論文筆記(八十六)V-HOP: Visuo-Haptic 6D Object Pose Tracking

V-HOP: Visuo-Haptic 6D Object Pose Tracking 文章概括摘要1. 引言2.背景A. 問題定義B. 觸覺表示基于單元陣列的傳感器基于視覺的傳感器 3. 方法學A. 手爪表示B. 物體表示C. 網絡設計D. 訓練范式 IV. 實驗A. 多形態數據集B. 位姿跟蹤比較C. 模態消融D. 融合策略消融E. 遮擋對性…

[論文閱讀] (40)CCS24 PowerPeeler:一種通用的PowerShell腳本動態去混淆方法

《娜璋帶你讀論文》系列主要是督促自己閱讀優秀論文及聽取學術講座&#xff0c;并分享給大家&#xff0c;希望您喜歡。由于作者的英文水平和學術能力不高&#xff0c;需要不斷提升&#xff0c;所以還請大家批評指正&#xff0c;非常歡迎大家給我留言評論&#xff0c;學術路上期…

DeepSeek工具對AI編程幫助

一、技術架構&#xff1a;混合專家模型&#xff08;MoE&#xff09;的顛覆性優勢 DeepSeek的核心競爭力源于其混合專家模型架構&#xff08;Mixture of Experts&#xff09;&#xff1a; 參數規模&#xff1a;6710億參數&#xff0c;每個token僅激活37億參數&#xff0c;實現超…

鏈表題解——兩數相加【LeetCode】

方法一&#xff1a;遞歸 寫法一&#xff1a;創建新節點 算法思路解析 該實現采用 遞歸方式 逐位處理兩個鏈表&#xff0c;并考慮進位 carry&#xff1a; ? 步驟拆解 遞歸終止條件&#xff1a;當 l1, l2 都為空且沒有進位&#xff08;carry 0&#xff09;&#xff0c;說明…

AutoGen框架的ReAct推理模式的多跳測試

問題&#xff1a;特斯拉公司 CEO 的出生地是哪個國家&#xff1f; 答案&#xff1a;南非。 推理過程&#xff1a; 第一跳&#xff1a;確定特斯拉&#xff08;Tesla, Inc.&#xff09;的 CEO。特斯拉的 CEO 是埃隆馬斯克&#xff08;Elon Musk&#xff09;。 第二跳&#xff1a;…

MCP-安全(entra)

保護 AI 工作流程&#xff1a;模型上下文協議服務器的 Entra ID 身份驗證 介紹 保護模型上下文協議 (MCP) 服務器的安全與鎖好家門一樣重要。保持 MCP 服務器開放會導致您的工具和數據遭受未經授權的訪問&#xff0c;從而導致安全漏洞。Microsoft Entra ID 提供強大的基于云的身…

Node.js特訓專欄-實戰進階:8. Express RESTful API設計規范與實現

?? 歡迎來到 Node.js 實戰專欄!在這里,每一行代碼都是解鎖高性能應用的鑰匙,讓我們一起開啟 Node.js 的奇妙開發之旅! Node.js 特訓專欄主頁 專欄內容規劃詳情 Express RESTful API設計規范與實現:構建標準化、可維護的接口服務 在前后端分離架構盛行的今天,RESTful A…

2025企業數字化轉型之道

進入2025年&#xff0c;企業的數字化轉型已經不再是選擇題&#xff0c;而是生存和發展的關鍵。如何抓住技術的浪潮&#xff0c;提高效率、提升客戶體驗、加強創新&#xff0c;成了企業亟需解決的問題。 1.自動化&#xff1a;釋放人力潛力 自動化是數字化轉型的起點。通過RPA&a…