大語言模型預訓練數據——數據采樣方法介紹以GPT3為例

大語言模型預訓練數據——數據采樣方法介紹以GPT3為例

      • 一、數據采樣核心邏輯
      • 二、各列數據含義

一、數據采樣核心邏輯

這是 GPT - 3 訓練時的數據集配置,核心是非等比例采樣——不按數據集原始大小分配訓練占比,而是人工設定不同數據集在訓練中被抽取的概率(Weight in training mix ),讓小數據集也能被多次學習,大數據集適當降低重復度,平衡模型學習廣度與深度。

GPT-3

二、各列數據含義

  1. Dataset:訓練 GPT - 3 用到的數據集,像 Common Crawl 是網頁抓取數據,Wikipedia 是維基百科內容,Books1/2 是書籍文本等,覆蓋不同來源、不同類型的語料。
  2. Quantity (tokens):每個數據集的token總量 ,比如 Common Crawl (filtered) 有 4100 億 token,代表該數據集文本轉成模型可處理的 token 后,總數量是這么多。
  3. Weight in training mix:訓練時,從該數據集抽取樣本的概率占比 。比如 Common Crawl 占 60%,意味著每一輪訓練選樣本,60%的概率從它這里選,和數據集本身大小無嚴格比例關系,是人為調的“采樣權重”。
  4. Epochs elapsed when training for 300B tokens:當整體訓練到 3000 億 token 時,該數據集被“完整過幾遍(Epoch )”。計算邏輯是:
    • 先算訓練 3000 億 token 時,從該數據集實際用了多少 token:3000 億 × 該數據集權重
    • 再用“實際用的 token 量 ÷ 該數據集總 token 量”,得到被訓練的輪次(Epoch )。
    • 舉個例子,以 Wikipedia 為例:
      • 按權重,訓練 3000 億 token 時,用了 3000 億×3% = 90 億 token
      • Wikipedia 總 token 是 30 億,所以 Epoch = 90 億÷30 億 = 3.4 ,即被完整學習約 3.4 遍;同理,Common Crawl 是 3000 億×60% = 1800 億 token ,除以 4100 億總 token,得到約 0.44 輪。

簡單說,就是通過“自定義采樣權重”打破數據集大小限制,讓不同數據按需被模型學習多輪,最終“Epochs”體現的是:在 3000 億總訓練量下,單個數據集被重復學習的次數 ,背后是“權重×總訓練量÷數據集自身大小”的計算邏輯。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/87514.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/87514.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/87514.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

針對同一臺電腦,為使用不同 SSH Key 的不同用戶分別設置 Git 遠程倉庫憑據的操作指南

一、準備工作 生成多對 SSH Key 為每個用戶(如“個人”、“公司”)生成一對獨立的 SSH Key。 示例(在 Git Bash 或 Linux 終端中執行): # 個人 ssh-keygen -t rsa -b 4096 -C "personalexample.com" -f ~/.…

【V5.0 - 視覺篇】AI的“火眼金睛”:用OpenCV量化“第一眼緣”,并用SHAP驗證它的“審美”

系列回顧: 在上一篇 《給AI裝上“寫輪眼”:用SHAP看穿模型決策的每一個細節》 中,我們成功地為AI裝上了“透視眼鏡”,看穿了它基于數字決策的內心世界。 但一個巨大的問題暴露了:它的世界里,還只有數字。 它…

Open3D 基于最大團(MAC)的點云粗配準

MAC 一、算法原理1、原理概述2、實現流程3、總結二、代碼實現三、結果展示博客長期更新,本文最新更新時間為:2025年7月1日。 一、算法原理 1、原理概述 最大團(Maximal Cliques, MAC)法在點云配準中的應用,是近年來解決高離群值(outlier)和低重疊場景下配準問題的重要…

Science Robotics發表 | 20m/s自主飛行+避開2.5mm電線的微型無人機!

從山火搜救到災后勘察,時間常常意味著生命。分秒必爭的任務要求無人機在陌生狹窄環境中既要飛得快、又要飛得穩。香港大學機械工程系張富教授團隊在Science Robotics(2025)發表論文“Safety-assured High-speed Navigation for MAVs”提出了微型無人機的安全高速導航…

【數據分析】如何在PyCharm中高效配置和使用SQL

PyCharm 作為 Python 開發者的首選 IDE,其 Professional 版本提供了強大的數據庫集成功能,讓開發者無需切換工具即可完成數據庫操作。本文將手把手教你配置和使用 PyCharm 的 SQL 功能。 一、安裝和配置 PyCharm 老生常談,第一步自然是安裝并…

OpenShift AI - 使用 NVIDIA Triton Runtime 運行模型

《OpenShift / RHEL / DevSecOps 匯總目錄》 說明:本文已經在 OpenShift 4.18 OpenShift AI 2.19 的環境中驗證 文章目錄 準備 Triton Runtime 環境添加 Triton Serving Runtime運行基于 Triton Runtime 的 Model Server 在 Triton Runtime 中運行模型準備模型運行…

物聯網數據安全區塊鏈服務

物聯網數據安全區塊鏈服務 下面是一個專為物聯網數據安全設計的區塊鏈服務實現,使用Python編寫并封裝為RESTful API。該服務確保物聯網設備數據的不可篡改性、可追溯性和安全性。 import hashlib import json import time from datetime import datetime from uui…

數據集-目標檢測系列- 卡車 數據集 truck >> DataBall

數據集-目標檢測系列- 卡車 數據集 truck >> DataBall貴在堅持!* 相關項目1)數據集可視化項目:gitcode: https://gitcode.com/DataBall/DataBall-detections-100s/overview2)數據集訓練、推理相關項目&…

vue/微信小程序/h5 實現react的boundary

ErrorBoundary react的boundary實現核心邏輯無法處理的情況包含函數詳細介紹getDerivedStateFromError和componentDidCatch作用為什么分開調用 代碼實現(補充其他異常捕捉)函數組件與useErrorBoundary(需自定義Hook) vue的boundar…

Day113 切換Node.js版本、多數據源配置

切換Node.js版本 1.nvm簡介nvm(Node Version Manager),在Windows上管理Node.js版本,可以在同一臺電腦上輕松管理和切換多個Node.js版本 nvm下載地址:https://github.com/coreybutler/nvm-windows/2.配置nvm安裝之后檢查nvm是否已經安裝好了&a…

應急響應靶機-linux2-知攻善防實驗室

題目: 1.提交攻擊者IP2.提交攻擊者修改的管理員密碼(明文)3.提交第一次Webshell的連接URL(http://xxx.xxx.xxx.xx/abcdefg?abcdefg只需要提交abcdefg?abcdefg)4.提交Webshell連接密碼5.提交數據包的flag16.提交攻擊者使用的后續上傳的木馬文件名稱7.提交攻擊者隱藏…

新手前端使用Git(常用命令和規范)

發一篇文章來說一下前端在開發項目的時候常用的一些git命令 注:這篇文章只說最常用的,最下面有全面的 一:從git倉庫拉取項目到本地 1:新建文件夾存放項目代碼 2:在git上復制一下項目路徑(看那個順眼復制…

【面試題】常用Git命令

【面試題】常用Git命令1. 常用Git命令1. 常用Git命令 1.git clone git clone https://gitee.com/Blue_Pepsi_Cola/straw.git 2.使用-v選項,可以參看遠程主機的網址 git remote -v origin https://ccc.ddd.com/1-java/a-admin-api.git (fetch) origin https://ccc.…

Webpack構建工具

構建工具系列 Gulp構建工具Grunt構建工具Webpack構建工具Vite構建工具 Webpack構建工具 構建工具系列前言一、安裝打包配置webpack安裝樣式加載器devtoolwebpack devtool 配置詳解常見 devtool 值及適用場景選擇建議性能影響注意事項 module處理流程module.rulesmodule.usemod…

重學前端002 --響應式網頁設計 CSS

文章目錄 css 樣式特殊說明 根據在這里 Freecodecamp 實踐,調整順序后做的總結。 css 樣式 body {background-color: red; # 跟background-image 不同時使用background-image: url(https://cdn.freecodecamp.org/curriculum/css-cafe/beans.jpg);font-family: san…

RabbitMQ簡單消息監聽和確認

如何監聽RabbitMQ隊列 簡單代碼實現RabbitMQ消息監聽 需要的依賴 <!--rabbitmq--><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-amqp</artifactId><version>x.x.x</version>&l…

Docker學習筆記:Docker網絡

本文是自己的學習筆記 1、Linux中的namespace1.1、創建namespace1.2、兩個namespace互相通信2、Docker中的namespace2.1 容器中的默認Bridge3、容器的三種網絡模式1、Linux中的namespace Docker中使用了虛擬網絡技術&#xff0c;讓各個容器的網絡隔離。好像每個容器從網卡到端…

用自定義注解解決excel動態表頭導出的問題

導入的excel有固定表頭動態表頭如何解決 自定義注解&#xff1a; import java.lang.annotation.*;/*** 自定義注解&#xff0c;用于動態生成excel表頭*/ Target(ElementType.FIELD) Retention(RetentionPolicy.RUNTIME) public interface FieldLabel {// 字段中文String label(…

Android-EDLA 解決 GtsMediaRouterTestCases 存在 fail

問題描述&#xff1a;[原因]R10套件新增模塊&#xff0c;getRemoteDevice獲取遠程藍牙設備時&#xff0c;藍牙MAC為空 [對策]實際藍牙MAC非空;測試時繞過處理 1.release/ebsw_skg/skg/frameworks/base/packages/SettingsLib/src/com/android/settingslib/media/InfoMediaManage…

雙渦輪增壓器結構設計cad【5張】+設計說明書

摘要 隨著汽車制造商和消費者對動力性能的要求不斷增加&#xff0c;發動機需要在更寬的轉速范圍內提供更大的功率和扭矩。雙渦輪增壓器可以幫助實現這一目標&#xff0c;通過在不同轉速下調整渦輪的工作狀態來提供更平順的動力輸出。單一渦輪增壓器可能存在渦輪滯后和增壓延遲…