預訓練大語言模型

Encoder-only model(Autoencoding model)

  • 使用掩碼語言模型(Masked Language Modeling, MLM)進行預訓練
  • 輸入原始語句和掩碼,訓練目標是預測掩碼標記,一遍重建原始句子->也稱為降噪目標(denoising)
  • 自動編碼模型對輸入序列進行了雙向表示,這意味著模型對標記的完整上下文有所了解,而不僅僅是對之前的單詞有所了解。
  • 適合雙向上下文的任務
    • sentence classification tasks句子分類任務,如sentiment analysis情感分類
    • token-level tasks:如Named entity recognition命名實體識別
    • word classification 單詞分類
  • 示例:BERT、ROBERTA

Decoder-only model(Autoregressive model)

  • 使用causal language modeling(CLM)進行預訓練
  • 上下文是單向的
    • Text generation 文本生成
    • Other emergent behavior
      • Depends on model size
  • 示例:GPT、BLOOM

Sequence-to-Sequence models

使用原始transformer之外的編碼器和解碼器部分
使用span corruption對編碼器進行預訓練
(span corruption,跨度破壞,模型需要根據上下文來預測文本中被遮蔽掉的連續跨度(span)的詞語,而不是僅僅預測單個詞語)

  • 適用
    • Translation
    • Text summarization
    • Question answering
  • example:T5、BART

訓練LLM的計算挑戰

  • 常見問題
    • OutOfMemoryError

scale of the problem

  • 參數量
    1 parameter = 4 bytes (32-bit float)
    1B parameters = 4 ? 10 9 4*10^9 4?109bytes = 4GB

  • 訓練–每個模型參數增加20 bytes的內存
    要訓練模型的話,還需要考慮訓練期間使用GPU內存的其他組件

    • Adam優化器的狀態參數2個
    • Gradients
    • Activations
    • temp memory
    • 考慮訓練期間的所有開銷,實際上需要大約6倍與模型權重所占用的GPU RAM 在這里插入圖片描述
  • 1B參數需要的GPU RAM
    在32-bit精度下訓練1B參數的模型,大約需要24GB的GPU RAM,這對于消費類硬件來說太大了,若想用單處理器進行訓練,這對數據中心使用的硬件也很有挑戰

  • 如何減少訓練的內存需求

    • Quantization量化
      通過將權重精度從32位浮點數降低到16位浮點數或8位整數減少存儲模型權重所需的內存
      • 相關庫:
        • FP32:32-bit full position
        • FP16、Bfloat16:16-bit half precision、8-bit integers
          BF16提高了訓練穩定性,并且得到了NVIDIA的A100等新GPU的支持
          BF16通常被描述為截斷的32位浮點數(因為他僅捕獲了16位的完整32位浮點數)

高效的多GPU計算策略

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/86088.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/86088.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/86088.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

C++信奧賽闖關題目1

1閏年 輸入一個年份,輸出它是否為閏年 閏年的規則: 描述:能被4整除,并且不能被100整除的,再加上可以被400整除的 版本一:原始版 #include <iostream> #include <cmath> using namespace std; int main() {int y;cin>>y;bool x = y%4==0&&y…

Qt+OPC開發筆記(三):OPC客戶端訂閱特點消息的Demo

若該文為原創文章&#xff0c;轉載請注明原文出處 本文章博客地址&#xff1a;https://hpzwl.blog.csdn.net/article/details/148868209 長沙紅胖子Qt&#xff08;長沙創微智科&#xff09;博文大全&#xff1a;開發技術集合&#xff08;包含Qt實用技術、樹莓派、三維、OpenCV…

嵌入式開發學習日志Day8(ARM體系架構——按鍵、蜂鳴器及中斷)

一、蜂鳴器學習 代碼實現&#xff1a; 二、BSP工程管理及Makefile 1、BSP工程管理 利用BSP工程管理&#xff0c;使文檔顯示不雜亂&#xff1b; 將這些文件分為4類&#xff0c;并保存到4個不同的文件夾里。 首先在新的工程文件夾里創建一個之后我們編寫的類似led驅動&#xff0…

Linux部署Sonic前后端(詳細版)(騰訊云)

系統用的是Ubuntu 22.04 LTS 1、安裝Docker sudo apt update sudo apt install -y docker.io docker-compose sudo systemctl start docker sudo systemctl enable docker# 如果不想每次用 sudo&#xff0c;可以加權限 sudo usermod -aG docker $USER 2、安裝 docker-compose…

騰訊云CBS:企業級云存儲的性能與可靠性重構

摘要 根據Forrester 2025年網絡分析與可見性&#xff08;NAV&#xff09;報告&#xff0c;東西向流量安全與加密威脅檢測成為企業核心痛點&#xff08;誤報率降低需求↑40%&#xff09;。騰訊云CBS作為底層存儲支柱&#xff0c;通過三副本跨可用區冗余架構與毫秒級故障切換能力…

ubuntu 22.04 更換阿里源 (wsl2 參照)

步驟 1: 備份當前源列表 sudo cp /etc/apt/sources.list /etc/apt/sources.list.bak 步驟 2: 編輯源列表文件 sudo nano /etc/apt/sources.list 步驟 3: 添加阿里云鏡像源 ubuntu 阿里源地址可以在這查看 ubuntu鏡像_ubuntu下載地址_ubuntu安裝教程-阿里巴巴開源鏡像站 …

idea中push拒絕,merge,rebase的區別

在 IntelliJ IDEA 中進行 Git 操作時&#xff0c;Push 拒絕&#xff08;Push Rejected&#xff09;、Merge 和 Rebase 是常見的沖突解決方式。它們有不同的適用場景和影響&#xff0c;下面詳細說明它們的區別&#xff0c;并附上流程圖幫助理解。 1. Push 拒絕&#xff08;Push …

輕松實現PDF局部擦除的技術級解決方案

在處理PDF文檔時&#xff0c;我們常常會遇到這樣的場景&#xff1a;想要刪除某段文字、擦除一張圖片&#xff0c;或者對頁面內容進行局部調整。但很多編輯工具要么操作繁瑣&#xff0c;要么功能受限&#xff0c;甚至還需要付費解鎖核心功能。 這是一款輕便又實用的PDF編輯工具…

css color 十六進制顏色透明度

css color 十六進制顏色透明度 例&#xff1a;#FFFFFF ~~ #FFFFFF1A(10% ) 0% 為 FF10% 為 1A20% 為 3330% 為 4D40% 為 6650% 為 8060% 為 9970% 為 B380% 為 CC90% 為 E6100% 為 00

Git簡介和常用命令

Git簡介 Git是一款版本管理軟件&#xff0c;可以在任何時間點保存文件&#xff0c;也能夠恢復到以前任意時間點保存的文檔&#xff0c;Git作用簡單舉例來說就是&#xff0c;寫論文&#xff0c;有很多個版本&#xff0c;將原來的論文保存起來&#xff0c;新建一個副本&#xff…

Kafka 性能調優指南

文章目錄 概述操作系統層面調優文件系統優化內存管理磁盤 I/O 優化 JVM 調優堆內存設置GC 收集器選擇常見 GC 問題 Broker 端調優版本兼容性關鍵參數配置日志段大小調優設置原則推薦配置調優考慮因素監控命令 應用層調優客戶端復用資源管理多線程消費模式 性能指標調優吞吐量優…

佰力博科技與您探討低溫真空探針臺如何保養

低溫真空探針臺是一種用于在低溫或真空環境下進行電學性能測試的精密儀器&#xff0c;其保養和維護對于確保設備的穩定運行和延長使用壽命至關重要。 一、日常清潔與檢查 1、使用后應立即清潔探針臺&#xff0c;尤其是探針、接口和連接器&#xff0c;避免灰塵和雜質影響精度。…

MySQL:深入總結鎖機制

寫在前面 在 MySQL 數據庫中&#xff0c;鎖機制是保障并發控制和數據一致性的關鍵。合理運用鎖機制&#xff0c;能有效避免數據競爭&#xff0c;提升數據庫性能。接下來&#xff0c;我們就深入了解 MySQL 中的各類鎖。 博主總結&#xff08;注&#xff1a;針對總結的詳解補充在…

AI+OT安全,讓威脅情報實現主動防御

當前&#xff0c;網絡犯罪組織的運作模式正日趨“企業化”&#xff0c;給全球網絡安全帶來了嚴峻挑戰。企業以及各類組織機構有必要采用威脅情報驅動的防御體系&#xff08;Threat-Informed Defense, TID&#xff09;&#xff0c;將安全運營模式從被動響應徹底轉向基于威脅情報…

深度剖析:UDS上下行分離隧道如何繞過主流防火墻?

&#x1f525; 深度剖析&#xff1a;UDS上下行分離隧道如何繞過主流防火墻&#xff1f; &#x1f4ca; 系統架構圖 #mermaid-svg-lv5FKIvBMKPeTFuW {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-lv5FKIvBMKPeTFuW …

Vue 使用vue-cli

Vue 漸進式JavaScript 框架 基于Vue2的學習筆記 - 使用Vue-cli 筆記 目錄 使用vue-cli 創建項目 配置文件 啟動項目 入口文件 Index.html Main.js Eslint修復 第一種 第二種 第三種 更換為淘寶源 查看當前配置 配置淘寶源 驗證配置 總結 使用vue-cli 創建項目…

Sentinel實現原理

Sentinel 是阿里巴巴開源的分布式系統流量控制組件&#xff0c;主要用于服務保護&#xff0c;涵蓋流量控制、熔斷降級、系統負載保護等功能。 以下是 Sentinel 的實現原理&#xff0c;使用中文簡要說明&#xff1a; 1. 總體架構 Sentinel 采用 輕量級 設計&#xff0c;分為 核…

DeepSeek生成HTML5生命天數計算器

DeepSeek生成HTML5生命天數計算器 讓DeepSeek生成一個生命天數計算器 提示詞prompt 幫我做一個我活了多少天的網頁 用戶輸入出生日期即可顯示我活了多少天 頁面ui要好看點&#xff0c;加上顯示官方統計 人一生平均可以活多少天 自動計算剩余天數。幫我按照上述需求再次生成一個…

如何使typora圖片不居中留白?

如何使typora圖片不居中留白&#xff1f; 駐波使用typora記筆記的時候&#xff0c;好幾次插入圖片太大選擇縮小都會發現圖片仍然滯留在中間&#xff0c;居中顯示&#xff0c;但我本人覺得并不好看&#xff0c;所以我決定改一下&#xff0c;于是有了這篇博客 檢查看原理 軟件內…

高精度頻率基石:超低相噪恒溫晶振的全場景應用解決方案

在科技高速發展的今天&#xff0c;頻率源作為電子系統的 “心臟”&#xff0c;其穩定性與可靠性直接決定著通信、導航、測量等關鍵領域的性能上限。深度洞察行業需求&#xff0c;重磅推出SYN3627L 型 100MHz 恒溫晶振&#xff08;OCXO&#xff09;。這款集高穩定性、低相位噪聲…