【大模型】微調一個大模型需要多少 GPU 顯存？

【大模型】微調一個大模型需要多少 GPU 顯存？

diannao/2025/8/14 1:07:42/文章來源:https://blog.csdn.net/u012856866/article/details/146870846

視頻鏈接：微調一個模型需要多少GPU顯存？ up 主頁：AI老兵
tags： #GPU顯存 #模型微調 #LoRA #QLoRA #參數計算本集視頻詳細介紹了在模型微調過程中 GPU
顯存需求的計算方法，包括全量微調和高效微調（如 LoRA）的情況。up 主通過具體示例，說明了如何估算不同規模模型和不同微調方法所需的 GPU 顯存大小。

1 全量微調的 GPU 顯存需求

1.1 主要顯存消耗模塊

Model Weight: 模型本身的參數
Gradient: 用于計算參數更新的梯度
Optimizer State: 優化器狀態，取決于所使用的優化器類型
其他（如 Activation 等）

1.2 顯存需求計算示例（1B 模型，16bit 參數）

微調 1B 模型，16bit = 2byte

Model Weight（模型參數）: 2GB (10 億參數 * 2 byte/參數)

訓練模型時，通過一系列反向傳播的方法，來更新模型參數，涉及以下gradient?和optimizer states?參數。不斷計算梯度，以更新模型參數。

Gradient（梯度）: 2GB (通常與 Model Weight 相當)
Optimizer State（優化器）: 8GB（保守估計為 Model Weight 的 4 倍）
總計: 12GB（約6倍的model weight?顯存）

2 高效微調方法：LoRA

2.1 LoRA 微調原理

保持原有模型不變
學習更少量的參數（如原模型參數的 2.5%）
將學習結果與原模型結合形成新模型

2.2 LoRA 下的顯存需求（以 2.5%參數為例）

LORA只對部分參數進行學習，大幅減少顯存需求。顯存需求計算示例（假設 LoRA 模塊為原模型 2.5%）:

Model Weight（模型參數）: 2GB（保持不變）
Adapter Weight（適配器參數）: 0.05GB (2GB * 2.5%)
Gradient + Optimizer State（梯度+優化器）: 0.25GB (10GB * 2.5%)
總計: 2.3GB

3 進一步優化：QLoRA

3.1 QLoRA 原理

通過量化（Quantization）方法進一步壓縮 Model Weight
可將 16bit 參數壓縮至 8bit 或 4bit

3.2 QLoRA 下的顯存需求

Model Weight（模型參數）: 可能降至 1GB 或 0.5GB
其他項目相應減少

4 實際項目中的其他考慮因素

單卡 vs 多卡訓練
單節點 vs 多節點訓練
DeepSpeed 的 Zero3 或 Zero2 等優化策略

5 總結

模型微調所需的 GPU 顯存取決于多個因素，包括模型大小、微調方法和優化策略。全量微調需要較大顯存，而高效微調方法如 LoRA 和 QLoRA 可以顯著減少顯存需求。在實際項目中，還需考慮硬件配置和訓練策略等因素來更精確地估算 GPU 顯存需求。

參考資料

17 微調一個模型需要多少 GPU 顯存？
算法冷知識第3期-1B參數的大模型訓練需要多少顯存？

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/76214.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/76214.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/76214.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Lambda 表達式是什么以及如何使用

Lambda 表達式是什么以及如何使用

目錄 📌 Kotlin 的 Lambda 表達式詳解 🎯 什么是 Lambda 表達式？ 🔥 1. Lambda 表達式的基本語法 ? 示例 1：Lambda 基本寫法 ? 示例 2：使用 it 關鍵字（單參數簡化） ? 示例 3…

閱讀更多...

全文 MLIR TOY -- Chapter2: 發出基本的 MLIR——把AST變成SSA的 MLIR Dialect IR

全文 MLIR TOY -- Chapter2: 發出基本的 MLIR——把AST變成SSA的 MLIR Dialect IR

現在我們已經熟悉 Toy 語言和它的AST表示，現在讓我們看看 MLIR 是怎樣幫助編譯 Toy 源程序的。簡介：多層中間表示其他的編譯器，像 LLVM，是提供一個固定的預定義類型和指令（通常是底層的像 RISC的指令）。對…

閱讀更多...

一個判斷A股交易狀態的python腳本

一個判斷A股交易狀態的python腳本

最近在做股票數據相關的項目，需要用到判斷某一天某個時刻A股的狀態，比如休市，收盤，交易中等，發動腦筋想了一下，這個其實還是比較簡單的，這里我把實現方法分享給大家。思路當天是否休市對于某…

閱讀更多...

LLaMA Factory微調后的大模型在vLLM框架中對齊對話模版

LLaMA Factory微調后的大模型在vLLM框架中對齊對話模版

LLaMA Factory微調后的大模型Chat對話效果，與該模型使用vLLM推理架構中的對話效果，可能會出現不一致的情況。下圖是LLaMA Factory中的Chat的對話下圖是vLLM中的對話效果。模型回答不穩定：有一半是對的，有一半是無關的。 1、未…

閱讀更多...

004 健身房個性化訓練計劃——金丹期（體態改善）

004 健身房個性化訓練計劃——金丹期（體態改善）

個人筆記使用。 01 肱骨前移 1.放松肩前束 2.放松肩后束 2.5kg啞鈴側展泡沫軸上下滾招財貓肱二頭 02 溜肩寬距的坐姿劃船上頂

閱讀更多...

【已開源】UniApp+vue3跨端應用從0到1開發指南、uniapp+vue3模板應用

【已開源】UniApp+vue3跨端應用從0到1開發指南、uniapp+vue3模板應用

在跨端開發日益成為主流的今天，如何高效構建規范、可維護的企業級應用？本文以UniAppVue3* *TypeScript**為核心技術棧，手把手帶你從零搭建高標準的跨平臺項目。通過本文，你將系統掌握： ? 環境配置：Node…

閱讀更多...

線程池設計

線程池設計

線程池實際上也是一個生產者消費者模型，線程池可以讓多個線程去任務隊列中取任務，執行任務，適用于需要大量的線程來完成任務且完成任務的時間較短。 #include "log.hpp" #include <mutex> #include <condition_variable&…

閱讀更多...

黑盒測試的正交實驗法

黑盒測試的正交實驗法

背景: 利用因果圖法、判定表法可以幫助我們對于輸入數據的組合情況進行用例設計，但當輸入數據的組合數量巨大時，由于不太可能覆蓋到每個輸入組合的測試情況，因果圖法或判定表法可能就不太適用了，可以采用正交實驗法、來合理地減少…

閱讀更多...

Linux內核編程

Linux內核編程

linux 系統在 2 4 4 0 上的啟動過程分三個階段 u-boot的啟動 1.先分清寄存器的分類 RAM的分類 ROM的分類 Mini2440開發板的存儲器配置 Mini2440開發板板載: 1. 64MB sdram; 2. 256MB nand-flash; 3. 2MB nor-flash; 4. s3c2440內部還有4KB iram; Mini2440的啟…

閱讀更多...

黑盒測試的判定表法（能對多條件依賴關系進行設計測試點）

黑盒測試的判定表法（能對多條件依賴關系進行設計測試點）

定義: 判定表是分析和表達多邏輯條件下執行不同操作的工具。就是指把所有的輸入條件、所有可能采取的動作按表格列出來，每一種條件和動作的組合構成一條規則，也即一條用例。 1.判定表法的引用等價類邊界值分析法主要關注單個輸入類條件的測試并未考慮…

閱讀更多...

從零構建大語言模型全棧開發指南：第四部分：工程實踐與部署-4.1.2ONNX格式轉換與TensorRT部署

從零構建大語言模型全棧開發指南：第四部分：工程實踐與部署-4.1.2ONNX格式轉換與TensorRT部署

?? 點擊關注不迷路 ?? 點擊關注不迷路 ?? 點擊關注不迷路文章大綱從零構建大語言模型全棧開發指南-第四部分：工程實踐與部署4.1.2 ONNX格式轉換與TensorRT部署1. 模型部署的核心挑戰與價值2. ONNX格式轉換技術詳解2.1 ONNX技術棧組成2.2 轉換流程與關鍵技術2.3 轉換常…

閱讀更多...

免費下載 | 2025年網絡安全報告

免費下載 | 2025年網絡安全報告

報告總結了2024年的網絡安全態勢，并對2025年的安全趨勢進行了預測和分析。報告涵蓋了勒索軟件、信息竊取軟件、云安全、物聯網設備安全等多個領域的安全事件和趨勢，并提供了安全建議和最佳實踐。一、報告背景與目的主題：2024企業信息安全峰…

閱讀更多...

基于Real-Sim-Real循環框架的機器人策略遷移方法

基于Real-Sim-Real循環框架的機器人策略遷移方法

編輯：陳萍萍的公主一點人工一點智能基于Real-Sim-Real循環框架的機器人策略遷移方法本文通過嚴謹的理論推導和系統的實驗驗證，構建了一個具有普適性的sim-to-real遷移框架。https://mp.weixin.qq.com/s/cRRI2VYHYQUUhHhP3bw4lA 01 摘要本文提出的Rea…

閱讀更多...

語義分析(編譯原理)

語義分析(編譯原理)

1.什么是語義分析: 前兩個階段，詞法分析是從字符到單詞的一級識別，保證了每個單詞的形式是正確的， 語法分析是由單詞到語法樹的一級識別，如果不符合語法規則就不能建樹，因此保證了各個語法成分的構成是正確的詞法分…

閱讀更多...

藍橋杯備考---》貪心算法之矩陣消除游戲

藍橋杯備考---》貪心算法之矩陣消除游戲

我們第一次想到的貪心策略一定是找出和最大的行或者列來刪除，每次都更新行和列比如如圖這種情況，這種情況就不如直接刪除兩行的多，所以本貪心策略有誤 so我們可以枚舉選的行的情況，然后再貪心的選擇列和最大的列來做 #include …

閱讀更多...

LeetCode hot 100—二叉搜索樹中第K小的元素

LeetCode hot 100—二叉搜索樹中第K小的元素

題目給定一個二叉搜索樹的根節點 root ，和一個整數 k ，請你設計一個算法查找其中第 k 小的元素（從 1 開始計數）。示例示例 1： 輸入：root [3,1,4,null,2], k 1 輸出：1示例 2： …

閱讀更多...

【Java SE】Arrays類

【Java SE】Arrays類

參考筆記： Java中Arrays類(操作數組的工具)_java arrays-CSDN博客 Java——Arrays 類詳解_java arrays類-CSDN博客目錄 1.Arrays類簡介 2.Arrays.toString 2.1 使用示例 2.2 源碼 3. Arrays.copyOf 3.1 使用示例 3.2 源碼 4.Arrays.sort 4.1 默認排序使…

閱讀更多...

git命令簡陋版本

git命令簡陋版本

git push git pull 臨時倉庫暫存區 ##############創建提交################ git init #創建git地址 git config --global user.name "***YQ1007" git config --global user.email "***gmail.com" git remote…

閱讀更多...

6. 王道_網絡協議

6. 王道_網絡協議

1 網絡協議和網絡模型 2 TCP/IP協議族概覽 2.1 四層模型的各層實體 2.2 協議數據單元的轉換 2.3 常見協議以及分層 2.4 ifconfig 2.5 本地環回設備 3 以太網 3.1 以太網和交換機 3.2 以太網幀 MAC地址大小 48位 6字節 IP地址 32位 4字節 port 16位 2字節 3.3 ARP協議 4 IP協…

閱讀更多...

minecraft.service 文件配置

minecraft.service 文件配置

minecraft.service 文件配置 # /etc/systemd/system/minecraft.service [Unit] DescriptionMinecraft Fabric Server Afternetwork.target Wantsnetwork-online.target[Service] Usermcfabricuser Groupmcfabricuser WorkingDirectory/minecraft/1.21.1-fabric-server ExecStar…

閱讀更多...

最新文章