大模型微調【1】之入門

文章目錄

說明
一大模型微調技術
- 1.1 微調基礎
- 1.2 量化概念
- 1.3 高效微調方法LoRA&QLoRA
- 1.4 LoRA VS QLoRA
- 1.5 高效微調的應用場景
二主流微調工具
- 2.1 unsloth
- 2.2 LLama-Factory
- 2.3 ms-SWIFT
- 2.4 ColossalAI
- 2.5 底層微調框架推薦
- 2.6 模型性能評估框架EvalScope
三微調所需軟硬件環境
- 3.1 NVIDIA顯卡主要分類和命令規則
- 3.2 NVIDIA各類顯卡功能說明
- - 3.2.1 TX系列（消費級）
  - 3.2.2 A系列(數據中心、原版)
  - 3.2.3 A800和H800系列（數據中心，特供）
  - 3.2.4 H系列（數據中心，高端，原版）
  - 3.2.5 L系列(專業圖形)
  - 3.2.6 T系列（入門級數據中心）
- 3.3 NVIDIA各類顯卡功能總結
- 3.4 不同顯卡性能對比重要結論
- 3.5 顯存占用情況

說明

本文學自賦范社區公開資料，同時結合自己的學習和時間總結而來，僅供學習和交流，不用作任何商業用途！

一大模型微調技術

1.1 微調基礎

大模型微調指的在已有的大規模預訓練模型基礎上，通過對標注數據進行訓練，進一步優化模型的表現，以適應特定任務或場景的需求。微調是通過修改模型參數來優化模型能力，是一種能夠讓模型“永久”掌握某種能力的方法。
從方法的大類上來劃分，微調又可以劃分為全量微調（帶入全部數據進行微調）和高效微調（只帶入部分數據進行微調）。全量微調是一種算力消耗更大、但對模型的能力改造更為徹底的方法，而高效微調則更類似一種“四兩撥千斤”的方法，通過修改模型部分參數，來調整模型整體能力。
模型微調的優劣勢：盡管模型微調能夠通過修改模型參數的方式，永久的修改模型的能力，但這也是一把雙刃劍，如果處理不當，很可能造成模型原始能力的災難性遺忘、即會導致模型原始能力丟失。為了能夠滿足微調最初目標，必須小心謹慎的設計模型微調數據集和微調訓練流程，并經過反復多次訓練驗證，得到最佳模型。

1.2 量化概念

量化：在大語言模型（LLM）中，int4和int8是兩種常見的量化（Quantization）技術，旨在通過降低模型參數的數值精度來減少計算資源占用、提升推理速度，同時盡量保持模型性能。
量化是指將模型參數（通常是32位浮點數 float32）轉換為更低精度的整數格式（如 int8、int4），從而：減少內存占用（如，float32 → int8 可減少75%的存儲空間）、加速計算（整數運算比浮點運算更快，尤其適合邊緣設備（如手機、嵌入式芯片））、降低功耗（減少數據傳輸和計算的開銷）。

1.3 高效微調方法LoRA&QLoRA

高效微調與LoRA、QLoRA：在絕大多數場景中，如果只想提升模型某個具體領域的能力，那高效微調會更加合適。現在適用于大模型的最主流的高效微調方法只有一種——LoRA。
LoRA（Low-Rank Adaptation）微調是一種參數高效的微調方法，旨在通過引入低秩矩陣來減少微調時需要調整的參數數量，從而顯著降低顯存和計算資源的消耗。具體來說，LoRA 微調并不直接調整原始模型的所有參數，而是通過在某些層中插入低秩的適配器（Adapter）層來進行訓練。
LoRA的原理：
- 在標準微調中，會修改模型的所有權重，而在LoRA中，只有某些低秩矩陣（適配器）被訓練和調整。原始模型的參數保持不變，只是通過少量的新參數來調整模型的輸出。
- 低秩矩陣的引入可以在顯存和計算能力有限的情況下，依然有效地對大型預訓練模型進行微調，從而讓 LoRA 成為顯存較小的設備上的理想選擇。
LoRA的優勢：
1. 顯存優化：只需要調整少量的參數（適配器），顯著減少了顯存需求，適合顯存有限的GPU。
2. 計算效率：微調過程中的計算負擔也更輕，因為減少了需要調整的參數量。
3. 靈活性：可以與現有的預訓練模型輕松結合使用，適用于多種任務，如文本生成、分類、問答等。

QLoRA（Quantized Low-Rank Adaptation） 是 LoRA 的一個擴展版本，它結合了 LoRA 的低秩適配器和量化技術。QLoRA 進一步優化了計算效率和存儲需求，特別是在極端顯存受限的環境下。與 LoRA 不同的是，QLoRA 會將插入的低秩適配器層的部分權重進行量化（通常是量化為 INT4 或 INT8），在保持性能的同時顯著降低模型的存儲和計算需求。
QLoRA核心思想：在 LoRA 的基礎上加入量化技術，減少權重表示的位數，從而降低顯存和計算需求。QLoRA 結合了低秩適配器和量化的優點，能夠在顯存有限的設備上進行更高效的微調。
QLoRA的優勢：
- 在顯存非常有限的情況下仍能進行微調。
- 可以處理更大規模的模型。
- 適合用于邊緣設備和需要低延遲推理的場景。

大模型微調方法對比研究

1.4 LoRA VS QLoRA

特性	LoRA	QLoRA
核心技術	低秩適配器（Low-Rank Adapters）	低秩適配器 + 量化技術（Low-Rank Adapters + Quantization）
適用場景	顯存受限，但設備性能較好	極限顯存受限或需要快速推理的設備
計算效率	提高計算效率，減少調整的參數數量	進一步提升效率，減少內存使用并加快推理速度
量化技術	無量化	將權重量化為低精度（如INT4或INT8）
內存消耗	較低，但不如QLoRA低	顯著降低內存消耗，適合更小的設備
訓練復雜度	較簡單，適用于大多數微調場景	需要更多的量化和適配工作，但適合超大型模型和設備受限場景

1.5 高效微調的應用場景

在實際大模型應用場景中，高效微調主要用于以下四個方面：

對話風格微調：高效微調可以用于根據特定需求調整模型的對話風格。例如，針對客服系統、虛擬助理等場景，模型可以通過微調來適應不同的語氣、禮貌程度或回答方式，從而在與用戶互動時提供更符合要求的對話體驗。通過微調少量的參數（例如對話生成的策略、情感表達等），可以使模型表現出更具針對性和個性化的風格。
知識灌注：知識灌注是指將外部知識或領域特定的信息快速集成到已有的預訓練模型中。通過高效微調，模型可以更好地學習新領域的專有知識，而無需重新從頭開始訓練。例如，對于法律、醫療等專業領域，可以使用少量的標注數據對預訓練模型進行微調，幫助模型理解特定行業的術語、規則和知識，進而提升專業領域的問答能力。
推理能力提升：高效微調還可以用于提升大模型的推理能力，尤其是在處理更復雜推理任務時。通過微調，模型能夠更加高效地理解長文本、推理隱含信息，或者從數據中提取邏輯關系，進而在多輪推理任務中提供更準確的答案。這種方式可以幫助模型在解答復雜問題時，提高推理準確性并減少錯誤。
Agent能力（Function calling能力、或者MCP能力）提升：在多任務協作或功能調用場景中，高效微調能夠顯著提升模型的Agent能力，使得模型能夠有效地與其他系統進行交互、調用外部API或執行特定任務。通過針對性微調，模型可以學會更精準的功能調用策略、參數解析和操作指令，從而在自動化服務、智能助手或機器人控制等領域表現得更加高效和智能。

二主流微調工具

在入手學習大模型微調時，首先推薦功能層次封裝層次較高的微調四套工具：unsloth、Llama-Factory、ms-SWIFT和ColossalAI。除此之外，也可以借助更加底層的庫，如peft、LoRA、transformer等實現高效微調。
對于初學者來說，首先使用現成工具來進行微調，四種工具基本情況如下。

2.1 unsloth

unsloth是一個專為大型語言模型（LLM）設計的動態量化與微調框架，旨在提高微調效率并減少顯存占用。它通過手動推導計算密集型數學步驟并手寫 GPU 內核，實現了無需硬件更改即可顯著加快訓練速度。

Unsloth supports	Free Notebooks	Performance	Memory use
gpt-oss (20B)	?? Start for free	1.5x faster	70% less
Gemma 3n (4B)	?? Start for free	1.5x faster	50% less
Qwen3 (14B)	?? Start for free	2x faster	70% less
Qwen3 (4B): GRPO	?? Start for free	2x faster	80% less
Gemma 3 (4B)	?? Start for free	1.6x faster	60% less
Phi-4 (14B)	?? Start for free	2x faster	70% less
Llama 3.2 Vision (11B)	?? Start for free	2x faster	50% less
Llama 3.1 (8B)	?? Start for free	2x faster	70% less
Mistral v0.3 (7B)	?? Start for free	2.2x faster	75% less
Orpheus-TTS (3B)	?? Start for free	1.5x faster	50% less

unsloth 與 HuggingFace 生態兼容，可以很容易地transformers、peft、trl 等庫結合，以實現模型的監督微調（SFT）和直接偏好優化（DPO），僅需模型的加載方式，無需對現有訓練代碼進行修改。
Unsloth動態量化模型
Unsloth 的動態量化方法，特別是其最新的 Dynamic 2.0 版本，旨在在盡量減少性能損失的同時顯著壓縮大型語言模型（LLMs）的體積。對于 Qwen3 模型，尤其是 4-bit 動態量化版本，現有的評測顯示其性能下降非常有限，甚至在某些任務上與原始模型相當。

注意：動態量化由利也有弊，其好處在于可以極大程度壓縮模型運行所需占用的顯存大小，同時幾乎不損失性能，但問題在于動態量化的模型，無論是推理還是微調，只能單卡運行，這就使得其吞吐量有限，無法在一臺物理機上實現多GPU并行從而擴大吞吐量。

主要功能特點：
- 高效微調：unsloth通過深度優化，使LLM的微調速度提高2-5倍，顯存使用量減少約80%，且準確度無明顯下降。
- 廣泛的模型支持：目前支持的模型包括目前各類主流模型，用戶可以根據需求適合的模型進行微調。
- 兼容性：unsloth與HuggingFace態系統兼容，用戶可以輕松將其與traformers、peft、等庫結合，實現模型的監督微調（SFT）和直接偏好優化（DPO），僅需修改模型的加載方式，無需對現有訓練代碼進行過多修改。
- 內存優化：通過4位和16位的QLoRA/LoRA微調，unsloth顯著了顯存占用，使得在資源受限的環境中也能大的微調。

unsloth核心優勢：
- 顯著提升微調效率：相比傳統方法，Unsloth采用獨家4bit動態量化技術，能夠在更短的時間內完成微調任務，節省時間成本。
- 降低硬件要求：通過優化顯存使用，用戶可以在顯存較小的GPU上進行大模型的微調，降低了硬件門檻。
- 開源免費：Unsloth提供開源版本，用戶可以在Google Colab或Kaggle Notebooks上免費試用，方便上手體驗。
unsloth為大型語言模型的微調提供高效、低成本的解決方案，適合希望在有限資源下進行模型微調的開發者和研究人員。

2.2 LLama-Factory

LLama-Factory是一個統一且高效的微調框架，旨在為超過100種大型語言模型（LLMs）和視覺語言模型（VLMs）提供便捷的微調支持。用戶能夠靈活地定制模型以適應各種下游任務。
主要功能和特點：
- 廣型支持： LLaMA-Factory 支持對 100 多LLMs 和 VLMs 進行微調，包括最新的模型版本，如 Llama 3、GLM-4、Mistral Small、PaliGemma2 等。
- 高效的微調方法：框架集成了多nk Adaptation）、QRA（Quantized LoRA）等，以提高訓練速度并減少顯存占用。
- 多模態任務支持：除傳統的文本任務外，LLaMA-Factory 還支頻識別、音頻理解等多種任務類型。
- 實驗監控：提供豐富的實驗監控工具，如 LlamaBoard、TensorBoard、Wandb、MLflow、練過程。
- 快速：框架提供類似 OpenAI 風格的 API、Gradio UI 和命令行界面，并結合 vLLM worker，實現了高效的推理能力。

2.3 ms-SWIFT

ms-swift（Scalable lightWeight Infrastructure for Fine-Tuning）是由魔搭社區（ModelScope）開發的高效微調和部署框架，旨在為研究人員和開發者提供一站式的大模型與多模態大模型的訓練、推理、評測、量化和部署解決方案。
模型支持：** ms-swift 支持超過 450 種大型模型（LLMs）和 150 多種多模態大模型（MLLMs）的訓練和部署**，包括最新的模型版本，如 Qwen2.5、InternLM3、Llama3.3、Mistral、DeepSeek-R1、Baichuan2等，以及多模態模型如 Qwen2.5-VL、Qwen2-Audio等。

2.4 ColossalAI

Colossal-AI是一個高效的分布式人工智能訓練系統，旨在最大化提升人工智能訓練效率，同時最小化訓練成本。作為深度學習框架的內核，Colossal-AI 提供了自動超高維并行、大規模優化庫、自適應任務調度、內存優化以及最新模型復現等前沿技術。與英偉達的 Megatron-LM 相比，Colossal-AI 僅需一半數量的 GPU 即可完成 GPT-3 訓練，半小時內預訓練 ViT-Base/32，并在兩天內訓練完 15 億參數的 GPT 模型。此外，Colossal-AI 提供了多種并行技術，如數據并行、流水線并行和張量并行，以加速模型訓練。 cite turn0search1該項目自開源以來，迅速登上 GitHub 熱榜，成為解放 AI 生產力的最佳選擇。
ColossalAI支持DeepSeek R1非量化模型高效微調的框架，僅需4個節點、8卡A100服務器即可完成DeepSeek R1高效微調。

2.5 底層微調框架推薦

強化學習訓練，則推薦veRL和OpenRLHF等框架。

框架	優勢	適用場景
Hugging Face	高度兼容，易用，文檔豐富	一般 NLP 任務，模型選擇豐富
LoRA	顯存節省，減少微調計算量	顯存有限的設備，微調大規模模型
PEFT	高效微調，低計算開銷	資源有限的環境，適合大規模預訓練模型的微調
DeepSpeed	大規模分布式訓練，顯存優化	超大規模訓練，多卡分布式訓練
AdapterHub	低資源消耗，快速微調	多任務微調，資源有限的環境
Alpaca-LoRA	生成任務優化，LoRA 技術結合	對話生成、文本生成
FastChat	對話系統微調，快速集成	對話生成任務，尤其是對 ChatGPT 等模型微調
FairScale	大規模分布式訓練優化，自動化優化	多卡分布式訓練，大規模微調

2.6 模型性能評估框架EvalScope

EvalScope是由阿里巴巴魔搭社區（ModelScope）推出的一款開源模型評估框架，旨在為大語言模型（LLM）和多模態模型提供統一、系統化的性能評估方案。該框架具備高度的自動化和可擴展性，適用于研究機構、工業界以及模型開發者在模型驗證與性能對比場景中的廣泛需求。
EvalScope 的核心功能和特點包括：
- 豐富的評測基準覆蓋：框架內置多種權威評測數據集，涵蓋中英文通用知識問答（如 MMLU、CMMLU、C-Eval）、數學推理（如 GSM8K、MATH）、常識判斷（如 HellaSwag、ARC）、代碼生成（如 HumanEval）等多個方向，支持對模型能力進行多維度評估。
- 多樣的評估模式支持：EvalScope 提供三種靈活的評估模式，包括單模型評估模式（Single）、基于基線的兩兩對比模式（Pairwise-Baseline）、以及全模型兩兩對比模式（Pairwise-All），可滿足從快速診斷到全面對比的不同使用場景。
- 統一的模型接入接口：框架對不同類型的模型提供統一的調用方式，兼容 HuggingFace、本地部署模型及 API 遠程調用，支持標準的 generate 與 chat 接口，大大降低了模型集成的復雜度。
- 評估流程高度自動化：EvalScope 實現了評測任務的全自動執行，包括客觀題自動打分、復雜問題使用評審模型輔助判定結果等，支持批量評估與日志記錄，極大提升了評估效率與結果一致性。
- 完善的性能與能力可視化工具：框架支持生成詳細的評估報告和圖表，展示模型在不同任務維度下的表現，便于開發者進行橫向對比和性能分析。

三微調所需軟硬件環境

大模型微調屬于大模型進階類技術，不同于普通的模型對話或搭建基礎應用，微調往往需要一定的軟硬件條件支持。

3.1 NVIDIA顯卡主要分類和命令規則

類別	主要系列	應用場景	典型顯卡	誕生時間
消費級顯卡	RTX 系列 (20/30/40)	游戲、圖形渲染、輕量級深度學習、AI 推理	RTX 3090、RTX 4090	2018 年 (RTX 20)
數據中心顯卡	A 系列（原版）	大規模深度學習訓練、推理、高性能計算 (HPC)	A100、A10、A4	2020 年 (Ampere)
數據中心顯卡（特供）	A800、H800 系列	針對中國市場的特供顯卡，調整性能以符合出口限制	A800、H800	2021 年 (A800)
高端數據中心顯卡	H 系列（原版）	超大規模深度學習訓練、推理、低精度計算 (FP8)	H100、H200	2022 年 (Hopper)
專業圖形顯卡	L 系列	數據可視化、AI 推理、工作站任務	L40、L20、L4	2022 年 (Ada)
入門級數據中心顯卡	T 系列	云推理服務、虛擬化工作站、輕量化 AI 推理任務	T4	2018 年 (Turing)

3.2 NVIDIA各類顯卡功能說明

3.2.1 TX系列（消費級）

設計目標：面向消費者，優化游戲、圖形渲染，同時具備基礎AI加速功能。
主要功能：
- 光線追蹤（RTCore)：優化圖形渲染和實時光線追蹤。
- TensorCore：支持輕量深度學習和推理任務。
典型顯卡：
- RTX3090/4090：性能強大的消費級顯卡，適合游戲和中小規模深度學習。
適用場景：游戲開發、輕量深度學習、圖形渲染。

3.2.2 A系列(數據中心、原版)

設計目標：專為大規模深度學習訓練和推理設計，適合數據中心和高性能計算。
主要功能：
- HBM2e 高帶寬顯存：提供更高的數據吞吐能力。
- TensorCore：優化矩陣計算，適合深度學習模型的訓練和推理。
典型顯卡：
- A100：支持大模型訓練和分布式深度學習。
- A10/A4:性能稍低，適合中小規模任務。
適用場景：深度學習訓練、高性能計算（HPC)。

3.2.3 A800和H800系列（數據中心，特供）

設計目標：針對中國市場的特供版顯卡，性能略低于原版以符合出口管制。
主要功能：
- 降低NVLink和顯存帶寬：符合國際出口限制。
- 保持核心計算能力：CUDA核心和TensorCore數量保持不變。
典型顯卡：
- A800：面向訓練和推理，性能接近A100。
- H800：面向大規模深度學習任務，接近H100性能。
適用場景：中國市場的大規模AI訓練與推理。

3.2.4 H系列（數據中心，高端，原版）

設計目標：NVIDIA的最高性能顯卡系列，面向超大規模深度學習訓練和推理任務。
主要功能：
- 第四代TensorCore：支持低精度FP8和高效的分布式訓練。
- HBM3顯存：顯存帶寬更高，達到2,000GB/S（H100）或更高（H200)。
- NVLink和NVSwitch：實現多GPU的全互聯。
典型顯卡：
- H100：支持GPT-3/GPT-4等超大模型訓練。
- H200：性能進一步提升，適合更復雜的任務。
適用場景：超大規模AI模型的分布式訓練、推理和HPC。

3.2.5 L系列(專業圖形)

設計目標：專業圖形顯卡，適合AI推理、數據可視化和圖形工作站任務。
主要功能：
- 高顯存容量：適合需要大數據吞吐的AI和可視化任務。
- 能效優化：適合數據中心的高效部署。
典型顯卡：
- L40：面向中國市場的專業顯卡，適合推理任務。
- L20：性能略低的版本，適合輕量任務。
適用場景：AI推理、虛擬化工作站、數據可視化。

3.2.6 T系列（入門級數據中心）

設計目標：針對低功耗應用場景，適合大規模部署。
主要功能：
- 低功耗設計：功耗通常低于70W，適合節能型數據中心。
- 推理優化：：性能足夠支持輕量推理任務。
典型顯卡：
- T4：云推理和虛擬化工作站的主力顯卡。
- 適用場景：輕量推理、虛擬化桌面環境。

3.3 NVIDIA各類顯卡功能總結

系列	主要特點	典型用戶
RTX	面向消費級市場，兼顧游戲、圖形渲染和輕量深度學習任務	游戲玩家、AI 初學者
A系列	高性能訓練和推理顯卡，適合大規模深度學習訓練	數據中心、AI 研究團隊
A800	A系列的特供版，性能略低但適合中國市場	中國市場的大模型訓練和推理
H系列	NVIDIA的高端顯卡，支持超大規模模型訓練（如GPT-3/4）	超大規模 AI 項目、HPC 任務
H800	H系列的特供版，性能略低但適合中國市場	中國市場的大模型訓練和推理
L系列	專業圖形和推理顯卡，適合數據可視化和輕量推理任務	數據分析師、工作站用戶
T系列	入門級顯卡，低功耗，適合推理和虛擬化任務	節能型數據中心、云服務

3.4 不同顯卡性能對比重要結論

H系列顯卡性能在訓練以及各精度訓練方面大幅領先。
4090推理性能很強（強于A100），但訓練能力不如A100，且受限于顯存大小和顯存帶寬，整體訓練能力較弱。
3090的推理和訓練的理論性能約是A100的60%，但同樣受限于顯存大小和顯存帶寬，實際性能和A100差距較大，但仍不失為低成本模型訓練。
A10、T4等顯卡在深度學習推理與訓練方面表現較差。

3.5 顯存占用情況

不同尺寸、精度大模型推理所需顯存占用

精度	7B (GB)	13B (GB)	30B (GB)	70B (GB)	110B (GB)
FP16	12	24	60	120	200
INT8	8	16	40	80	140
INT4	6	12	24	48	72
INT2	4	8	16	32	48

不同尺寸、精度大模型訓練與微調所需顯存占用

方法 / 精度	7B (GB)	13B (GB)	30B (GB)	70B (GB)	110B (GB)
Full (AMP)	120	240	600	1200	2000
Full (FP16)	60	120	300	600	900
Freeze (FP16)	20	40	80	200	360
LoRA (FP16)	16	32	64	160	240
QLoRA (INT8)	10	20	40	80	140
QLoRA (INT4)	6	12	24	48	72

不同尺寸、精度大模型推理推薦GPU
- 其中RTX 4090可等價替換為RTX 3090
- 其中A100可替換為A800
- 其中L40可替換為L20

模型尺寸	精度	顯存需求 (GB)	推薦顯卡
7B	FP16	12	RTX 4080 / RTX 4090
7B	INT8	8	RTX 4080 / T4
7B	INT4	6	RTX 4080 / RTX 3060
7B	INT2	4	RTX 3060 / RTX 4080
13B	FP16	24	RTX 4090
13B	INT8	16	RTX 4090
13B	INT4	12	RTX 4090 / RTX 4080
13B	INT2	8	RTX 4080 / RTX 4090
30B	FP16	60	A100 (40GB) * 2
30B	INT8	40	L40 (48GB)
30B	INT4	24	RTX 4090
30B	INT2	16	T4 (16GB)
70B	FP16	120	A100 (80GB) * 2
70B	INT8	80	L40 (48GB) * 2
70B	INT4	48	L40 (48GB)
70B	INT2	32	RTX 4090
110B	FP16	200	H100 (80GB) * 3
110B	INT8	140	H100 (80GB) * 2
110B	INT4	72	A10 (24GB) * 3
110B	INT2	48	A10 (24GB) * 2

Qwen3全系列模型微調所需顯存預覽

模型名稱	參數量	FP16微調顯存占用	4-bit動態量化微調顯存占用	備注
Qwen3-0.6B	0.6B	~1.2 GB	~0.5 GB	可在低端 GPU 或 CPU 上運行
Qwen3-1.7B	1.7B	~3.4 GB	~1.5 GB	適合入門級部署
Qwen3-4B	4B	~8.0 GB	~3.5 GB	適合中等規模任務
Qwen3-8B	8B	~16.0 GB	~7.0 GB	需要高端消費級 GPU
Qwen3-14B	14B	~28.0 GB	~12.0 GB	可在單張 RTX 4090 上微調
Qwen3-30B-A3B (MoE)	激活參數約 3B	~85.0 GB	暫不支持	激活部分專家參數，資源需求較高
Qwen3-32B	32B	~65.0 GB	~32.0 GB	需要 A100/H100 或多卡并行
Qwen3-235B-A22B (MoE)	激活參數約 22B	~600 GB	暫不支持	超大模型，適合企業級部署，需高端服務器支持