01 | 大模型微調 | 從0學習到實戰微調

一、導讀

作為非AI專業技術開發者（我是小小爬蟲開發工程師😋）

本系列文章將圍繞《大模型微調》進行學習（也是我個人學習的筆記，所以會持續更新），最后以上手實操模型微調的目的。

(本文如若有錯誤的地方，歡迎批評指正)

在這里插入圖片描述

💪 為什么要學習AI呢？

作為一名爬蟲開發工程師，我深知技術領域的不斷變革與發展
如今，AI 已然成為時代浪潮的核心驅動力，就如同 Windows 操作能力是從業者的基礎技能，
我堅信未來 AI 開發應用必將成為程序員不可或缺的能力標簽。

你可以閱讀我下列文章

? 關于langchain的系列文章（相信我把Langchain全部學一遍，你能深入理解AI的開發）

?關于Langchain的實戰案例（自認為本地問答機器人的案例寫的很好，很好理解ReAct）
Langchain-實戰篇-搭建本地問答機器人-01
都2024了，還在糾結圖片識別？fastapi+streamlit+langchain給你答案！

?關于Agent智能體開發案例（MCP協議）
在dify構建mcp，結合fastapi接口，以實際業務場景理解MCP

? 推薦閱讀一下transformer 文章，以便能更好的理解大模型

Transformer模型詳解（圖解最完整版）

Attention Is All You Need (Transformer) 論文精讀

? 除了在 CSDN 分享這些技術內容，我還將在微信公眾號持續輸出優質文章，內容涵蓋以下板塊：?
（當然我也希望能夠跟你們學習探討😀）

關注😄「穩穩C9」😄公眾號

爬蟲逆向：分享爬蟲開發中的逆向技術與技巧，探索數據獲取的更多可能。?
AI 前沿內容：緊跟 AI 發展潮流，解讀大模型、算法等前沿技術動態。?
騎行分享：工作之余，用騎行丈量世界，分享旅途中的所見所感。

搜索「穩穩C9」公眾號

二、AI發展四輪浪潮

在這里插入圖片描述

1、弱人工智能

1950 - 2000 年間，眾多關鍵研究成果不斷涌現，從理論基礎的建立到各種算法和模型的提出，為人工智能后續發展構筑了堅實的基石。

參考文章：A History of AI (Part 1)人工智能簡史（第1部分）

感知機（1958年）：Frank Rosenblatt的論文為復雜神經網絡和機器學習算法奠定基礎。感知機作為人工神經網絡基本單元，可根據輸入數據調整權重學習和決策。
反向傳播算法（1986年）：David E. Rumelhart等人提出的反向傳播算法，能訓練多層網絡，使內部隱藏單元提取任務特征，與早期方法區分開來，推動深度學習發展。
決策樹（1986年）：J. R. Quinlan的論文介紹ID3算法，是構建決策樹的基礎方法，后續研究圍繞處理噪聲和不完整數據改進算法。決策樹用于分類和回歸，ID3算法基于信息增益遞歸劃分數據。
隱馬爾可夫模型（1989年）：L.R. Rabiner的論文全面介紹隱馬爾可夫模型（HMMs）及其在語音識別中的應用。HMMs基于馬爾可夫過程，包含不可觀測隱藏狀態，解決評估、解碼和學習三個基本問題。
多層前饋網絡（1989年）：Kurt Hornik等人證明多層前饋網絡是通用近似器，理論上能以任意精度逼近復雜函數，為神經網絡廣泛應用提供理論依據。
支持向量機（1992年）：Bernhard E. Boser等人提出支持向量機（SVMs），通過最大化類間間隔和自動調整模型復雜度，在分類任務中表現出色，如光學字符識別。
裝袋法（1996年）：Leo Breiman提出裝袋法（Bagging），屬于集成學習方法，通過自助采樣生成多個模型并聚合結果，降低預測方差，提高準確性。
卷積神經網絡（1998年）：Yann LeCun等人的研究展示卷積神經網絡（CNNs）在識別二維形狀（如手寫字符）上的優勢，并介紹圖變換網絡（GTNs）用于全局訓練多模塊系統，推動文檔識別等應用發展。

2、機器學習（統計機器學習）

在這里插入圖片描述

參考文章：A History of AI (Part 2) 人工智能的歷史（第2部分）

2000 - 2010 年間人工智能領域的重要研究成果，展示了該時期人工智能技術的多元發展。

隨機森林（2001年）：Leo Breiman提出隨機森林，這是一種集成學習方法，結合多個基于隨機特征子集訓練的決策樹，用于分類和回歸。相比Adaboost，它對噪聲更具魯棒性，不易過擬合，還能通過內部估計監控誤差等指標，衡量變量重要性。
進化算法（2002年）：K. Deb等人提出NSGA - II算法，改進了多目標進化算法。該算法降低了計算復雜度，引入精英策略保留最優解，避免指定共享參數，在收斂性和求解多樣性上表現更優，推動了多目標優化領域發展。
潛在狄利克雷分配（2003年）：David M. Blei等人提出LDA，這是一種用于離散數據（如文本）的生成式概率模型。它將文檔視為主題的混合，主題視為單詞的混合，通過變分方法和EM算法進行參數估計，為文本主題建模提供了有效框架，促進了文檔分類等應用發展。
降維（2006年）：Geoffrey E. Hinton和R. R. Salakhutdinov發現，正確初始化的深度自編碼器網絡能學習到比主成分分析（PCA）更優的低維數據表示。自編碼器可將高維數據壓縮為低維編碼并重建，該研究為降維提供了新的有效方法。
高維數據可視化（2008年）：Laurens van der Maaten和Geoffrey Hinton提出t - SNE技術，用于高維數據可視化。它改進了隨機鄰居嵌入（SNE）方法，更易優化，能減少數據點在圖中心聚集的問題，在多尺度揭示數據結構方面表現出色，成為高維數據可視化的標準技術。
ImageNet（2009年）：Jia Deng等人構建了大規模圖像數據庫ImageNet，基于WordNet結構組織圖像，規模大、多樣性豐富且標注準確。它為圖像識別和分類模型的訓練提供了大量數據，推動了相關領域的發展。

3、深度學習

在這里插入圖片描述

參考文章：A History of AI (Part 3) 人工智能的歷史（第3部分）

2010 - 2014 年人工智能領域最重要的研究論文，展示了這一時期人工智能在多個關鍵方向的重大進展。

圖像識別突破：AlexNet利用深度卷積神經網絡對130萬張高分辨率圖像進行分類，憑借非飽和神經元、GPU加速和新正則化方法，大幅降低錯誤率，推動計算機視覺發展。
自然語言處理進展：提出新模型架構生成詞向量，在詞相似性任務中表現出色，計算成本低，成為現代自然語言處理應用的基礎；基于LSTM的序列到序列學習方法，在機器翻譯任務中超越傳統方法，為神經機器翻譯等應用奠定基礎；引入軟對齊機制，改進了神經網絡機器翻譯，解決了固定長度向量的瓶頸問題，引入注意力機制影響眾多AI領域。
生成模型創新：變分自編碼器（VAE）提出隨機變分推理和學習算法，解決復雜概率模型的推理和學習問題，推動生成模型發展；生成對抗網絡（GANs）通過生成模型與判別模型對抗訓練，能生成高度逼真的合成數據，在圖像合成等領域應用廣泛。
優化與正則化技術提升：Dropout通過隨機丟棄神經元防止神經網絡過擬合，在多領域提升網絡性能；Adam算法基于自適應估計低階矩進行隨機優化，計算高效、內存需求小，適用于多種場景，顯著提高機器學習模型訓練效率。

2015 - 2016 年人工智能領域的重要研究論文，展現了該時期 AI 在深度學習、圖像識別、強化學習和目標檢測等多方面的關鍵進展。
參考文章：A History of AI (Part 4) 人工智能的歷史（第4部分）

批量標準化（Batch Normalization）：論文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》提出此技術，通過歸一化層輸入減少內部協變量移位，加速深度學習模型訓練，可使用更高學習率，部分情況還能省去Dropout，提升了模型精度，推動了AI應用發展。
Inception：《Going Deeper With Convolutions》介紹了Inception深度學習模型，其創新設計提高了網絡計算資源利用率，在不增加計算量的同時加深加寬網絡。GoogLeNet作為該架構的具體實現，在圖像識別競賽中表現優異，為神經網絡設計樹立了新標桿。
Deep Q：《Human - level control through deep reinforcement learning》創建了深度Q網絡（DQN），能直接從高維感官輸入學習成功策略。在Atari 2600游戲測試中，其性能超越以往算法，達到專業人類玩家水平，開創了深度學習與強化學習結合的先河。
Region - based Convolutional Neural Network：《Faster R - CNN: Towards Real - Time Object Detection with Region Proposal Networks》提出的Faster R-CNN，將區域提議和目標檢測集成到一個高效系統中，通過共享卷積層提高了目標檢測速度和精度，推動了實時目標檢測應用的發展。
U - Net：《U - Net: Convolutional Networks for Biomedical Image Segmentation》介紹的U - Net用于生物醫學圖像分割，利用數據增強高效使用有限標注樣本，其收縮路徑和擴展路徑結構使其能從少量圖像中進行端到端訓練，在相關競賽中表現出色，成為醫學成像領域的重要方法。
Residual Learning：《Deep Residual Learning for Image Recognition》提出的殘差學習框架解決了深度神經網絡訓練困難的問題，通過學習殘差函數優化網絡，使訓練更深的網絡變得更容易，在圖像識別競賽中取得優異成績，為視覺識別任務帶來突破。
YOLO：《You Only Look Once: Unified, Real - Time Object Detection》提出的YOLO將目標檢測視為回歸問題，使用單個神經網絡直接從完整圖像預測邊界框和類別概率，處理速度快，泛化能力強，在實時目標檢測領域具有重要影響力。

4、大語言模型

在這里插入圖片描述

2017 - 2022 年間人工智能領域最重要的研究成果，涵蓋自然語言處理、計算機視覺、蛋白質結構預測等多個領域，這些成果推動了人工智能的發展和廣泛應用。

參考文章：A History of AI (Part 5) 人工智能的歷史（第5部分）

本文是《人工智能的歷史》系列文章的第5部分，主要回顧了2017 - 2022年間人工智能領域最重要的研究成果，涵蓋自然語言處理、計算機視覺、蛋白質結構預測等多個領域，這些成果推動了人工智能的發展和廣泛應用。

Transformer模型（2017年）：論文《Attention is All you Need》提出Transformer模型，摒棄復雜的循環和卷積神經網絡結構，僅依靠注意力機制。在機器翻譯任務中，該模型翻譯質量更高、訓練速度更快且更易并行化，革新了自然語言處理，為后續研究奠定基礎。
BERT（2018年）：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》介紹的BERT模型，通過雙向訓練理解文本上下文，預訓練后微調可用于多種自然語言處理任務，在多個任務上取得領先成績，開創了語言模型訓練新方式。
GPT - 3（2020年）：《Language Models are Few - Shot Learners》中提出的GPT - 3模型參數達1750億，能通過少量示例處理任務，無需針對特定任務微調，推動了大語言模型發展，但也存在一些不足。
ViT（2020年）：《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》表明Transformer模型可直接用于圖像識別，ViT在大量數據預訓練后，在多個圖像識別基準測試中表現優異，挑戰了卷積神經網絡在計算機視覺領域的主導地位。
AlphaFold（2021年）：《Highly accurate protein structure prediction with AlphaFold》提出的AlphaFold模型，利用機器學習預測蛋白質3D結構，達到原子級精度，加速了生物研究和醫學進步，展示了人工智能在解決科學難題上的巨大潛力。
ChatGPT（2022年）：OpenAI開發的ChatGPT能以對話方式與用戶交互，可回答后續問題、承認錯誤等。它推動了自然語言處理發展，拓展了人工智能在多領域的應用范圍，引發廣泛關注和討論。
2023年
1. GPT-4（OpenAI）
  首個支持圖文聯合理解的多模態大模型，參數量遠超GPT-3，在醫學考試中達到專家水平，推動ChatGPT Plus等商業化應用落地。其API接口被廣泛集成到Duolingo、Stripe等企業服務中，引發全球對AI倫理的討論。
2. Gemini 1.0（Google）
  谷歌首個原生多模態模型，支持文本、圖像、音頻端到端處理，在多模態理解任務中超越GPT-4。例如，可直接解析復雜圖表并生成結構化分析報告，訓練成本高達1.91億美元。
3. DeepSeek LLM（中國DeepSeek）
  采用混合專家架構（MoE）實現低至600萬美元訓練成本，中文理解和代碼生成能力突出。其開源版本被廣泛用于金融風控和工業質檢領域，打破歐美在大模型領域的壟斷。
2024年
1. Claude 3（Anthropic）
  支持128K上下文窗口，數學推理（GSM8K準確率95%）和多語言覆蓋（100+語言）達到新高度。在法律文書生成和醫療咨詢等專業領域表現穩健，錯誤拒絕率較前代降低60%。
2. Llama 3（Meta）
  開源405B參數模型，MMLU基準測試準確率88.2%接近GPT-4水平。通過15萬億token多語言訓練，支持代碼解釋和長文本摘要，成為學術研究和企業級應用的主流選擇。
3. BaseFold（Basecamp Research）
  在CASP15競賽中預測準確率較AlphaFold2提升6倍，解決復雜蛋白質-配體相互作用預測難題。其技術被用于輝瑞COVID-19藥物研發，加速抗癌新藥和酶工程進程。
2025年
1. DeepSeek-R1（中國DeepSeek）
  通過蒸餾技術將671B參數模型壓縮至消費級GPU運行，數學推理（GSM8K準確率92%）和多輪對話連貫性超越ChatGPT。移動端應用發布一周登頂App Store，訓練成本僅為GPT-4的5%。
2. 量子AI芯片（中國DeepSeek）
  "智腦X1"量子芯片實現1000P算力，較傳統GPU提升百倍。支持新冠病毒變種結構解析（8小時完成）和工業機器人實時路徑規劃，推動AI在能源調度和智能制造落地。
3. 原生多模態大模型（中國智源研究院）
  Emu3模型實現視頻、圖像、文本端到端生成。例如，輸入"熱帶雨林探險"文本提示可直接生成4K電影級視頻，角色動作符合物理規律，完播率比人工內容高41%。
4. 情感智能AI伴侶
  "心鏡"系統通過腦電手環實時監測情緒波動，在心理治療中實現92%共情響應準確率，幫助失眠患者平均入睡時間縮短至12分鐘，推動AI在心理健康領域的應用。

這里我提供給大家一個大語言模型排行榜網址（中文大模型）
https://www.superclueai.com/

在這里插入圖片描述

更多內容，可以去這個網站看
🟩 https://medium.com/search?q=History+of+AI

在這里插入圖片描述

三、AI大模型四階技術

在這里插入圖片描述

1、提示工程（Prompt Engineering）

與模型的對話藝術
在這里插入圖片描述

提示工程是解鎖大模型能力的“鑰匙”。通過設計引導性指令（如“請以初中教師的口吻解釋量子糾纏”），用戶可定向激發模型的特定能力。

進階技巧包括思維鏈提示、少樣本學習（Few-shot Learning）等。

例如，要求模型“先列出解題步驟，再給出最終答案”，準確率可提升40%。

這一技術的本質是構建人機協作的“語義接口”，將模糊需求轉化為機器可理解的邏輯流。

其實prompt，就是語言藝術，有效的進行溝通，那么我們將獲得更優質的答案

更多prompt溝通技巧，需要了解可以查看這個網站

https://www.promptingguide.ai/zh

在這里插入圖片描述

2、AI智能體（Agents）

自主決策的雛形
在這里插入圖片描述
強烈建議大家去看看這篇文章 https://react-lm.github.io/ 以及這篇論文：https://arxiv.org/pdf/2210.03629.pdf.

智能體技術賦予大模型“行動能力”。

通過整合工具調用（如網絡搜索、API連接）
記憶存儲和多任務調度，AI能夠自主完成復雜工作流。

例如，AutoGPT可分解用戶目標為子任務，并循環迭代直至達成結果。

這相當于為模型配備“肢體”和“感官”，使其從文本生成器升級為任務執行者。

這里再推薦一個網站給于大家閱讀

https://learnprompting.org/docs/agents/introduction

在這里插入圖片描述

以下是當前主流的AI Agent典型開源框架及其核心特點，涵蓋多代理協作、自動化任務處理、生產級應用等場景

1. MetaGPT
在這里插入圖片描述

核心功能：模擬軟件開發團隊的多代理協作框架，支持產品經理、架構師、工程師等角色分工協作，通過共享消息池實現任務自動化流轉。
亮點：
- 全流程自動化開發，例如生成需求文檔、架構設計、代碼編寫及測試。
- 集成強化學習優化策略，支持復雜任務的分解與執行。
適用場景：自動化軟件開發、項目管理。
開源地址：GitHub - MetaGPT

2. AutoGen
在這里插入圖片描述

核心功能：微軟推出的多代理協作框架，支持任務調度、決策優化及跨平臺集成，提供分層API和可視化開發工具（AutoGen Studio）。
亮點：
- 支持人工反饋機制，優化任務執行策略。
- 靈活適配智能客服、企業自動化等場景。
開源地址：GitHub - AutoGen

更多完整框架列表可參考Top11 AI Agent開發框架。

3、預訓練技術（Pre-training）

智能基座的鍛造
在這里插入圖片描述

預訓練是大模型的"筑基階段"，通過千億級token的無監督學習，模型建立起對語言、圖像等模態的隱式理解。

例如，BERT通過掩碼語言建模捕捉雙向語義關系，ViT將圖像分割為序列塊實現全局建模，CLIP打通圖文語義空間支持跨模態檢索。

相關論文https://arxiv.org/pdf/1810.04805

3.1 為什么需要預訓練

通用表征學習：構建跨任務的通用知識體系（如GPT-3的Few-Shot能力）
數據高效利用：ImageNet預訓練模型遷移至醫療影像分類時，數據需求減少80%
計算范式統一：Transformer架構實現NLP/CV/語音的統一建模（如Vision Transformer）
多模態融合基礎：CLIP圖文對比學習為Stable Diffusion提供跨模態生成能力
技術生態支撐：HuggingFace模型庫收錄超50萬預訓練模型，加速行業應用

3.2 預訓練技術全景圖

在這里插入圖片描述

領域	方法/模型	核心思想	論文鏈接
自然語言處理	BERT	掩碼語言建模+下一句預測，雙向語義建模	BERT: Pre-training of Bidirectional Transformers
	GPT-3	自回歸生成范式，1750億參數支持Few-Shot學習	Language Models are Few-Shot Learners
	T5	文本到文本統一框架，通過前綴指令控制任務類型	Exploring the Limits of Transfer Learning
計算機視覺	ResNet	殘差連接解決梯度消失，ImageNet Top-5準確率96.4%	Deep Residual Learning
	MAE	掩碼圖像重建，ViT架構實現全局特征提取	Masked Autoencoders Are Scalable Vision Learners
	SimCLR	對比學習增強圖像表征，ImageNet線性評估準確率76.5%	A Simple Framework for Contrastive Learning
多模態模型	CLIP	圖文對比學習對齊語義空間，支持零樣本跨模態檢索	Learning Transferable Visual Models
	ViLBERT	跨模態注意力機制融合圖像區域與文本特征	ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations
語音處理	Wav2Vec 2.0	自監督語音表征學習，LibriSpeech詞錯率1.4%	wav2vec 2.0: Self-Supervised Learning of Speech Representations
	Whisper	多語言多任務預訓練，支持語音識別與翻譯	Robust Speech Recognition via Large-Scale Weak Supervision
新興技術	LLaMA	開源大模型系列，7B參數模型在消費級GPU可運行	LLaMA: Open and Efficient Foundation Language Models
	Mamba	狀態空間模型(SSM)突破Transformer長度限制，處理速度提升5倍	Mamba: Linear-Time Sequence Modeling

3.3 主流技術詳解

3.3.1 自然語言處理

BERT：通過隨機掩碼15%的輸入token并預測，結合下一句預測任務（NSP）捕捉段落級關系。在GLUE基準測試中平均得分92.2%，但無法直接處理生成任務。
GPT-3：采用純解碼器架構，通過自回歸生成實現零樣本學習。在TriviaQA問答任務中準確率71.2%，但存在事實性錯誤（約15%生成內容需人工修正）。
T5：將分類、翻譯等任務統一為文本生成格式。例如輸入"translate English to German: Hello world"，輸出"Hallo Welt"。

3.3.2 計算機視覺

ResNet-50：包含49個卷積層和1個全連接層，通過殘差連接解決深層網絡梯度消失問題。ImageTop-1準確率76.15%，參數量25.6M。
MAE：隨機掩碼75%的圖像塊，通過ViT重建原始像素。在ImageNet-1K上線性評估準確率84.8%，較監督學習提升8%。
DINOv2：自監督學習框架，通過圖像增強生成正負樣本對。在ADE20K語義分割任務中mIoU達48.7%，接近監督模型水平。

3.3.3 多模態融合

CLIP：使用4億圖文對進行對比學習，圖文嵌入空間余弦相似度超0.9。零樣本ImageNet分類準確率76.2%，但存在性別偏見（女性圖像被錯誤關聯家務類標簽概率高23%）。
Flamingo：集成視覺編碼器與語言模型，支持少樣本視覺問答。在VQAv2測試集上準確率82.7%，比GPT-4高5.3%。

3.3.4 新興架構

Mamba：基于狀態空間模型(SSM)實現線性復雜度，處理32k長度文本時顯存占用僅為Transformer的1/5。在PG19長文本任務中困惑度降低18%。
RetNet：通過保留機制實現并行訓練與循環推理，訓練速度提升3倍。在Wikitext-103基準測試中困惑度15.3，與Transformer持平。

3.4 預訓練網絡架構

在這里插入圖片描述

3.5 總結與趨勢

架構統一化：Transformer成為NLP/CV/語音的通用架構（如ViT、Whisper）
訓練高效化：FlashAttention優化顯存利用，訓練速度提升2.8倍
多模態深度融合：圖文音聯合預訓練模型（如GPT-4o）支持跨模態推理
輕量化部署：模型壓縮技術（如LLaMA-7B）實現在RTX 3060顯卡運行
倫理與安全：憲法AI（Constitutional AI）在預訓練階段注入倫理約束
通過預訓練技術構建的基礎模型，已成為AI領域的"電力設施"。開發者可通過微調、提示工程等手段，快速構建垂直領域應用，推動技術普惠化。

4、大模型微調（Fine-tuning）

領域知識的注入術

在這里插入圖片描述

微調技術通過領域數據對預訓練模型進行二次訓練，使其適配特定場景。

例如，使用法律文書微調的模型，在合同審查任務中表現優于通用模型。

4.1 為什么需要大模型微調

預訓練成本高（LLaMA-65B 需要780GB 顯存）
提示工程有天花板（token 上限與推理成本）
基礎模型缺少特定領域數據
數據安全和隱私
個性化服務需要私有化的微調大模型

4.2 大模型微調技術

以下是微調主流方法介紹，整合了現有信息與搜索結果中的補充內容：

大模型微調方法分類清單表

分類	方法	核心思想	論文鏈接
全量微調 (FFT)	Full Fine-Tune	更新整個模型的參數，適用于數據充足且計算資源豐富的場景	-
高效微調 (PEFT)		僅更新少量參數或添加輕量化模塊，顯著降低訓練成本
圍繞 Token 優化	Prompt Tuning	在輸入嵌入層添加可學習的連續提示向量（Soft Prompts）	The Power of Scale for Parameter-Efficient Prompt Tuning
	Prefix Tuning	在每層輸入前添加可訓練的前綴向量，動態引導模型輸出	Prefix-Tuning: Optimizing Continuous Prompts for Generation
	P-Tuning	通過可學習的虛擬提示（Virtual Tokens）和 MLP/LSTM 優化提示嵌入	GPT Understands, Too
低秩適應技術	LoRA	通過低秩分解模擬參數增量，僅訓練旁路小矩陣	LoRA: Low-Rank Adaptation of Large Language Models
	QLoRA	結合4-bit量化與LoRA，大幅降低顯存占用	QLORA: Efficient Finetuning of Quantized LLMs
	AdaLoRA	動態分配低秩矩陣的秩，優先優化關鍵模塊	Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning
	DoRA	分解權重更新為方向與幅度分量，增強正交約束	Directional Orthogonalized Rank Adaptation
統一框架與新思路	IA3	通過縮放激活值調整模型輸出，參數量極低（0.01%）	Few-Shot Parameter-Efficient Fine-Tuning
	UniPELT	動態融合多種PEFT方法（Adapter/Prefix Tuning/LoRA），提升多任務適應性	UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning
	TT-LoRA MoE	結合LoRA與稀疏混合專家（MoE），實現多任務動態路由	TT-LoRA MoE: Unifying PEFT and Sparse MoE
強化學習對齊	RLHF	基于人類偏好反饋優化模型輸出	Training Language Models to Follow Instructions
	RLAIF	利用AI生成的反饋替代人類標注，降低對齊成本	RLAIF: Scaling Reinforcement Learning from AI Feedback

4.3 主流分類技術詳解

4.3.1 圍繞 Token 優化的方法

Prompt Tuning：通過可學習的連續提示向量調整模型行為，無需修改模型結構，僅需存儲少量任務特定參數。
Prefix Tuning：在Transformer每層輸入前添加可訓練前綴，動態引導生成過程，適用于序列生成任務。
P-Tuning：將離散提示轉換為可優化的嵌入，結合輕量級模型（如LSTM）生成更靈活的提示。
優勢：推理零延遲，適合多任務切換；局限：提示長度和初始化策略影響性能。

4.3.2 低秩適應技術

LoRA：凍結原模型參數，通過低秩矩陣旁路更新參數，參數量僅為原模型的0.1%~1%，支持多任務部署。
QLoRA：在LoRA基礎上引入4-bit量化（NF4格式）和雙量化技術，使175B模型訓練顯存需求降低50%。
AdaLoRA：基于Hessian矩陣動態分配秩，關鍵模塊（如注意力層）分配更高秩以提升微調效果。
應用場景：移動端部署（QLoRA）、多任務學習（AdaLoRA）、高精度生成（DoRA）。

4.3.3 統一框架與新思路

IA3：通過縮放激活值調整模型輸出，參數量極低（0.01%），適用于少樣本場景。
UniPELT：動態融合多種PEFT方法（如Adapter+LoRA），提升多任務泛化能力，參數量減少30%。
TT-LoRA MoE：將LoRA與稀疏MoE結合，每個任務獨立訓練輕量專家，推理時動態路由，顯存效率提升40%。

4.3.4 強化學習對齊方法

RLHF：通過人類標注的偏好數據訓練獎勵模型，優化生成內容與人類價值觀對齊，但依賴高質量標注。
RLAIF：利用AI生成反饋替代人類標注，實驗表明其效果與RLHF相當（偏好率71% vs 73%），顯著降低標注成本。

4.4 總結與趨勢

參數效率：LoRA及其變種（QLoRA/AdaLoRA）成為主流，平衡性能與顯存需求。
多任務擴展：結合MoE的統一框架（如TT-LoRA MoE）推動多任務動態適配。
對齊技術：RLAIF逐步替代RLHF，解決標注瓶頸并提升擴展性。
量化與硬件適配：4-bit量化技術（如QLoRA）推動大模型在邊緣設備部署。

更多技術細節可參考上述論文及開源庫（如HuggingFace PEFT）。

四、大模型概念與訓練過程

1、什么是大模型

在這里插入圖片描述

1.1 大模型：像是一個“超級大腦”

想象你認識一個記憶力超群、知識淵博的圖書管理員，他讀完了全世界的書籍、論文、網頁，甚至聊天記錄。
這個“圖書管理員”就是大模型（比如 ChatGPT）。其特點如下：

知識量爆炸：記住的內容量，相當于把整個互聯網裝進腦子里。
擅長聯想：提問后會從海量知識中找到關聯信息（如問“蘋果”，立刻想到水果、手機公司、牛頓的故事）。
會“思考”：能根據問題推測答案，甚至編故事、寫詩，而非單純復讀已知內容。

舉例：“為什么夏天比冬天熱？”
- 傳統搜索引擎：直接回復“因為地球公轉導致陽光直射角度變化”。
- 大模型：可能會說：“夏天太陽更‘正對著’我們，陽光更集中，就像用手電筒直照地板比斜著照更亮更熱。
另外，夏天白天更長，積攢的熱量更多哦～” ，用熟悉比喻解釋原理，展現“理解”能力。

1.2 Y=WX：像“調配奶茶的配方”

假設經營一家奶茶店，用數學公式決定奶茶味道：

X（輸入）：原料分量，如糖20g、茶100ml、奶50ml。
W（權重）：對每種原料的重視程度。例如“甜度權重”高，糖多一點就更甜。
Y（輸出）：最終奶茶的味道評分（如甜度8分、茶香6分）。

公式意義：
在這里插入圖片描述

（這里假設糖對甜度影響最大，奶次之，茶不影響甜度）

實際應用：
如果顧客反饋“不夠甜”，就調高“糖”的權重（比如從 0.5 改成 0.7），下一杯就更甜。這就是機器學習：通過調整權重（W），讓輸出（Y）更符合目標（比如顧客口味）。

1.3 大模型和 Y=WX 的關系

可以把大模型想象成一家“巨型奶茶工廠”：

原料（X）：輸入的問題，比如“北京有什么好玩的地方？”
配方（W）：大模型內部的數萬億個權重，決定如何組合文字（類似調奶茶的甜度、茶香）。這些權重是大模型通過“讀書”（訓練）學到的規則，比如“北京”關聯“故宮”、“長城”。
成品（Y）：生成的回答，比如“推薦故宮、長城，春天可以去頤和園劃船～”

關鍵區別：

巨型工廠（大模型）：有10萬種原料（文字、圖片等），配方復雜到能模擬人類對話，甚至寫代碼、畫圖。
普通奶茶店（小模型）：只有10種原料，配方簡單，只能做基礎奶茶。

1.4 現實中的類比

學英語
大腦（大模型）通過大量聽讀（訓練），建立單詞間的聯系（權重W）。
當有人說“How are you?”（輸入X），自動回答“I’m fine”（輸出Y），無需查語法書。
網購推薦
平臺用大模型分析購買過的商品（X），通過權重（W）計算可能喜歡的物品（Y）。
比如權重發現常買咖啡，就推薦咖啡機（類似調高“咖啡”相關權重）。

1.4 總結

大模型 = 超級大腦（海量知識 + 聯想推理）
Y=WX = 調配“知識奶茶”的基礎規則
核心邏輯：大模型用數萬億個Y=WX的“小配方”，組合成復雜的“思維鏈”。就像用樂高積木搭出宇宙飛船，每一塊積木（Y=WX）看似簡單，組合起來卻能實現神奇功能！

2、大模型訓練過程詳解

在這里插入圖片描述

參考文章https://www.zco.com/blog/training-large-language-models/

2.1 第一步：準備學習資料（數據）

大模型的學習材料：互聯網上的所有文本（書籍、網頁、對話等），比如包含無數句子的“北京是中國的首都，有故宮、長城等景點”。相當于學霸有一屋子課本，每天瘋狂刷題。

2.2 第二步：設定學習目標（訓練任務）

大模型的核心訓練任務是“完形填空”：
例子：給模型一句話：“北京有很多著名景點，比如和長城。”
目標：讓模型預測空白處最可能的詞（比如“故宮”）。相當于老師出填空題，學霸通過上下文推測答案。

2.3 第三步：試錯與調整權重（參數更新）

初次嘗試：模型可能瞎猜一個詞（比如“火鍋”），然后對比正確答案“故宮”，發現錯了。
數學懲罰：計算“火鍋”和“故宮”的差異（損失函數），用反向傳播算法告訴模型：“‘火鍋’在這個上下文里權重應該降低，‘故宮’的權重應該提高”。
重復億萬次：模型在數萬億句子上重復這個過程，最終學會“北京→景點→故宮/長城”的強關聯。相當于學霸每做錯一題，就把相關知識點劃重點（調權重），直到看到“北京”就條件反射想到“故宮”。

2.4 通過FQA來理解這個過程

🔴 具體到“北京→故宮”如何關聯？

詞向量（Word Embedding）：
例子：
“北京” = [0.2, -0.5, 1.1, …]
“故宮” = [0.3, -0.6, 0.9, …]
（這些數字編碼了語義，比如首都、景點、歷史等屬性）
每個詞（如“北京”“故宮”）被轉換成一組數字（比如300維向量），類似用一串密碼表示詞義。
權重矩陣（W）的作用：通過矩陣乘法（Y=WX），模型將“北京”的向量變換后，輸出一個概率分布，指向最相關的詞（如“故宮”概率最高）。
訓練后的效果：當模型看到“北京”時，它的權重矩陣會自動激活“景點”“歷史”等屬性通道，抑制“美食”“動物”等無關通道，最終輸出“故宮”。

🔴 用現實例子理解訓練過程
假設教小孩認動物：

指著圖片說：“這是貓，有尖耳朵、長尾巴。”（輸入數據）
小孩第一次看到狗，誤認為是貓。（預測錯誤）
糾正他：“這是狗，耳朵更圓。”（計算誤差）
小孩調整腦中的“貓狗特征權重”，下次更關注耳朵形狀。（參數更新）

大模型的訓練就是把這個過程自動化、規模化：

數據量：小孩學100張圖 → 模型學數萬億句子
調整速度：小孩一天學10個詞 → 模型一秒調整數百萬次權重

🔴 為什么權重能記住復雜關系？

分層學習：
- 第一層發現“北”和“京”常一起出現 → 學會“北京”是一個詞。
- 第五十層發現“北京”常和“首都”“景點”關聯 → 建立城市屬性。
- 第一百層學會“推薦北京景點”應優先列出故宮、長城。
  模型像有多層流水線的工廠，底層學字母組合，中層學語法，高層學語義邏輯。
注意力機制：類似人類閱讀時“劃重點”，模型通過自注意力機制，讓“北京”和“故宮”在特定上下文中權重更高。

# 偽代碼：模型內部對句子的“關注度”計算
當輸入是“北京有什么景點？”時：
給“北京” + “景點”分配高注意力權重，
抑制“北京” + “烤鴨”的權重。

🔴 模型如何學習“北京→故宮”？

見得多：在訓練數據中，“北京”和“故宮”共同出現的頻率極高。
懲罰與獎勵：
- 當模型猜錯時，降低錯誤詞的權重（如“火鍋”）。
- 猜對時，強化正確路徑的權重（如“故宮”）。
屬性編碼：最終，“北京”的向量表示中包含了“需要關聯景點”的屬性，而權重矩陣像條件反射網絡，自動觸發相關詞。這就好比：如果每天聽家人說“下雨要打傘”，重復100次后，一聽到“下雨”就自動想到“傘”——只不過大模型用數學放大了億萬倍這個過程。

3、Y=WX相關學術資源

在這里插入圖片描述

1. 經典論文

《Deep Learning》（Ian Goodfellow等著）
- 章節：第6章"深度前饋網絡"
- 內容：詳細講解線性回歸、權重初始化、激活函數等基礎理論
- 鏈接：深度學習 - 圖書百科
《A Neural Probabilistic Language Model》（Bengio等著）
- 貢獻：首次提出基于神經網絡的語言模型，核心公式為Y=WX+b
- 鏈接：論文鏈接

2. 權威教程

吳恩達機器學習課程
- 主題：線性回歸與梯度下降
- 內容：通過房價預測案例講解Y=WX的實現與優化
- 鏈接：Coursera課程
Transformer前饋神經網絡解析
- 主題：Y=WX在注意力機制中的應用
- 內容：結合Transformer模型說明權重矩陣的維度變換
- 鏈接：技術文章

3. 進階研究

《Large Scale Distributed Deep Networks》（Dean等著）
- 貢獻：提出分布式訓練框架，解決大模型權重更新的效率問題
- 鏈接：論文鏈接
《Loss of Plasticity in Deep Continual Learning》（Sutton等著）
- 主題：持續學習中的權重優化
- 內容：提出持續反向傳播算法，解決模型可塑性下降問題
- 鏈接：Nature論文