一、導讀
作為非AI專業技術開發者(我是小小爬蟲開發工程師😋)
本系列文章將圍繞《大模型微調》進行學習(也是我個人學習的筆記,所以會持續更新),最后以上手實操模型微調的目的。
(本文如若有錯誤的地方,歡迎批評指正)
💪 為什么要學習AI呢?
- 作為一名爬蟲開發工程師,我深知技術領域的不斷變革與發展
- 如今,AI 已然成為時代浪潮的核心驅動力,就如同 Windows 操作能力是從業者的基礎技能,
- 我堅信未來 AI 開發應用必將成為程序員不可或缺的能力標簽。
你可以閱讀我下列文章
? 關于langchain的系列文章(相信我把Langchain全部學一遍,你能深入理解AI的開發)
01|LangChain | 從入門到實戰-介紹
02|LangChain | 從入門到實戰 -六大組件之Models IO
03|LangChain | 從入門到實戰 -六大組件之Retrival
04|LangChain | 從入門到實戰 -六大組件之Chain
05|LangChain | 從入門到實戰 -六大組件之Memory
06|LangChain | 從入門到實戰 -六大組件之Agent
?關于Langchain的實戰案例(自認為本地問答機器人的案例寫的很好,很好理解ReAct)
Langchain-實戰篇-搭建本地問答機器人-01
都2024了,還在糾結圖片識別?fastapi+streamlit+langchain給你答案!
?關于Agent智能體開發案例(MCP協議)
在dify構建mcp,結合fastapi接口,以實際業務場景理解MCP
? 推薦閱讀一下transformer 文章,以便能更好的理解大模型
Transformer模型詳解(圖解最完整版)
Attention Is All You Need (Transformer) 論文精讀
? 除了在 CSDN 分享這些技術內容,我還將在微信公眾號持續輸出優質文章,內容涵蓋以下板塊:?
(當然我也希望能夠跟你們學習探討😀)
關注😄「穩穩C9」😄公眾號
- 爬蟲逆向:分享爬蟲開發中的逆向技術與技巧,探索數據獲取的更多可能。?
- AI 前沿內容:緊跟 AI 發展潮流,解讀大模型、算法等前沿技術動態。?
- 騎行分享:工作之余,用騎行丈量世界,分享旅途中的所見所感。
- 搜索「穩穩C9」公眾號
二、AI發展四輪浪潮
1、弱人工智能
1950 - 2000
年間,眾多關鍵研究成果不斷涌現,從理論基礎的建立到各種算法和模型的提出,為人工智能后續發展構筑了堅實的基石。
參考文章:A History of AI (Part 1)人工智能簡史(第1部分)
- 感知機(1958年):Frank Rosenblatt的論文為復雜神經網絡和機器學習算法奠定基礎。感知機作為人工神經網絡基本單元,可根據輸入數據調整權重學習和決策。
- 反向傳播算法(1986年):David E. Rumelhart等人提出的反向傳播算法,能訓練多層網絡,使內部隱藏單元提取任務特征,與早期方法區分開來,推動深度學習發展。
- 決策樹(1986年):J. R. Quinlan的論文介紹ID3算法,是構建決策樹的基礎方法,后續研究圍繞處理噪聲和不完整數據改進算法。決策樹用于分類和回歸,ID3算法基于信息增益遞歸劃分數據。
- 隱馬爾可夫模型(1989年):L.R. Rabiner的論文全面介紹隱馬爾可夫模型(HMMs)及其在語音識別中的應用。HMMs基于馬爾可夫過程,包含不可觀測隱藏狀態,解決評估、解碼和學習三個基本問題。
- 多層前饋網絡(1989年):Kurt Hornik等人證明多層前饋網絡是通用近似器,理論上能以任意精度逼近復雜函數,為神經網絡廣泛應用提供理論依據。
- 支持向量機(1992年):Bernhard E. Boser等人提出支持向量機(SVMs),通過最大化類間間隔和自動調整模型復雜度,在分類任務中表現出色,如光學字符識別。
- 裝袋法(1996年):Leo Breiman提出裝袋法(Bagging),屬于集成學習方法,通過自助采樣生成多個模型并聚合結果,降低預測方差,提高準確性。
- 卷積神經網絡(1998年):Yann LeCun等人的研究展示卷積神經網絡(CNNs)在識別二維形狀(如手寫字符)上的優勢,并介紹圖變換網絡(GTNs)用于全局訓練多模塊系統,推動文檔識別等應用發展。
2、機器學習(統計機器學習)
參考文章:A History of AI (Part 2) 人工智能的歷史(第2部分)
2000 - 2010
年間人工智能領域的重要研究成果,展示了該時期人工智能技術的多元發展。
- 隨機森林(2001年):Leo Breiman提出隨機森林,這是一種集成學習方法,結合多個基于隨機特征子集訓練的決策樹,用于分類和回歸。相比Adaboost,它對噪聲更具魯棒性,不易過擬合,還能通過內部估計監控誤差等指標,衡量變量重要性。
- 進化算法(2002年):K. Deb等人提出NSGA - II算法,改進了多目標進化算法。該算法降低了計算復雜度,引入精英策略保留最優解,避免指定共享參數,在收斂性和求解多樣性上表現更優,推動了多目標優化領域發展。
- 潛在狄利克雷分配(2003年):David M. Blei等人提出LDA,這是一種用于離散數據(如文本)的生成式概率模型。它將文檔視為主題的混合,主題視為單詞的混合,通過變分方法和EM算法進行參數估計,為文本主題建模提供了有效框架,促進了文檔分類等應用發展。
- 降維(2006年):Geoffrey E. Hinton和R. R. Salakhutdinov發現,正確初始化的深度自編碼器網絡能學習到比主成分分析(PCA)更優的低維數據表示。自編碼器可將高維數據壓縮為低維編碼并重建,該研究為降維提供了新的有效方法。
- 高維數據可視化(2008年):Laurens van der Maaten和Geoffrey Hinton提出t - SNE技術,用于高維數據可視化。它改進了隨機鄰居嵌入(SNE)方法,更易優化,能減少數據點在圖中心聚集的問題,在多尺度揭示數據結構方面表現出色,成為高維數據可視化的標準技術。
- ImageNet(2009年):Jia Deng等人構建了大規模圖像數據庫ImageNet,基于WordNet結構組織圖像,規模大、多樣性豐富且標注準確。它為圖像識別和分類模型的訓練提供了大量數據,推動了相關領域的發展。
3、深度學習
參考文章:A History of AI (Part 3) 人工智能的歷史(第3部分)
2010 - 2014
年人工智能領域最重要的研究論文,展示了這一時期人工智能在多個關鍵方向的重大進展。
- 圖像識別突破:AlexNet利用深度卷積神經網絡對130萬張高分辨率圖像進行分類,憑借非飽和神經元、GPU加速和新正則化方法,大幅降低錯誤率,推動計算機視覺發展。
- 自然語言處理進展:提出新模型架構生成詞向量,在詞相似性任務中表現出色,計算成本低,成為現代自然語言處理應用的基礎;基于LSTM的序列到序列學習方法,在機器翻譯任務中超越傳統方法,為神經機器翻譯等應用奠定基礎;引入軟對齊機制,改進了神經網絡機器翻譯,解決了固定長度向量的瓶頸問題,引入注意力機制影響眾多AI領域。
- 生成模型創新:變分自編碼器(VAE)提出隨機變分推理和學習算法,解決復雜概率模型的推理和學習問題,推動生成模型發展;生成對抗網絡(GANs)通過生成模型與判別模型對抗訓練,能生成高度逼真的合成數據,在圖像合成等領域應用廣泛。
- 優化與正則化技術提升:Dropout通過隨機丟棄神經元防止神經網絡過擬合,在多領域提升網絡性能;Adam算法基于自適應估計低階矩進行隨機優化,計算高效、內存需求小,適用于多種場景,顯著提高機器學習模型訓練效率。
2015 - 2016
年人工智能領域的重要研究論文,展現了該時期 AI 在深度學習、圖像識別、強化學習和目標檢測等多方面的關鍵進展。
參考文章:A History of AI (Part 4) 人工智能的歷史(第4部分)
- 批量標準化(Batch Normalization):論文《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》提出此技術,通過歸一化層輸入減少內部協變量移位,加速深度學習模型訓練,可使用更高學習率,部分情況還能省去Dropout,提升了模型精度,推動了AI應用發展。
- Inception:《Going Deeper With Convolutions》介紹了Inception深度學習模型,其創新設計提高了網絡計算資源利用率,在不增加計算量的同時加深加寬網絡。GoogLeNet作為該架構的具體實現,在圖像識別競賽中表現優異,為神經網絡設計樹立了新標桿。
- Deep Q:《Human - level control through deep reinforcement learning》創建了深度Q網絡(DQN),能直接從高維感官輸入學習成功策略。在Atari 2600游戲測試中,其性能超越以往算法,達到專業人類玩家水平,開創了深度學習與強化學習結合的先河。
- Region - based Convolutional Neural Network:《Faster R - CNN: Towards Real - Time Object Detection with Region Proposal Networks》提出的Faster R-CNN,將區域提議和目標檢測集成到一個高效系統中,通過共享卷積層提高了目標檢測速度和精度,推動了實時目標檢測應用的發展。
- U - Net:《U - Net: Convolutional Networks for Biomedical Image Segmentation》介紹的U - Net用于生物醫學圖像分割,利用數據增強高效使用有限標注樣本,其收縮路徑和擴展路徑結構使其能從少量圖像中進行端到端訓練,在相關競賽中表現出色,成為醫學成像領域的重要方法。
- Residual Learning:《Deep Residual Learning for Image Recognition》提出的殘差學習框架解決了深度神經網絡訓練困難的問題,通過學習殘差函數優化網絡,使訓練更深的網絡變得更容易,在圖像識別競賽中取得優異成績,為視覺識別任務帶來突破。
- YOLO:《You Only Look Once: Unified, Real - Time Object Detection》提出的YOLO將目標檢測視為回歸問題,使用單個神經網絡直接從完整圖像預測邊界框和類別概率,處理速度快,泛化能力強,在實時目標檢測領域具有重要影響力。
4、大語言模型
2017 - 2022
年間人工智能領域最重要的研究成果,涵蓋自然語言處理、計算機視覺、蛋白質結構預測等多個領域,這些成果推動了人工智能的發展和廣泛應用。
參考文章:A History of AI (Part 5) 人工智能的歷史(第5部分)
本文是《人工智能的歷史》系列文章的第5部分,主要回顧了2017 - 2022年間人工智能領域最重要的研究成果,涵蓋自然語言處理、計算機視覺、蛋白質結構預測等多個領域,這些成果推動了人工智能的發展和廣泛應用。
-
Transformer模型(2017年):論文《Attention is All you Need》提出Transformer模型,摒棄復雜的循環和卷積神經網絡結構,僅依靠注意力機制。在機器翻譯任務中,該模型翻譯質量更高、訓練速度更快且更易并行化,革新了自然語言處理,為后續研究奠定基礎。
-
BERT(2018年):《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》介紹的BERT模型,通過雙向訓練理解文本上下文,預訓練后微調可用于多種自然語言處理任務,在多個任務上取得領先成績,開創了語言模型訓練新方式。
-
GPT - 3(2020年):《Language Models are Few - Shot Learners》中提出的GPT - 3模型參數達1750億,能通過少量示例處理任務,無需針對特定任務微調,推動了大語言模型發展,但也存在一些不足。
-
ViT(2020年):《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》表明Transformer模型可直接用于圖像識別,ViT在大量數據預訓練后,在多個圖像識別基準測試中表現優異,挑戰了卷積神經網絡在計算機視覺領域的主導地位。
-
AlphaFold(2021年):《Highly accurate protein structure prediction with AlphaFold》提出的AlphaFold模型,利用機器學習預測蛋白質3D結構,達到原子級精度,加速了生物研究和醫學進步,展示了人工智能在解決科學難題上的巨大潛力。
-
ChatGPT(2022年):OpenAI開發的ChatGPT能以對話方式與用戶交互,可回答后續問題、承認錯誤等。它推動了自然語言處理發展,拓展了人工智能在多領域的應用范圍,引發廣泛關注和討論。
-
2023年
-
GPT-4(OpenAI)
首個支持圖文聯合理解的多模態大模型,參數量遠超GPT-3,在醫學考試中達到專家水平,推動ChatGPT Plus等商業化應用落地。其API接口被廣泛集成到Duolingo、Stripe等企業服務中,引發全球對AI倫理的討論。 -
Gemini 1.0(Google)
谷歌首個原生多模態模型,支持文本、圖像、音頻端到端處理,在多模態理解任務中超越GPT-4。例如,可直接解析復雜圖表并生成結構化分析報告,訓練成本高達1.91億美元。 -
DeepSeek LLM(中國DeepSeek)
采用混合專家架構(MoE)實現低至600萬美元訓練成本,中文理解和代碼生成能力突出。其開源版本被廣泛用于金融風控和工業質檢領域,打破歐美在大模型領域的壟斷。
-
-
2024年
-
Claude 3(Anthropic)
支持128K上下文窗口,數學推理(GSM8K準確率95%)和多語言覆蓋(100+語言)達到新高度。在法律文書生成和醫療咨詢等專業領域表現穩健,錯誤拒絕率較前代降低60%。 -
Llama 3(Meta)
開源405B參數模型,MMLU基準測試準確率88.2%接近GPT-4水平。通過15萬億token多語言訓練,支持代碼解釋和長文本摘要,成為學術研究和企業級應用的主流選擇。 -
BaseFold(Basecamp Research)
在CASP15競賽中預測準確率較AlphaFold2提升6倍,解決復雜蛋白質-配體相互作用預測難題。其技術被用于輝瑞COVID-19藥物研發,加速抗癌新藥和酶工程進程。
-
-
2025年
-
DeepSeek-R1(中國DeepSeek)
通過蒸餾技術將671B參數模型壓縮至消費級GPU運行,數學推理(GSM8K準確率92%)和多輪對話連貫性超越ChatGPT。移動端應用發布一周登頂App Store,訓練成本僅為GPT-4的5%。 -
量子AI芯片(中國DeepSeek)
"智腦X1"量子芯片實現1000P算力,較傳統GPU提升百倍。支持新冠病毒變種結構解析(8小時完成)和工業機器人實時路徑規劃,推動AI在能源調度和智能制造落地。 -
原生多模態大模型(中國智源研究院)
Emu3模型實現視頻、圖像、文本端到端生成。例如,輸入"熱帶雨林探險"文本提示可直接生成4K電影級視頻,角色動作符合物理規律,完播率比人工內容高41%。 -
情感智能AI伴侶
"心鏡"系統通過腦電手環實時監測情緒波動,在心理治療中實現92%共情響應準確率,幫助失眠患者平均入睡時間縮短至12分鐘,推動AI在心理健康領域的應用。
-
這里我提供給大家一個大語言模型排行榜網址(中文大模型)
https://www.superclueai.com/
更多內容,可以去這個網站看
🟩 https://medium.com/search?q=History+of+AI
三、AI大模型四階技術
1、提示工程(Prompt Engineering)
與模型的對話藝術
提示工程是解鎖大模型能力的“鑰匙”。通過設計引導性指令(如“請以初中教師的口吻解釋量子糾纏”),用戶可定向激發模型的特定能力。
進階技巧包括思維鏈提示、少樣本學習(Few-shot Learning)等。
例如,要求模型“先列出解題步驟,再給出最終答案”,準確率可提升40%。
這一技術的本質是構建人機協作的“語義接口”,將模糊需求轉化為機器可理解的邏輯流。
其實prompt,就是語言藝術,有效的進行溝通,那么我們將獲得更優質的答案
更多prompt溝通技巧,需要了解可以查看這個網站
https://www.promptingguide.ai/zh
2、AI智能體(Agents)
自主決策的雛形
強烈建議大家去看看這篇文章 https://react-lm.github.io/ 以及這篇論文:https://arxiv.org/pdf/2210.03629.pdf.
智能體技術賦予大模型“行動能力”。
- 通過整合工具調用(如網絡搜索、API連接)
- 記憶存儲和多任務調度,AI能夠自主完成復雜工作流。
例如,AutoGPT可分解用戶目標為子任務,并循環迭代直至達成結果。
這相當于為模型配備“肢體”和“感官”,使其從文本生成器升級為任務執行者。
這里再推薦一個網站給于大家閱讀
https://learnprompting.org/docs/agents/introduction
以下是當前主流的AI Agent典型開源框架及其核心特點,涵蓋多代理協作、自動化任務處理、生產級應用等場景
1. MetaGPT
- 核心功能:模擬軟件開發團隊的多代理協作框架,支持產品經理、架構師、工程師等角色分工協作,通過共享消息池實現任務自動化流轉。
- 亮點:
- 全流程自動化開發,例如生成需求文檔、架構設計、代碼編寫及測試。
- 集成強化學習優化策略,支持復雜任務的分解與執行。
- 適用場景:自動化軟件開發、項目管理。
- 開源地址:GitHub - MetaGPT
2. AutoGen
- 核心功能:微軟推出的多代理協作框架,支持任務調度、決策優化及跨平臺集成,提供分層API和可視化開發工具(AutoGen Studio)。
- 亮點:
- 支持人工反饋機制,優化任務執行策略。
- 靈活適配智能客服、企業自動化等場景。
- 開源地址:GitHub - AutoGen
更多完整框架列表可參考Top11 AI Agent開發框架。
3、預訓練技術(Pre-training)
智能基座的鍛造
預訓練是大模型的"筑基階段",通過千億級token的無監督學習,模型建立起對語言、圖像等模態的隱式理解。
例如,BERT通過掩碼語言建模捕捉雙向語義關系,ViT將圖像分割為序列塊實現全局建模,CLIP打通圖文語義空間支持跨模態檢索。
相關論文https://arxiv.org/pdf/1810.04805
3.1 為什么需要預訓練
- 通用表征學習:構建跨任務的通用知識體系(如GPT-3的Few-Shot能力)
- 數據高效利用:ImageNet預訓練模型遷移至醫療影像分類時,數據需求減少80%
- 計算范式統一:Transformer架構實現NLP/CV/語音的統一建模(如Vision Transformer)
- 多模態融合基礎:CLIP圖文對比學習為Stable Diffusion提供跨模態生成能力
- 技術生態支撐:HuggingFace模型庫收錄超50萬預訓練模型,加速行業應用
3.2 預訓練技術全景圖
領域 | 方法/模型 | 核心思想 | 論文鏈接 |
---|---|---|---|
自然語言處理 | BERT | 掩碼語言建模+下一句預測,雙向語義建模 | BERT: Pre-training of Bidirectional Transformers |
GPT-3 | 自回歸生成范式,1750億參數支持Few-Shot學習 | Language Models are Few-Shot Learners | |
T5 | 文本到文本統一框架,通過前綴指令控制任務類型 | Exploring the Limits of Transfer Learning | |
計算機視覺 | ResNet | 殘差連接解決梯度消失,ImageNet Top-5準確率96.4% | Deep Residual Learning |
MAE | 掩碼圖像重建,ViT架構實現全局特征提取 | Masked Autoencoders Are Scalable Vision Learners | |
SimCLR | 對比學習增強圖像表征,ImageNet線性評估準確率76.5% | A Simple Framework for Contrastive Learning | |
多模態模型 | CLIP | 圖文對比學習對齊語義空間,支持零樣本跨模態檢索 | Learning Transferable Visual Models |
ViLBERT | 跨模態注意力機制融合圖像區域與文本特征 | ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations | |
語音處理 | Wav2Vec 2.0 | 自監督語音表征學習,LibriSpeech詞錯率1.4% | wav2vec 2.0: Self-Supervised Learning of Speech Representations |
Whisper | 多語言多任務預訓練,支持語音識別與翻譯 | Robust Speech Recognition via Large-Scale Weak Supervision | |
新興技術 | LLaMA | 開源大模型系列,7B參數模型在消費級GPU可運行 | LLaMA: Open and Efficient Foundation Language Models |
Mamba | 狀態空間模型(SSM)突破Transformer長度限制,處理速度提升5倍 | Mamba: Linear-Time Sequence Modeling |
3.3 主流技術詳解
3.3.1 自然語言處理
- BERT:通過隨機掩碼15%的輸入token并預測,結合下一句預測任務(NSP)捕捉段落級關系。在GLUE基準測試中平均得分92.2%,但無法直接處理生成任務。
- GPT-3:采用純解碼器架構,通過自回歸生成實現零樣本學習。在TriviaQA問答任務中準確率71.2%,但存在事實性錯誤(約15%生成內容需人工修正)。
- T5:將分類、翻譯等任務統一為文本生成格式。例如輸入"translate English to German: Hello world",輸出"Hallo Welt"。
3.3.2 計算機視覺
- ResNet-50:包含49個卷積層和1個全連接層,通過殘差連接解決深層網絡梯度消失問題。ImageTop-1準確率76.15%,參數量25.6M。
- MAE:隨機掩碼75%的圖像塊,通過ViT重建原始像素。在ImageNet-1K上線性評估準確率84.8%,較監督學習提升8%。
- DINOv2:自監督學習框架,通過圖像增強生成正負樣本對。在ADE20K語義分割任務中mIoU達48.7%,接近監督模型水平。
3.3.3 多模態融合
- CLIP:使用4億圖文對進行對比學習,圖文嵌入空間余弦相似度超0.9。零樣本ImageNet分類準確率76.2%,但存在性別偏見(女性圖像被錯誤關聯家務類標簽概率高23%)。
- Flamingo:集成視覺編碼器與語言模型,支持少樣本視覺問答。在VQAv2測試集上準確率82.7%,比GPT-4高5.3%。
3.3.4 新興架構
- Mamba:基于狀態空間模型(SSM)實現線性復雜度,處理32k長度文本時顯存占用僅為Transformer的1/5。在PG19長文本任務中困惑度降低18%。
- RetNet:通過保留機制實現并行訓練與循環推理,訓練速度提升3倍。在Wikitext-103基準測試中困惑度15.3,與Transformer持平。
3.4 預訓練網絡架構
3.5 總結與趨勢
- 架構統一化:Transformer成為NLP/CV/語音的通用架構(如ViT、Whisper)
- 訓練高效化:FlashAttention優化顯存利用,訓練速度提升2.8倍
- 多模態深度融合:圖文音聯合預訓練模型(如GPT-4o)支持跨模態推理
- 輕量化部署:模型壓縮技術(如LLaMA-7B)實現在RTX 3060顯卡運行
- 倫理與安全:憲法AI(Constitutional AI)在預訓練階段注入倫理約束
通過預訓練技術構建的基礎模型,已成為AI領域的"電力設施"。開發者可通過微調、提示工程等手段,快速構建垂直領域應用,推動技術普惠化。
4、大模型微調(Fine-tuning)
領域知識的注入術
微調技術通過領域數據對預訓練模型進行二次訓練,使其適配特定場景。
例如,使用法律文書微調的模型,在合同審查任務中表現優于通用模型。
4.1 為什么需要大模型微調
- 預訓練成本高(LLaMA-65B 需要780GB 顯存)
- 提示工程有天花板(token 上限與推理成本)
- 基礎模型缺少特定領域數據
- 數據安全和隱私
- 個性化服務需要私有化的微調大模型
4.2 大模型微調技術
以下是微調主流方法介紹,整合了現有信息與搜索結果中的補充內容:
大模型微調方法分類清單表
分類 | 方法 | 核心思想 | 論文鏈接 |
---|---|---|---|
全量微調 (FFT) | Full Fine-Tune | 更新整個模型的參數,適用于數據充足且計算資源豐富的場景 | - |
高效微調 (PEFT) | 僅更新少量參數或添加輕量化模塊,顯著降低訓練成本 | ||
圍繞 Token 優化 | Prompt Tuning | 在輸入嵌入層添加可學習的連續提示向量(Soft Prompts) | The Power of Scale for Parameter-Efficient Prompt Tuning |
Prefix Tuning | 在每層輸入前添加可訓練的前綴向量,動態引導模型輸出 | Prefix-Tuning: Optimizing Continuous Prompts for Generation | |
P-Tuning | 通過可學習的虛擬提示(Virtual Tokens)和 MLP/LSTM 優化提示嵌入 | GPT Understands, Too | |
低秩適應技術 | LoRA | 通過低秩分解模擬參數增量,僅訓練旁路小矩陣 | LoRA: Low-Rank Adaptation of Large Language Models |
QLoRA | 結合4-bit量化與LoRA,大幅降低顯存占用 | QLORA: Efficient Finetuning of Quantized LLMs | |
AdaLoRA | 動態分配低秩矩陣的秩,優先優化關鍵模塊 | Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning | |
DoRA | 分解權重更新為方向與幅度分量,增強正交約束 | Directional Orthogonalized Rank Adaptation | |
統一框架與新思路 | IA3 | 通過縮放激活值調整模型輸出,參數量極低(0.01%) | Few-Shot Parameter-Efficient Fine-Tuning |
UniPELT | 動態融合多種PEFT方法(Adapter/Prefix Tuning/LoRA),提升多任務適應性 | UniPELT: A Unified Framework for Parameter-Efficient Language Model Tuning | |
TT-LoRA MoE | 結合LoRA與稀疏混合專家(MoE),實現多任務動態路由 | TT-LoRA MoE: Unifying PEFT and Sparse MoE | |
強化學習對齊 | RLHF | 基于人類偏好反饋優化模型輸出 | Training Language Models to Follow Instructions |
RLAIF | 利用AI生成的反饋替代人類標注,降低對齊成本 | RLAIF: Scaling Reinforcement Learning from AI Feedback |
4.3 主流分類技術詳解
4.3.1 圍繞 Token 優化的方法
- Prompt Tuning:通過可學習的連續提示向量調整模型行為,無需修改模型結構,僅需存儲少量任務特定參數。
- Prefix Tuning:在Transformer每層輸入前添加可訓練前綴,動態引導生成過程,適用于序列生成任務。
- P-Tuning:將離散提示轉換為可優化的嵌入,結合輕量級模型(如LSTM)生成更靈活的提示。
- 優勢:推理零延遲,適合多任務切換;局限:提示長度和初始化策略影響性能。
4.3.2 低秩適應技術
- LoRA:凍結原模型參數,通過低秩矩陣旁路更新參數,參數量僅為原模型的0.1%~1%,支持多任務部署。
- QLoRA:在LoRA基礎上引入4-bit量化(NF4格式)和雙量化技術,使175B模型訓練顯存需求降低50%。
- AdaLoRA:基于Hessian矩陣動態分配秩,關鍵模塊(如注意力層)分配更高秩以提升微調效果。
- 應用場景:移動端部署(QLoRA)、多任務學習(AdaLoRA)、高精度生成(DoRA)。
4.3.3 統一框架與新思路
- IA3:通過縮放激活值調整模型輸出,參數量極低(0.01%),適用于少樣本場景。
- UniPELT:動態融合多種PEFT方法(如Adapter+LoRA),提升多任務泛化能力,參數量減少30%。
- TT-LoRA MoE:將LoRA與稀疏MoE結合,每個任務獨立訓練輕量專家,推理時動態路由,顯存效率提升40%。
4.3.4 強化學習對齊方法
- RLHF:通過人類標注的偏好數據訓練獎勵模型,優化生成內容與人類價值觀對齊,但依賴高質量標注。
- RLAIF:利用AI生成反饋替代人類標注,實驗表明其效果與RLHF相當(偏好率71% vs 73%),顯著降低標注成本。
4.4 總結與趨勢
- 參數效率:LoRA及其變種(QLoRA/AdaLoRA)成為主流,平衡性能與顯存需求。
- 多任務擴展:結合MoE的統一框架(如TT-LoRA MoE)推動多任務動態適配。
- 對齊技術:RLAIF逐步替代RLHF,解決標注瓶頸并提升擴展性。
- 量化與硬件適配:4-bit量化技術(如QLoRA)推動大模型在邊緣設備部署。
更多技術細節可參考上述論文及開源庫(如HuggingFace PEFT)。
四、大模型概念與訓練過程
1、什么是大模型
1.1 大模型:像是一個“超級大腦”
想象你認識一個記憶力超群、知識淵博的圖書管理員,他讀完了全世界的書籍、論文、網頁,甚至聊天記錄。
這個“圖書管理員”就是大模型(比如 ChatGPT)。其特點如下:
- 知識量爆炸:記住的內容量,相當于把整個互聯網裝進腦子里。
- 擅長聯想:提問后會從海量知識中找到關聯信息(如問“蘋果”,立刻想到水果、手機公司、牛頓的故事)。
- 會“思考”:能根據問題推測答案,甚至編故事、寫詩,而非單純復讀已知內容。
舉例:“為什么夏天比冬天熱?”
- 傳統搜索引擎:直接回復“因為地球公轉導致陽光直射角度變化”。
- 大模型:可能會說:“夏天太陽更‘正對著’我們,陽光更集中,就像用手電筒直照地板比斜著照更亮更熱。
另外,夏天白天更長,積攢的熱量更多哦~” ,用熟悉比喻解釋原理,展現“理解”能力。
1.2 Y=WX:像“調配奶茶的配方”
假設經營一家奶茶店,用數學公式決定奶茶味道:
- X(輸入):原料分量,如糖20g、茶100ml、奶50ml。
- W(權重):對每種原料的重視程度。例如“甜度權重”高,糖多一點就更甜。
- Y(輸出):最終奶茶的味道評分(如甜度8分、茶香6分)。
公式意義:
(這里假設糖對甜度影響最大,奶次之,茶不影響甜度)
實際應用:
如果顧客反饋“不夠甜”,就調高“糖”的權重(比如從 0.5 改成 0.7),下一杯就更甜。這就是機器學習:通過調整權重(W),讓輸出(Y)更符合目標(比如顧客口味)。
1.3 大模型和 Y=WX 的關系
可以把大模型想象成一家“巨型奶茶工廠”:
- 原料(X):輸入的問題,比如“北京有什么好玩的地方?”
- 配方(W):大模型內部的數萬億個權重,決定如何組合文字(類似調奶茶的甜度、茶香)。這些權重是大模型通過“讀書”(訓練)學到的規則,比如“北京”關聯“故宮”、“長城”。
- 成品(Y):生成的回答,比如“推薦故宮、長城,春天可以去頤和園劃船~”
關鍵區別:
- 巨型工廠(大模型):有10萬種原料(文字、圖片等),配方復雜到能模擬人類對話,甚至寫代碼、畫圖。
- 普通奶茶店(小模型):只有10種原料,配方簡單,只能做基礎奶茶。
1.4 現實中的類比
-
學英語
大腦(大模型)通過大量聽讀(訓練),建立單詞間的聯系(權重W)。
當有人說“How are you?”(輸入X),自動回答“I’m fine”(輸出Y),無需查語法書。 -
網購推薦
平臺用大模型分析購買過的商品(X),通過權重(W)計算可能喜歡的物品(Y)。
比如權重發現常買咖啡,就推薦咖啡機(類似調高“咖啡”相關權重)。
1.4 總結
- 大模型 = 超級大腦(海量知識 + 聯想推理)
- Y=WX = 調配“知識奶茶”的基礎規則
- 核心邏輯:大模型用數萬億個Y=WX的“小配方”,組合成復雜的“思維鏈”。就像用樂高積木搭出宇宙飛船,每一塊積木(Y=WX)看似簡單,組合起來卻能實現神奇功能!
2、大模型訓練過程詳解
參考文章https://www.zco.com/blog/training-large-language-models/
2.1 第一步:準備學習資料(數據)
大模型的學習材料:互聯網上的所有文本(書籍、網頁、對話等),比如包含無數句子的“北京是中國的首都,有故宮、長城等景點”。相當于學霸有一屋子課本,每天瘋狂刷題。
2.2 第二步:設定學習目標(訓練任務)
大模型的核心訓練任務是“完形填空”:
例子:給模型一句話:“北京有很多著名景點,比如和長城。”
目標:讓模型預測空白處最可能的詞(比如“故宮”)。相當于老師出填空題,學霸通過上下文推測答案。
2.3 第三步:試錯與調整權重(參數更新)
- 初次嘗試:模型可能瞎猜一個詞(比如“火鍋”),然后對比正確答案“故宮”,發現錯了。
- 數學懲罰:計算“火鍋”和“故宮”的差異(損失函數),用反向傳播算法告訴模型:“‘火鍋’在這個上下文里權重應該降低,‘故宮’的權重應該提高”。
- 重復億萬次:模型在數萬億句子上重復這個過程,最終學會“北京→景點→故宮/長城”的強關聯。相當于學霸每做錯一題,就把相關知識點劃重點(調權重),直到看到“北京”就條件反射想到“故宮”。
2.4 通過FQA來理解這個過程
🔴 具體到“北京→故宮”如何關聯?
- 詞向量(Word Embedding):
例子:
“北京” = [0.2, -0.5, 1.1, …]
“故宮” = [0.3, -0.6, 0.9, …]
(這些數字編碼了語義,比如首都、景點、歷史等屬性)
每個詞(如“北京”“故宮”)被轉換成一組數字(比如300維向量),類似用一串密碼表示詞義。 - 權重矩陣(W)的作用:通過矩陣乘法(Y=WX),模型將“北京”的向量變換后,輸出一個概率分布,指向最相關的詞(如“故宮”概率最高)。
- 訓練后的效果:當模型看到“北京”時,它的權重矩陣會自動激活“景點”“歷史”等屬性通道,抑制“美食”“動物”等無關通道,最終輸出“故宮”。
🔴 用現實例子理解訓練過程
假設教小孩認動物:
- 指著圖片說:“這是貓,有尖耳朵、長尾巴。”(輸入數據)
- 小孩第一次看到狗,誤認為是貓。(預測錯誤)
- 糾正他:“這是狗,耳朵更圓。”(計算誤差)
- 小孩調整腦中的“貓狗特征權重”,下次更關注耳朵形狀。(參數更新)
大模型的訓練就是把這個過程自動化、規模化:
- 數據量:小孩學100張圖 → 模型學數萬億句子
- 調整速度:小孩一天學10個詞 → 模型一秒調整數百萬次權重
🔴 為什么權重能記住復雜關系?
- 分層學習:
- 第一層發現“北”和“京”常一起出現 → 學會“北京”是一個詞。
- 第五十層發現“北京”常和“首都”“景點”關聯 → 建立城市屬性。
- 第一百層學會“推薦北京景點”應優先列出故宮、長城。
模型像有多層流水線的工廠,底層學字母組合,中層學語法,高層學語義邏輯。
- 注意力機制:類似人類閱讀時“劃重點”,模型通過自注意力機制,讓“北京”和“故宮”在特定上下文中權重更高。
# 偽代碼:模型內部對句子的“關注度”計算
當輸入是“北京有什么景點?”時:
給“北京” + “景點”分配高注意力權重,
抑制“北京” + “烤鴨”的權重。
🔴 模型如何學習“北京→故宮”?
- 見得多:在訓練數據中,“北京”和“故宮”共同出現的頻率極高。
- 懲罰與獎勵:
- 當模型猜錯時,降低錯誤詞的權重(如“火鍋”)。
- 猜對時,強化正確路徑的權重(如“故宮”)。
- 屬性編碼:最終,“北京”的向量表示中包含了“需要關聯景點”的屬性,而權重矩陣像條件反射網絡,自動觸發相關詞。這就好比:如果每天聽家人說“下雨要打傘”,重復100次后,一聽到“下雨”就自動想到“傘”——只不過大模型用數學放大了億萬倍這個過程。
3、Y=WX相關學術資源
1. 經典論文
-
《Deep Learning》(Ian Goodfellow等著)
- 章節:第6章"深度前饋網絡"
- 內容:詳細講解線性回歸、權重初始化、激活函數等基礎理論
- 鏈接:深度學習 - 圖書百科
-
《A Neural Probabilistic Language Model》(Bengio等著)
- 貢獻:首次提出基于神經網絡的語言模型,核心公式為Y=WX+b
- 鏈接:論文鏈接
2. 權威教程
-
吳恩達機器學習課程
- 主題:線性回歸與梯度下降
- 內容:通過房價預測案例講解Y=WX的實現與優化
- 鏈接:Coursera課程
-
Transformer前饋神經網絡解析
- 主題:Y=WX在注意力機制中的應用
- 內容:結合Transformer模型說明權重矩陣的維度變換
- 鏈接:技術文章
3. 進階研究
-
《Large Scale Distributed Deep Networks》(Dean等著)
- 貢獻:提出分布式訓練框架,解決大模型權重更新的效率問題
- 鏈接:論文鏈接
-
《Loss of Plasticity in Deep Continual Learning》(Sutton等著)
- 主題:持續學習中的權重優化
- 內容:提出持續反向傳播算法,解決模型可塑性下降問題
- 鏈接:Nature論文