1. 基礎
1.1 如何權衡模型的復雜度和性能?
├── a. 模型架構選擇
│ ├── 簡化架構
│ │ └── 選擇較小的網絡層數和寬度,降低復雜度;
│ │ 可使用高性能基礎模型如 Transformers 作為起點,根據需求縮放模型。
│ └── 剪枝與量化
│ └── 通過剪枝去除不重要參數、量化降低精度,在不顯著影響性能的前提下降低復雜度。
│
├── b. 正則化技術
│ └── 使用 L1/L2 正則化、Dropout、數據增強等手段控制過擬合,
│ 在模型復雜度較低時仍保持良好泛化能力。
│
├── c. 超參數優化
│ └── 使用網格搜索、隨機搜索等方法優化學習率、批量大小、優化器等超參數,
│ 以提升訓練效果和模型性能。
│
├── d. 模型蒸餾
│ └── 利用大模型訓練出小模型,讓小模型學習大模型的知識,
│ 實現“以小博大”的性能提升。
│
└── e. 數據集規模與質量
└── 高質量的數據和足夠的數據量可以提高模型表現,
進而允許使用更簡單的模型結構來達到較高性能。
1.2 大模型的 Scaling Law(擴展法則)
├── 定義:
│ └── 一種基于實驗總結的經驗規律,
│ 用于指導模型規模、數據量和計算量的合理配置。
│
├── 作用:
│ └── 在有限計算資源下,
│ 找到性能最優的模型規模與數據量組合。
│
├── 關鍵內容:
│ ├── 1. 模型規模與性能
│ │ └── 隨著參數數量增加,模型性能通常提升,
│ │ 更大的模型能學習更復雜的數據特征。
│ │
│ ├── 2. 數據量與性能
│ │ └── 提供更多訓練數據通常能提升模型性能,
│ │ 對小模型來說影響尤為顯著。
│ │
│ ├── 3. 計算資源與性能
│ │ └── 投入更多計算資源(計算能力、訓練時間),
│ │ 通常帶來更好的模型性能。
│ │
│ └── 4. 表現的規律性
│ └── 性能提升常呈現冪律關系:
│ 如損失隨參數數量、數據量呈冪函數下降,
│ 而非線性關系。
1.3 簡述大模型,與傳統模型的區別
├── 簡介
│ ├── Qwen(大模型):
│ │ └── 追求通用性與生成能力,依賴海量數據和算力,適用于復雜開放任務
│ └── BERT(小模型):
│ └── 面向特定任務高效微調,資源友好,擅長結構化理解任務
│
├── 與傳統模型的主要區別
│ ├── 1. 模型規模:
│ │ └── 大模型參數量遠超傳統模型,結構更復雜
│ ├── 2. 數據需求:
│ │ └── 大模型需要大量訓練數據以避免過擬合,傳統模型數據需求小
│ ├── 3. 表現能力:
│ │ └── 大模型具有更強的泛化與表現力,適合復雜任務
│ ├── 4. 計算資源:
│ │ └── 大模型需大量計算資源與訓練時間,傳統模型計算成本低
│ └── 5. 遷移學習:
│ └── 大模型可高效微調遷移,小模型通常需為任務重新訓練
│
├── 1. 背景維度對比
│ ├── 提出時間:Qwen (2023) vs BERT (2018)
│ ├── 背景目標:
│ │ └── Qwen:生成、推理、多模態等通用任務
│ │ └── BERT:自然語言理解任務(分類、NER等)
│ └── 技術趨勢:
│ └── Qwen:參數爆炸、追求零樣本能力
│ └── BERT:預訓練 + 微調范式,Transformer 早期應用
│
├── 2. 創新點對比
│ ├── 核心技術:
│ │ └── Qwen:千億參數、多模態輸入
│ │ └── BERT:雙向 Transformer,MLM
│ ├── 訓練方法:
│ │ └── Qwen:稀疏注意力、混合精度、分布式優化
│ │ └── BERT:掩碼語言模型(MLM)+ 下一句預測(NSP)
│ └── 應用擴展:
│ └── Qwen:零/少樣本、多輪對話、代碼生成
│ └── BERT:長依賴建模、下游微調
│
├── 3. 訓練數據對比
│ ├── 數據規模:
│ │ └── Qwen:數十 TB(多語言、多模態)
│ │ └── BERT:數十 GB(英文文本為主)
│ ├── 數據多樣性:
│ │ └── Qwen:文本 + 結構化數據
│ │ └── BERT:英文文本,單語言
│ └── 數據清洗:
│ └── Qwen:復雜質量過濾、多語言對齊
│ └── BERT:規則式清洗
│
├── 4. 模型結構對比
│ ├── 參數量:
│ │ └── Qwen:千億級(如 Qwen-72B)
│ │ └── BERT:億級(BERT-base: 110M)
│ ├── 層數:
│ │ └── Qwen:80+ 層
│ │ └── BERT:12 層
│ ├── 注意力機制:
│ │ └── Qwen:稀疏注意力
│ │ └── BERT:標準多頭注意力(12頭)
│ └── 結構設計:
│ └── Qwen:Decoder-Only(自回歸)
│ └── BERT:Encoder-Only(雙向上下文)
│
├── 5. 訓練方法對比
│ ├── 預訓練方式:
│ │ └── Qwen:大規模分布式(千卡)
│ │ └── BERT:單機多卡(TPU/GPU)
│ ├── 訓練目標:
│ │ └── Qwen:自回歸預測下一個詞
│ │ └── BERT:掩碼語言模型(MLM)+ 下一句預測(NSP)
│ ├── 微調方式:
│ │ └── Qwen:無需微調,通過 Prompt 使用
│ │ └── BERT:必須微調適配任務
│ └── 資源消耗:
│ └── Qwen:百萬美元級算力
│ └── BERT:千美元級算力
│
├── 6. 優缺點對比
│ ├── Qwen 優點:
│ │ └── 通用性強、零樣本、多任務支持
│ ├── Qwen 缺點:
│ │ └── 成本高、幻覺風險、可控性差
│ ├── BERT 優點:
│ │ └── 高效輕量、易部署、資源友好
│ └── BERT 缺點:
│ └── 生成能力弱、任務局限、泛化差
│
└── 7. 應用場景對比
├── Qwen:
│ └── 場景:智能對話、代碼生成、創作輔助
│ └── 領域:問答系統、教育、多模態交互
│ └── 適用對象:大型企業、云服務提供商
└── BERT:
└── 場景:分類、NER、語義相似度計算
└── 領域:搜索、推薦、金融風控
└── 適用對象:中小企業、科研用戶
1.4 實際業務場景:使用 LLM 還是小模型?
├── 一、總體判斷思路
│ └── 模型選擇需綜合考慮:
│ ├── 業務復雜度
│ ├── 數據規模
│ ├── 算力與預算
│ ├── 技術團隊能力
│ └── 系統可擴展性
│
├── 二、大模型 vs 小模型對比
│
│ ├── 1. 大模型(如 Qwen)優勢:
│ │ ├── 強泛化能力:處理復雜用戶行為、非線性關系
│ │ ├── 并行處理能力強:適用于大規模、實時請求
│ │ ├── 深度特征學習:自動提取高階特征,無需人工特工
│ │ └── 持續在線學習:實時優化,動態適應用戶行為
│ │
│ ├── 2. 大模型劣勢:
│ │ ├── 高資源消耗:對算力和存儲需求高
│ │ ├── 架構復雜:運維成本高,需專業團隊
│ │ ├── 可解釋性差:為“黑盒”,難以輸出推薦依據
│ │ └── 有過擬合風險:小數據場景下表現不穩
│ │
│ ├── 3. 多個小模型優勢:
│ │ ├── 高資源效率:可在本地、邊緣設備部署
│ │ ├── 靈活性強:支持按人群/場景定制化建模
│ │ ├── 易維護:可單獨更新、替換,迭代快
│ │ ├── 高可解釋性:推薦邏輯清晰、透明
│ │ └── 容錯性強:部分模型出錯不會影響整體系統
│ │
│ └── 4. 多個小模型劣勢:
│ ├── 分布式協調成本高:統一管理和部署復雜
│ ├── 表達能力有限:處理復雜關系效果不如大模型
│ ├── 模型一致性挑戰:協同邏輯難統一
│ └── 多模型訓練耗時大:需分別調優與測試
│
├── 三、業務場景模型選擇建議
│
│ ├── 1. 適合使用大模型的場景:
│ │ ├── 推薦邏輯復雜:如涉及多行為融合、高階特征
│ │ ├── 實時大規模數據處理:如億級用戶、海量內容
│ │ └── 深度個性化推薦:如長文本生成、對話推薦
│ │
│ ├── 2. 適合使用多個小模型的場景:
│ │ ├── 細粒度差異化推薦:如不同地域、用戶群、品類
│ │ ├── 資源受限部署:如邊緣端、本地服務器
│ │ ├── 快速試錯與更新:如敏捷產品迭代
│ │ └── 需高透明度:如政策監管、金融、醫療
│ │
│ └── 3. 混合部署策略:
│ ├── 大模型用于全局建模與特征抽取
│ ├── 小模型負責具體業務模塊細化推薦
│ └── 兼顧性能 + 靈活性,是常見最佳實踐
│
├── 四、模型選擇的指導因素
│
│ ├── 1. 業務需求導向:
│ │ ├── 若追求高精度、高復雜度 → 大模型優先
│ │ └── 若需求靈活、響應迅速、可解釋性強 → 小模型優先
│
│ ├── 2. 算力與預算約束:
│ │ ├── 有 GPU 集群/預算充足 → 支持大模型部署
│ │ └── 算力有限 → 多小模型更劃算
│
│ ├── 3. 團隊技術能力:
│ │ ├── 有大模型訓練和運維經驗 → 可支持大模型上線
│ │ └── 技術能力有限 → 小模型可快速落地
│
│ ├── 4. 系統擴展性與靈活性:
│ │ ├── 需快速擴展、組件可替換 → 小模型易模塊化部署
│ │ └── 統一架構管理,追求極致性能 → 可集中大模型部署
│
│ ├── 5. 可解釋性要求:
│ │ └── 有合規要求或需用戶信任的業務 → 小模型占優
│
│ └── 6. 模型維護與更新頻率:
│ ├── 高頻迭代業務 → 小模型維護效率高
│ └── 低頻更新場景 → 大模型穩定性更強
1.5 “零樣本”和“少樣本”學習
├── 一、基本定義
│
│ ├── 零樣本學習(Zero-Shot Learning)
│ │ └── 模型在訓練中從未見過目標任務/類別,也能正確識別與推理。
│ │
│ └── 少樣本學習(Few-Shot Learning)
│ └── 模型僅在極少量示例支持下完成學習與推理任務。
├── 二、零樣本學習詳解
│
│ ├── 核心能力
│ │ ├── 強泛化能力
│ │ ├── 上下文理解能力
│ │ └── 概念關系推理能力
│ │
│ ├── 示例
│ │ └── ChatGPT 未接受過某類問題訓練,但仍能回答新技術/新事件問題。
│ │
│ └── 實現基礎
│ └── 基于大規模預訓練模型 + 廣泛知識學習 + 語言模式抽象能力
├── 三、少樣本學習詳解
│
│ ├── 場景特點
│ │ └── 每個類別僅提供少量樣本,模型需快速學習并進行預測。
│ │
│ ├── 示例
│ │ └── 用戶在提示中給出 2~3 個例子,模型學會如何生成對應輸出。
│ │
│ ├── 主要技術路徑
│ │ ├── 1. 數據增強(Data Augmentation)
│ │ │ └── 合成或變換樣本,擴充訓練數據。
│ │ ├── 2. 遷移學習(Transfer Learning)
│ │ │ └── 使用預訓練模型參數,快速適配新任務。
│ │ └── 3. 原型網絡(Prototypical Networks)
│ │ └── 基于類別原型計算樣本距離進行分類。
│ │
│ └── 應用說明
│ └── ChatGPT 可通過少量對話示例(Prompt)進行任務適配和執行。
├── 四、對比總結
│
│ ├── 零樣本學習:
│ │ └── 不依賴任何任務特定數據,完全靠已有知識推理。
│ └── 少樣本學習:
│ └── 依賴極少量任務樣本,需快速抽象出規律。
└── 五、應用價值(在 LLM 中的體現)
├── 提高模型靈活性與泛化能力
├── 降低標注數據依賴
├── 支持快速任務切換與指令理解
└── 支持Prompt Engineering、類任務式對話設計
1.6 大模型的涌現能力(Emergent Abilities)
├── 一、定義
│ └── 指大型預訓練模型在特定輸入下,表現出超出其原始訓練目標或設計預期的復雜行為。
│ └── 這些能力通常是自發出現的,并非顯式編碼或人為指定。
├── 二、關鍵特性與表現
│
│ ├── a. 規模依賴性
│ │ └── 隨著模型參數量和訓練數據規模的增加,模型能力提升;
│ │ 在規模達到某一“臨界點”后,開始展現新能力。
│
│ ├── b. 復雜任務處理
│ │ └── 能處理邏輯推理、編程、復雜對話等未直接訓練過的任務;
│ │ 如 LLM 能生成代碼、寫論文、推理結論等。
│
│ ├── c. 少樣本學習能力
│ │ └── 在只有少量示例的前提下,快速學習新任務;
│ │ 通過上下文和提示理解新任務而無需重訓練。
│
│ ├── d. 行為多樣性與適應性
│ │ └── 相同模型在不同任務/語境下表現出不同能力;
│ │ 能根據用戶上下文動態調整行為。
│
│ └── e. 研究與應用價值
│ ├── 成為 AI 研究的熱點方向;
│ ├── 被廣泛用于自然語言處理、代碼生成、多模態交互等;
│ └── 挖掘與引導“潛在能力”成為關鍵研究目標。
1.7 大模型遷移學習(Transfer Learning)
├── 一、定義
│ └── 將源領域中學到的知識遷移到目標領域中的技術;
│ 利用已有模型參數,減少目標任務對大數據和訓練時間的依賴。
├── 二、應用場景
│ └── 數據不足或訓練成本高時使用;
│ 通過已有模型進行微調,提高效率與性能。
├── 三、大模型中的遷移學習范式
│
│ ├── 1. 預訓練(Pre-training)
│ │ ├── 在大規模通用語料(如互聯網文本)上訓練;
│ │ └── 獲得具備廣泛語言理解能力的通用模型。
│ │
│ ├── 2. 微調(Fine-tuning)
│ │ ├── 在特定任務的小數據集上進一步訓練;
│ │ └── 使預訓練模型適配具體任務。
│ │
│ └── 說明:
│ ├── 預訓練需海量數據和高昂成本;
│ ├── 通常不從零訓練;
│ └── 使用公開預訓練模型 + 微調 → 成為主流做法。
├── 四、優點總結
│
│ ├── 1. 節省計算資源
│ │ └── 避免從頭訓練,節約訓練時間與算力成本。
│
│ ├── 2. 降低數據需求
│ │ └── 即使目標任務樣本少,也能取得好效果。
│
│ └── 3. 適應性強
│ └── 快速適配新任務、新領域,靈活性好。
1.8 文本輸入到大模型的全過程(以 Transformer 架構文本摘要為例)
文本輸入全過程
├── 1. 輸入文本預處理
│ ├── 分詞:將長句拆分為詞/子詞/Token
│ └── 清洗:去除標點、停用詞等無效信息
│
├── 2. 向量化處理
│ └── 使用詞嵌入模型(如 Word2Vec、BERT Embedding)
│ 將每個詞/Token 轉換為對應的向量表示
│
├── 3. 模型輸入層
│ └── 將序列化向量輸入至 Transformer 的第 1 層
│ 啟動編碼過程
│
├── 4. 模型主體處理(Transformer 編碼器/解碼器)
│ ├── 自注意力機制:
│ │ └── 學習詞與詞之間的依賴關系(支持長距離建模)
│ ├── 前饋神經網絡:
│ │ └── 提供非線性變換能力
│ └── 殘差連接 & LayerNorm:
│ └── 防止梯度消失,穩定訓練
│
├── 5. 輸出層處理
│ └── 輸出潛在表示 → Softmax → 概率分布
│ (預測下一個最可能的詞)
│
├── 6. 文本生成與后處理
│ ├── 詞生成:
│ │ └── 根據概率選擇 Token(如貪心/采樣/Beam Search)
│ └── 后處理:
│ ├── 拼接句子、消除冗余
│ └── 語義優化,確保摘要自然流暢
│
└── 7. 性能監控與優化
├── 硬件監控:
│ └── 實時監測 GPU / CPU / 顯存 使用率
└── 模型優化:
└── 微調參數、改進推理速度、提升摘要質量
2. Encoder-only & Decoder-only & Encoder-Decoder
2.1 架構類型總覽
├── Encoder-Only
│ ├── 用途:理解任務(文本分類、問答、信息抽取)
│ ├── 注意力方向:雙向
│ ├── 代表模型:BERT、RoBERTa
│ ├── 訓練目標:MLM(掩碼語言建模)、NSP
│ ├── 優點:語義理解強
│ └── 缺點:不適合生成任務
├── Decoder-Only
│ ├── 用途:生成任務(文本生成、對話、續寫)
│ ├── 注意力方向:單向(因果掩碼)
│ ├── 代表模型:GPT-3、LLaMA、PaLM
│ ├── 訓練目標:因果語言建模
│ ├── 優點:生成流暢,Few-shot能力強
│ └── 缺點:上下文單向,可能偏離主題
└── Encoder-Decoder
├── 用途:輸入-輸出映射任務(翻譯、摘要)
├── 注意力方向:編碼器雙向,解碼器單向
├── 代表模型:T5、BART、原始Transformer
├── 訓練目標:去噪建模、序列轉換
├── 優點:處理輸入/輸出異構結構
└── 缺點:資源消耗大,訓練復雜
───────────────────────────────
2.2 Encoder-Only 架構詳解
├── 特點:僅使用編碼器,對輸入文本進行上下文建模
├── 典型模型:
│ ├── BERT:首個雙向預訓練模型,通過掩碼語言建模(MLM)學習上下文表征。
│ ├── RoBERTa:BERT 的優化版,更大數據量、更長訓練步長。
│ └── ALBERT:參數共享減少計算量,適合資源受限場景。
└── 應用場景:
├── 文本分類:根據輸?的?本進?分類(如情感分析、新聞分類)。
├── 抽取式問答:通過輸?問題和上下?,模型從上下?中抽取出準確的答案。
└── 命名實體識別(NER):標注?本中的特定實體(如?名、地名等)。
2.3 Decoder-Only 架構詳解
├── 特點:僅使用解碼器,自回歸式地逐詞生成文本
├── 典型模型:
│ ├── GPT-3 / GPT-4:通過海量數據預訓練,Few-Shot 學習能力強
│ ├── PaLM:谷歌大規模模型,強調推理和代碼生成能力。
│ └── LLaMA:Meta 開源模型,參數量高效。
└── 應用場景:
├── 文本生成:根據提??成?段連貫的?本(如對話?成、?動寫作)。
├── 對話系統:逐步?成?然語?響應,回答?戶提問。
└── 翻譯(逐詞生成類):逐詞?成?標語?的翻譯結果。
2.4 Encoder-Decoder 架構詳解
├── 特點:編碼器處理輸入 → 解碼器生成輸出
├── 典型模型:
│ ├── T5:將任務統一為文本到文本格式,適用翻譯、摘要等。
│ ├── BART:結合雙向編碼器與自回歸解碼器,擅長文本重構任務。
│ └── Transformer:首個完全基于注意力的機器翻譯模型。
└── 應用場景:
├── 機器翻譯:將?個句?從源語?翻譯成?標語?,編碼器負責理解源語?句?,解碼器負責?成?標語?句?。
├── 文本摘要:編碼器處理??本,解碼器?成簡短摘要。
└── 條件生成任務(如自動問答):如?本填空或根據輸??成對應的完整?本。
───────────────────────────────
2.5 主要區別總結
├── Encoder-Only:語義理解任務
├── Decoder-Only:文本生成任務
└── Encoder-Decoder:輸入映射輸出任務
2.6 為什么大模型偏好 Decoder-Only?
├── 1. 架構更簡單:省去雙結構,只聚焦生成
├── 2. 自回歸機制:適合逐步生成文本
├── 3. 輸入靈活性:適配任意 prompt,條件控制自由
├── 4. 大規模預訓練:學習豐富語言知識,可遷移微調
└── 5. 長文本處理佳:可保持上下文連貫性
3.LLM模型
3.1 Gemma-3 模型
Gemma-3(第三代谷歌開源大模型)
├── 一、背景簡介
│ ├── 來自谷歌,發布于“巴黎開發者日”
│ ├── 是 Gemma 系列第三代,支持圖文多模態(文字+圖像)
│ └── 最重要亮點:1塊GPU/TPU 就能運行(對普通開發者更友好)
├── 二、核心參數規格(共4個版本)
│ ├── 1B:輕量模型,適合手機、小設備
│ ├── 4B:適合一般任務,輕量高效
│ ├── 12B:能力較強,支持復雜任務
│ └── 27B:旗艦模型,精度最強,能和Llama、GPT對比
├── 三、關鍵創新點(重點)
│ ├── ? 單設備運行強:跑得快,還省資源
│ ├── ? 多語言支持:支持140種語言
│ ├── ? 支持圖文視頻理解:不僅能讀文字,還能“看圖”
│ ├── ? 超長記憶力:一次處理 128K token 的超長文本(上下文窗口大)
│ ├── ? 函數調用支持:適合做 AI 助手和自動化
│ └── ? 量化優化:官方提供小模型版本,壓縮后仍保持高精度
├── 四、訓練數據規模(模型越大,訓練數據越多)
│ ├── 1B → 使用 2 萬億 token 訓練
│ ├── 4B → 使用 4T token
│ ├── 12B → 使用 12T token
│ └── 27B → 使用 14T token(T = 萬億)
├── 五、模型結構說明
│
│ ├── 1. 主體架構(語言模型 LLM)
│ │ ├── 解碼器 Transformer 架構(同 GPT 類)
│ │ ├── 技術點:
│ │ │ ├── GQA(分組查詢注意力)→ 更高效的注意力機制
│ │ │ ├── RMSNorm 歸一化(提升穩定性)
│ │ │ ├── 局部+全局注意力交替排列(5層局部+1層全局)
│ │ │ ├── RoPE 頻率提高到 1M(更好處理長文本)
│ │ │ └── 位置插值技術 → 保證對長文本理解效果
│
│ └── 2. 多模態部分(視覺編碼器)
│ ├── 使用 SigLIP(一個視覺Transformer)
│ ├── 支持圖片 896x896 像素輸入
│ └── 能處理圖像識別、圖文理解任務(如識別圖中元素)
├── 六、訓練方法(模型如何“學會”的)
│ ├── Pre-train + Post-train 兩階段訓練
│ ├── 核心訓練技巧:
│ │ ├── 模型蒸餾:學“大模型”的知識
│ │ ├── 強化學習調優(提升理解、遵循指令能力)
│ │ └── 三種 RL 技術:
│ │ ├── RLHF:基于人類反饋訓練
│ │ ├── RLMF:增強數學能力
│ │ └── RLEF:增強編程能力
├── 七、評估效果(表現好不好)
│ ├── 測試平臺:Chatbot Arena(模型排行榜)
│ ├── 結果:
│ │ ├── Gemma-3 27B 超過 LLaMA-3-70B、DeepSeek-V3 等主流模型
│ │ └── 在數學、代碼、對話能力等任務上均表現優秀
│ └── 特別說明:27B 模型只用單 GPU 就能跑 → 非常實用
3.2 DeepSeek 系列
├── 3.2.1 DeepSeek-V3(超大模型、智能強)
│
│ ├── 📌 簡介
│ │ ├── 671B 超大參數量 → 意味著“超級聰明”
│ │ ├── 每個 token 激活 37B 參數 → MoE 架構(部分專家工作)
│ │ └── 屬于最強開源大模型之一(性能強但運行高效)
│
│ ├── 📌 核心技術亮點
│ │ ├── ① MLA:多頭潛在注意力(Multi-head Latent Attention)
│ │ │ └── 優化注意力機制,減少顯存占用但保持效果
│ │ ├── ② DeepSeekMoE 架構(混合專家)
│ │ │ └── 每次預測只用少數專家 → 省算力
│ │ ├── ③ 無輔助損失的負載均衡(Free Load Balance)
│ │ │ └── 自動平衡每個專家被使用頻率
│ │ └── ④ 多 Token 預測(Multi-token Prediction, MTP)
│ │ └── 一次預測多個詞 → 提高推理速度
│
│ ├── 🔧 MLA 原理(理解優化注意力)
│ │ ├── 1. 把輸入壓縮為潛在向量(減少KV緩存)
│ │ ├── 2. 用矩陣投影生成壓縮版 key/value
│ │ ├── 3. 使用 RoPE 做位置編碼
│ │ └── 4. softmax 權重生成注意力輸出
│ │ ? 優點:顯存占用少,速度快,性能保持
│
│ ├── 🔧 DeepSeekMoE 原理(專家網絡)
│ │ ├── 分為共享專家 + 路由專家(讓不同專家負責不同內容)
│ │ ├── 使用門控機制激活最合適的專家
│ │ └── 自動平衡:通過調整偏置項,保證專家不被“偏心”使用
│
│ └── 🔧 MTP 原理(一次預測多個詞)
│ ├── 每個位置不只預測一個詞,而是多個詞
│ ├── 提前生成多個詞向量(加快推理)
│ └── 每個模塊都有共享層 + Transformer + 投影層
├── 3.2.2 DeepSeek-R1 INT8(輕量部署版)
│
│ ├── 📌 背景
│ │ ├── 原版使用 FP8 精度 → 只支持高端 GPU(如 Hopper 架構)
│ │ ├── INT8 精度 → 主流 GPU 也能跑(如 A100)
│ │ └── INT8 推理快、顯存少、部署更容易
│
│ ├── 📌 精度基本無損(測試準確率保持住)
│ │ ├── GSM8K:數學任務
│ │ └── MMLU:多領域知識問答
│
│ ├── 🔧 INT8 量化原理
│ │ ├── 將 FP16 高精度 → 轉為 INT8 低精度
│ │ ├── 通過縮放 + 反縮放,盡量減少信息丟失
│ │ └── 優點:占用空間少、計算快
│
│ ├── ? 兩種量化方式(實際應用)
│ │
│ │ ├── 1?? 分塊量化(Block-wise Quant)
│ │ │ ├── 把矩陣按小塊切 → 精度高
│ │ │ └── 推理快 + 精度好(推薦)
│ │
│ │ └── 2?? 通道量化(Channel-wise Quant)
│ │ ├── 把每列為一個通道
│ │ └── 極致加速,但精度略低
│
│ ├── 🧪 精度評估結果
│ │ ├── INT8 分塊量化 ≈ 原始精度
│ │ └── 通道量化 → 略有波動,但仍可用
│
│ └── 🚀 吞吐測試(推理速度對比)
│ ├── 在 A100 上測試:
│ │ ├── BF16 原始模型 → 基線速度
│ │ ├── INT8(Block) → 提升 33%
│ │ └── INT8(Channel)→ 提升 50%
│ └── ? 減少顯存,提升速度,適合大規模部署
└── ? 小白總結
👉 DeepSeek-V3:超大聰明模型,注意力優化,專家機制聰明分工,生成快。
👉 DeepSeek-R1 INT8:輕量化版本,適合部署在普通顯卡上,速度快,精度也很好。
3.3 Baichuan 系列大模型
├── 3.3.1 Baichuan 2(兩款主力型號)
│ ├── 版本:
│ │ ├── Baichuan 2-7B(70億參數)
│ │ └── Baichuan 2-13B(130億參數)
│ └── 特點:
│ ├── 使用 2.6 萬億 tokens 訓練,遠超 Baichuan 1
│ └── 在多個基準上性能提升高達 30%
├── 一、訓練數據(🔍 基礎知識來源)
│ ├── 數據來源:
│ │ ├── 40% 互聯網網頁
│ │ ├── 30% 圖書
│ │ ├── 20% 學術論文
│ │ ├── 5% 代碼
│ │ └── 5% 新聞、博客等
│ └── 數據處理:
│ ├── 去重技術:用 LSH(近似哈希)對段落/句子去重
│ └── 清洗 + 打分 → 只留下高質量內容參與訓練
├── 二、模型結構(🏗? 怎么搭的)
│ ├── 1?? 位置編碼
│ │ ├── 7B 模型:RoPE(旋轉位置編碼)
│ │ └── 13B 模型:ALiBi(線性偏移編碼)→ 更強 extrapolation
│ ├── 2?? 激活函數
│ │ └── 使用 SwiGLU(帶門控機制的激活)→ 學習能力增強
│ ├── 3?? 注意力機制
│ │ └── xFormers 內存優化注意力 → 適配 RoPE/ALiBi 高效訓練
│ └── 4?? Normalization 歸一化
│ └── 使用 RMSNorm → 更快更穩,代替傳統 LayerNorm
├── 三、訓練方法(?? 怎么訓的)
│ ├── Optimizer:AdamW(帶正則化,收斂快)
│ ├── 學習率策略:
│ │ ├── 預熱(Warm-up 2000 步)
│ │ └── 余弦退火策略(Cosine Annealing)
│ ├── 精度:BFloat16 混合精度 → 節省內存 & 穩定訓練
│ └── 特殊處理:
│ └── 某些計算用 float32 保精度(例如位置嵌入)
├── 四、對齊訓練(🧠 獎勵+強化)
│ ├── 🎯 獎勵模型(Reward Model, RM)
│ │ ├── 設計了 3 層分類系統(200+種用戶需求)
│ │ ├── 自己生成回答 → 自己打分(保持一致性)
│ │ └── RM 表現 ≈ LLaMA 2 級別
│ └── 🧠 PPO 強化學習優化
│ ├── actor(生成)+ critic(評估)+ RM(獎勵)+ reference(對比)
│ └── 實現對輸出質量的精細調控
├── 五、評估表現(📊 實力對比)
│ ├── 數據集:MMLU、GSM8K、AGIEval、C-Eval 等
│ ├── Baichuan 2-7B:
│ │ └── 普遍超越 Baichuan 1、ChatGLM2、MPT、Falcon 等
│ └── Baichuan 2-13B:
│ └── 多項指標優于 LLaMA 2-13B、Alpaca-Plus、XVerse 等
└── ? 總結(小白理解核心)
👉 模型訓練數據多、干凈、覆蓋面廣
👉 模型結構靈活(RoPE vs ALiBi),兼顧推理速度和效果
👉 支持 RLHF 微調,讓回答更靠譜
👉 評估結果穩居國產開源模型第一梯隊
👉 7B/13B 參數量適中 → 性能強且可部署(兼顧效果和資源)
3.4 Qwen 系列(通義千問)模型演進邏輯圖
└─ Qwen(初代)【基礎通用語言模型】
├─ 語言:中英文為主
├─ 架構:標準Transformer + SwiGLU + RoPE位置編碼
├─ 特點:自然語言理解和生成能力強,支持基本對話與問答
└─ 演進 →
├─ Qwen1.5(過渡版本)
│ ├─ 上下文長度擴展到 32K
│ ├─ 引入新位置編碼機制:NTK-aware RoPE 插值
│ └─ 主要為 Qwen2 做過渡準備
│
├─ Qwen2(第二代通用模型)
│ ├─ 多語言支持拓展:新增27種語言
│ │ └─ 覆蓋:東亞、東南亞、歐洲、中東、南亞主流語言
│ ├─ 上下文能力:最長支持128K上下文(訓練和推理均支持)
│ ├─ 關鍵技術:
│ │ ├─ YARN(Yet Another RoPE Extension)擴展位置編碼
│ │ └─ DualChunkAttention:分塊注意力計算,大幅降低長文本計算開銷
│ └─ 應用場景:文檔理解、長對話、多語言問答等
│
└─ Qwen2.5(第三代核心大模型)├─ 模型規模覆蓋:0.5B、1.5B、3B、7B、14B、32B、72B├─ 預訓練數據:│ ├─ Token總量:18T(大幅提升)│ ├─ 內容分布優化:知識、代碼、數學為重點,社交/娛樂等領域降采樣│ └─ 質量保障:使用 Qwen2-Instruct 做過濾評分├─ 上下文長度升級:│ ├─ 通用模型:最高128K│ └─ Turbo模型:支持最高1M tokens(YARN + 雙塊注意力 + ABF擴頻)├─ 后訓練階段:│ ├─ SFT:兩階段微調(短32K + 長256K混合)│ ├─ DPO/GRPO:強化偏好與群體對齊│ └─ RLHF:分為離線RL(推理/執行)+ 在線RL(真實/有用/安全等維度)├─ 結構化輸出能力:強化對 JSON、表格、長指令結構理解與生成└─ 衍生子模型(專精方向):│├─ Qwen2.5-Omni【全模態模型】│ ├─ 模態支持:文字 + 圖像 + 音頻 + 視頻(輸入)│ ├─ 輸出形式:文本 + 實時語音│ ├─ 創新架構:│ │ ├─ Thinker-Talker:理解與表達解耦并并行│ │ └─ TMRoPE:時間對齊多模態位置編碼(對齊視聽模態)│ ├─ 場景應用:AI 語音助手、多模態對話、虛擬主播、音視頻問答│ └─ 特點:邊輸入邊輸出、語音穩定自然│├─ Qwen-QwQ【自問自答推理模型】│ ├─ 全稱:Qwen-with-Questions│ ├─ 技術突破:│ │ ├─ Structured Self-Questioning(結構化自我提問)│ │ └─ 兩階段強化學習(數學+編程 → 通用能力)│ ├─ Agent能力:動態調整推理路徑,支持多輪規劃│ └─ 應用場景:數學題推理、復雜指令鏈、AI agent規劃執行│├─ Qwen2.5-Math【數學專用模型】│ ├─ 訓練數據:│ │ ├─ 公開數據集 + 合成題(含解析) + 多語言數學題│ │ └─ 加入 CoT(Chain-of-Thought)鏈式推理格式│ ├─ 推理技術:拒絕采樣 + 獎勵建模選優路徑│ └─ 表現:GSM8K、MATH 等基準任務超越大部分開源模型│├─ Qwen2.5-Code【代碼專用模型】│ ├─ 語言覆蓋:支持40+編程語言(Python、C++、Java、JS等)│ ├─ 訓練流程:│ │ ├─ 精選代碼預訓練 + 指令微調(Code-Instruct)│ │ └─ 多語言沙箱環境靜態/動態測試輔助質量提升│ ├─ 輸出評估:單元測試驗證+代碼執行結果過濾│ └─ 表現:HumanEval、MBPP 等代碼基準任務表現優異│└─ Qwen2.5-Turbo / Qwen2.5-Plus【通用強化模型】├─ Qwen2.5-Turbo:│ ├─ 超長上下文處理專家(最高1M tokens)│ ├─ ABF(頻率擴展)+ 分階段長序列訓練│ └─ 場景:文檔總結、合同分析、歷史長對話跟蹤└─ Qwen2.5-Plus:├─ 平衡版高精度模型(性能接近GPT-4)├─ 多領域泛化能力更強:數學/推理/翻譯等└─ 表現優異于MMLU/GSM8K/HumanEval等任務上
3.5 LLAMA 系列
🔹 3.5.1 LLAMA 3.1 —— 新一代升級
LLAMA 3.1
│
├──? 🚀 性能大幅提升
│ → 比以前的模型更聰明,甚至能和GPT-4比一比!
│
├──? 🔁 三階段預訓練流程
│ ├─ 初始預訓練 → 模型打基礎,學習基本語言知識
│ ├─ 長文本預訓練 → 學習如何理解和處理長文檔
│ └─ 退火訓練 → 像“回爐重造”,讓模型更加穩健
│
├──? 🧹 數據質量優化
│ ├─ 行級去重 → 刪掉重復的句子,保證多樣性
│ ├─ 多層次過濾 → 清理低質量內容,比如錯別字、亂碼
│ └─ 引入高質量數據 → 加入優質文章、書籍,補充知識
│
├──? 🧠 訓練策略升級
│ ├─ 拒絕采樣 → 去掉模型胡說八道的回答
│ ├─ SFT(監督微調)→ 模型學習怎么更像“助理”
│ └─ DPO(偏好優化)→ 讓模型更懂“人類喜好”
│
├──? ?? 網絡結構升級
│ ├─ SwiGLU 激活函數 → 增強模型理解復雜問題的能力
│ ├─ RoPE 位置編碼 → 讓模型知道“詞語的順序”
│ ├─ RMSNorm 歸一化 → 保證訓練過程穩定、不崩
│ └─ 殘差連接 → 避免“越學越糊涂”,保持信息流暢
│
└──? 🎯 特定能力增強 → 專門優化代碼生成、多語言處理能力,適配不同應用
🔹 3.5.2 LLAMA 系列總覽
LLAMA 總體特征
│
├──? 🏗 模型架構:
│ → 基于 Transformer 構建的框架,通用而強大
│
├──? 📏 參數規模多樣化
│ ├─ 7B → 適合中小規模
│ ├─ 13B / 30B → 平衡性能和成本
│ └─ 65B → 需要強大硬件,性能最強
│
├──? 📂 開源可用
│ → 任何人都可以下載和使用,適合研究與開發
│
├──? 🧠 訓練數據豐富
│ → 使用各種各樣的文本數據訓練,包括網頁、書籍、對話等
│
├──? 🔁 網絡結構優化組件
│ ├─ RoPE(旋轉位置編碼)→ 更好理解詞語順序
│ ├─ SwiGLU 激活 → 讓模型“反應更靈活”
│ ├─ RMSNorm → 穩定模型訓練過程
│
├──? 🛡 梯度問題應對措施
│ ├─ 殘差連接 → 保留關鍵信息
│ ├─ 歸一化 → 防止“計算爆炸”或“沒信號”
│ ├─ 合理激活函數 → 避免數學問題導致“腦抽”
│ └─ 自適應優化器(Adam)→ 像“教練”一樣靈活調整訓練節奏
🔹 3.5.2.1 如何提升 LLAMA 的中文能力(重點!)
LLAMA 中文增強
│
├──? ? 為什么LLAMA原生中文不好?
│ ├─ 訓練數據中文太少 → 英文占比高達99%
│ ├─ 詞表不適合中文 → 太多漢字被拆開處理
│ ├─ 沒訓練中文任務 → 比如古詩、對聯、問診都沒練過
│
├──? ? 解決方案一:繼續預訓練
│ → 用大批高質量中文數據再“訓練一遍”
│ → 比如補上新聞、百科、法律、醫療內容等
│
├──? ? 解決方案二:擴充詞表
│ → 加入常用漢字、中文詞語,解決分詞問題
│ → 讓模型“認得更多中文詞”
│
├──? ? 解決方案三:指令微調
│ → 用中文指令數據(如:寫一首詩、解釋法規)來訓練
│ → 模型會更懂中文使用習慣
│
├──? ? 解決方案四:混合專家(MoE)
│ → 中文專家專門處理中文,英文專家專門處理英文
│ → 根據輸入自動選擇最懂的“老師”
│
└──? ? 解決方案五:人類反饋(RLHF) → 給模型反饋什么回答更符合中國用戶的習慣 → 不斷優化回答質量,避免“中式英文”
3.6 T5:Text-to-Text Transfer Transformer
↓
核心理念:所有 NLP 任務都轉成 “文本 → 文本”
↓
任務示例(統一格式):
├── 翻譯:translate English to German: That is good. → Das ist gut.
├── 分類:cola sentence: The course is jumping well. → Not acceptable
├── 相似度:stsb sentence1: … sentence2: … → 3.8
├── 摘要:summarize: … → 精簡內容
↓
🌟 創新點
├── 1. 文本到文本統一框架(每個任務都是一個文本生成)
├── 2. Span Corruption預訓練(掩碼一整段連續文本)
├── 3. 架構系統探索(測試各種結構選擇,找到最優方案)
↓
📚 訓練數據
├── 預訓練數據:C4英文網頁清洗大語料(750GB)
└── 微調數據:GLUE、CNN/DailyMail、WMT等多種任務集
↓
🧠 模型結構(Encoder-Decoder)
├── 相對位置編碼(不是用固定位置,而是學出來的位置偏移)
├── LayerNorm放在殘差連接前(提高穩定性)
├── FFN使用GELU激活(更平滑更強)
└── 多個模型版本(從小到大)
├── T5-small:60M參數
├── T5-base:220M參數
├── T5-large:770M參數
├── T5-3B:3B參數
↓
?? 訓練方法
├── 預訓練階段:
│ ├── 使用 span corruption 掩碼訓練
│ ├── 優化器:AdaFactor(顯存省)
│ └── 大批量長時間訓練(1M 步,34B tokens)
└── 微調階段:
├── 每個任務前面加 prefix(任務前綴提示)
└── 多任務混合訓練(翻譯、分類、問答等一起訓)
↓
? 優點
├── 一個模型支持多種任務(統一簡潔)
├── 泛化能力強(小樣本也能學得不錯)
└── 任務前綴讓控制更清晰(可解釋)
↓
?? 缺點
├── Encoder-Decoder結構導致生成速度慢(不如GPT快)
└── 模型越大越占資源(如T5-3B需要很多顯存)
↓
📌 應用場景
├── 文本生成(摘要、翻譯、對話)
├── 序列標注(命名實體識別)
├── 問答系統(開放式回答)
└── 數據增強(合成訓練樣本)
↓
🔧 改進方向
├── mT5:支持101種語言(多語種)
├── T5-UL2:混合預訓練目標(更強大)
├── 蒸餾壓縮:用大模型教小模型(如Distilled-T5)
└── 領域適配:在醫學、法律等數據上繼續預訓練
↓
💻 實現代碼(用Transformers一行就能跑!)
├── 加載模型 tokenizer & model
├── 輸入“任務前綴+文本” → 編碼成token
├── model.generate() 生成 → decode() 得出結果
└── 支持自定義訓練循環 + 優化器微調