【LLM系列】1.大模型簡介

1. 基礎

1.1 如何權衡模型的復雜度和性能？

├── a. 模型架構選擇
│ ├── 簡化架構
│ │ └── 選擇較小的網絡層數和寬度，降低復雜度；
│ │ 可使用高性能基礎模型如 Transformers 作為起點，根據需求縮放模型。
│ └── 剪枝與量化
│ └── 通過剪枝去除不重要參數、量化降低精度，在不顯著影響性能的前提下降低復雜度。
│
├── b. 正則化技術
│ └── 使用 L1/L2 正則化、Dropout、數據增強等手段控制過擬合，
│ 在模型復雜度較低時仍保持良好泛化能力。
│
├── c. 超參數優化
│ └── 使用網格搜索、隨機搜索等方法優化學習率、批量大小、優化器等超參數，
│ 以提升訓練效果和模型性能。
│
├── d. 模型蒸餾
│ └── 利用大模型訓練出小模型，讓小模型學習大模型的知識，
│ 實現“以小博大”的性能提升。
│
└── e. 數據集規模與質量
└── 高質量的數據和足夠的數據量可以提高模型表現，
進而允許使用更簡單的模型結構來達到較高性能。

1.2 大模型的 Scaling Law（擴展法則）

├── 定義：
│ └── 一種基于實驗總結的經驗規律，
│ 用于指導模型規模、數據量和計算量的合理配置。
│
├── 作用：
│ └── 在有限計算資源下，
│ 找到性能最優的模型規模與數據量組合。
│
├── 關鍵內容：
│ ├── 1. 模型規模與性能
│ │ └── 隨著參數數量增加，模型性能通常提升，
│ │ 更大的模型能學習更復雜的數據特征。
│ │
│ ├── 2. 數據量與性能
│ │ └── 提供更多訓練數據通常能提升模型性能，
│ │ 對小模型來說影響尤為顯著。
│ │
│ ├── 3. 計算資源與性能
│ │ └── 投入更多計算資源（計算能力、訓練時間），
│ │ 通常帶來更好的模型性能。
│ │
│ └── 4. 表現的規律性
│ └── 性能提升常呈現冪律關系：
│ 如損失隨參數數量、數據量呈冪函數下降，
│ 而非線性關系。
在這里插入圖片描述

1.3 簡述大模型，與傳統模型的區別

├── 簡介
│ ├── Qwen（大模型）：
│ │ └── 追求通用性與生成能力，依賴海量數據和算力，適用于復雜開放任務
│ └── BERT（小模型）：
│ └── 面向特定任務高效微調，資源友好，擅長結構化理解任務
│
├── 與傳統模型的主要區別
│ ├── 1. 模型規模：
│ │ └── 大模型參數量遠超傳統模型，結構更復雜
│ ├── 2. 數據需求：
│ │ └── 大模型需要大量訓練數據以避免過擬合，傳統模型數據需求小
│ ├── 3. 表現能力：
│ │ └── 大模型具有更強的泛化與表現力，適合復雜任務
│ ├── 4. 計算資源：
│ │ └── 大模型需大量計算資源與訓練時間，傳統模型計算成本低
│ └── 5. 遷移學習：
│ └── 大模型可高效微調遷移，小模型通常需為任務重新訓練
│
├── 1. 背景維度對比
│ ├── 提出時間：Qwen (2023) vs BERT (2018)
│ ├── 背景目標：
│ │ └── Qwen：生成、推理、多模態等通用任務
│ │ └── BERT：自然語言理解任務（分類、NER等）
│ └── 技術趨勢：
│ └── Qwen：參數爆炸、追求零樣本能力
│ └── BERT：預訓練 + 微調范式，Transformer 早期應用
│
├── 2. 創新點對比
│ ├── 核心技術：
│ │ └── Qwen：千億參數、多模態輸入
│ │ └── BERT：雙向 Transformer，MLM
│ ├── 訓練方法：
│ │ └── Qwen：稀疏注意力、混合精度、分布式優化
│ │ └── BERT：掩碼語言模型（MLM）+ 下一句預測（NSP）
│ └── 應用擴展：
│ └── Qwen：零/少樣本、多輪對話、代碼生成
│ └── BERT：長依賴建模、下游微調
│
├── 3. 訓練數據對比
│ ├── 數據規模：
│ │ └── Qwen：數十 TB（多語言、多模態）
│ │ └── BERT：數十 GB（英文文本為主）
│ ├── 數據多樣性：
│ │ └── Qwen：文本 + 結構化數據
│ │ └── BERT：英文文本，單語言
│ └── 數據清洗：
│ └── Qwen：復雜質量過濾、多語言對齊
│ └── BERT：規則式清洗
│
├── 4. 模型結構對比
│ ├── 參數量：
│ │ └── Qwen：千億級（如 Qwen-72B）
│ │ └── BERT：億級（BERT-base: 110M）
│ ├── 層數：
│ │ └── Qwen：80+ 層
│ │ └── BERT：12 層
│ ├── 注意力機制：
│ │ └── Qwen：稀疏注意力
│ │ └── BERT：標準多頭注意力（12頭）
│ └── 結構設計：
│ └── Qwen：Decoder-Only（自回歸）
│ └── BERT：Encoder-Only（雙向上下文）
│
├── 5. 訓練方法對比
│ ├── 預訓練方式：
│ │ └── Qwen：大規模分布式（千卡）
│ │ └── BERT：單機多卡（TPU/GPU）
│ ├── 訓練目標：
│ │ └── Qwen：自回歸預測下一個詞
│ │ └── BERT：掩碼語言模型（MLM）+ 下一句預測（NSP）
│ ├── 微調方式：
│ │ └── Qwen：無需微調，通過 Prompt 使用
│ │ └── BERT：必須微調適配任務
│ └── 資源消耗：
│ └── Qwen：百萬美元級算力
│ └── BERT：千美元級算力
│
├── 6. 優缺點對比
│ ├── Qwen 優點：
│ │ └── 通用性強、零樣本、多任務支持
│ ├── Qwen 缺點：
│ │ └── 成本高、幻覺風險、可控性差
│ ├── BERT 優點：
│ │ └── 高效輕量、易部署、資源友好
│ └── BERT 缺點：
│ └── 生成能力弱、任務局限、泛化差
│
└── 7. 應用場景對比
├── Qwen：
│ └── 場景：智能對話、代碼生成、創作輔助
│ └── 領域：問答系統、教育、多模態交互
│ └── 適用對象：大型企業、云服務提供商
└── BERT：
└── 場景：分類、NER、語義相似度計算
└── 領域：搜索、推薦、金融風控
└── 適用對象：中小企業、科研用戶

1.4 實際業務場景：使用 LLM 還是小模型？

├── 一、總體判斷思路
│ └── 模型選擇需綜合考慮：
│ ├── 業務復雜度
│ ├── 數據規模
│ ├── 算力與預算
│ ├── 技術團隊能力
│ └── 系統可擴展性
│
├── 二、大模型 vs 小模型對比
│
│ ├── 1. 大模型（如 Qwen）優勢：
│ │ ├── 強泛化能力：處理復雜用戶行為、非線性關系
│ │ ├── 并行處理能力強：適用于大規模、實時請求
│ │ ├── 深度特征學習：自動提取高階特征，無需人工特工
│ │ └── 持續在線學習：實時優化，動態適應用戶行為
│ │
│ ├── 2. 大模型劣勢：
│ │ ├── 高資源消耗：對算力和存儲需求高
│ │ ├── 架構復雜：運維成本高，需專業團隊
│ │ ├── 可解釋性差：為“黑盒”，難以輸出推薦依據
│ │ └── 有過擬合風險：小數據場景下表現不穩
│ │
│ ├── 3. 多個小模型優勢：
│ │ ├── 高資源效率：可在本地、邊緣設備部署
│ │ ├── 靈活性強：支持按人群/場景定制化建模
│ │ ├── 易維護：可單獨更新、替換，迭代快
│ │ ├── 高可解釋性：推薦邏輯清晰、透明
│ │ └── 容錯性強：部分模型出錯不會影響整體系統
│ │
│ └── 4. 多個小模型劣勢：
│ ├── 分布式協調成本高：統一管理和部署復雜
│ ├── 表達能力有限：處理復雜關系效果不如大模型
│ ├── 模型一致性挑戰：協同邏輯難統一
│ └── 多模型訓練耗時大：需分別調優與測試
│
├── 三、業務場景模型選擇建議
│
│ ├── 1. 適合使用大模型的場景：
│ │ ├── 推薦邏輯復雜：如涉及多行為融合、高階特征
│ │ ├── 實時大規模數據處理：如億級用戶、海量內容
│ │ └── 深度個性化推薦：如長文本生成、對話推薦
│ │
│ ├── 2. 適合使用多個小模型的場景：
│ │ ├── 細粒度差異化推薦：如不同地域、用戶群、品類
│ │ ├── 資源受限部署：如邊緣端、本地服務器
│ │ ├── 快速試錯與更新：如敏捷產品迭代
│ │ └── 需高透明度：如政策監管、金融、醫療
│ │
│ └── 3. 混合部署策略：
│ ├── 大模型用于全局建模與特征抽取
│ ├── 小模型負責具體業務模塊細化推薦
│ └── 兼顧性能 + 靈活性，是常見最佳實踐
│
├── 四、模型選擇的指導因素
│
│ ├── 1. 業務需求導向：
│ │ ├── 若追求高精度、高復雜度 → 大模型優先
│ │ └── 若需求靈活、響應迅速、可解釋性強 → 小模型優先
│
│ ├── 2. 算力與預算約束：
│ │ ├── 有 GPU 集群/預算充足 → 支持大模型部署
│ │ └── 算力有限 → 多小模型更劃算
│
│ ├── 3. 團隊技術能力：
│ │ ├── 有大模型訓練和運維經驗 → 可支持大模型上線
│ │ └── 技術能力有限 → 小模型可快速落地
│
│ ├── 4. 系統擴展性與靈活性：
│ │ ├── 需快速擴展、組件可替換 → 小模型易模塊化部署
│ │ └── 統一架構管理，追求極致性能 → 可集中大模型部署
│
│ ├── 5. 可解釋性要求：
│ │ └── 有合規要求或需用戶信任的業務 → 小模型占優
│
│ └── 6. 模型維護與更新頻率：
│ ├── 高頻迭代業務 → 小模型維護效率高
│ └── 低頻更新場景 → 大模型穩定性更強

1.5 “零樣本”和“少樣本”學習

├── 一、基本定義
│
│ ├── 零樣本學習（Zero-Shot Learning）
│ │ └── 模型在訓練中從未見過目標任務/類別，也能正確識別與推理。
│ │
│ └── 少樣本學習（Few-Shot Learning）
│ └── 模型僅在極少量示例支持下完成學習與推理任務。

├── 二、零樣本學習詳解
│
│ ├── 核心能力
│ │ ├── 強泛化能力
│ │ ├── 上下文理解能力
│ │ └── 概念關系推理能力
│ │
│ ├── 示例
│ │ └── ChatGPT 未接受過某類問題訓練，但仍能回答新技術/新事件問題。
│ │
│ └── 實現基礎
│ └── 基于大規模預訓練模型 + 廣泛知識學習 + 語言模式抽象能力

├── 三、少樣本學習詳解
│
│ ├── 場景特點
│ │ └── 每個類別僅提供少量樣本，模型需快速學習并進行預測。
│ │
│ ├── 示例
│ │ └── 用戶在提示中給出 2~3 個例子，模型學會如何生成對應輸出。
│ │
│ ├── 主要技術路徑
│ │ ├── 1. 數據增強（Data Augmentation）
│ │ │ └── 合成或變換樣本，擴充訓練數據。
│ │ ├── 2. 遷移學習（Transfer Learning）
│ │ │ └── 使用預訓練模型參數，快速適配新任務。
│ │ └── 3. 原型網絡（Prototypical Networks）
│ │ └── 基于類別原型計算樣本距離進行分類。
│ │
│ └── 應用說明
│ └── ChatGPT 可通過少量對話示例（Prompt）進行任務適配和執行。

├── 四、對比總結
│
│ ├── 零樣本學習：
│ │ └── 不依賴任何任務特定數據，完全靠已有知識推理。
│ └── 少樣本學習：
│ └── 依賴極少量任務樣本，需快速抽象出規律。

└── 五、應用價值（在 LLM 中的體現）
├── 提高模型靈活性與泛化能力
├── 降低標注數據依賴
├── 支持快速任務切換與指令理解
└── 支持Prompt Engineering、類任務式對話設計

1.6 大模型的涌現能力（Emergent Abilities）

├── 一、定義
│ └── 指大型預訓練模型在特定輸入下，表現出超出其原始訓練目標或設計預期的復雜行為。
│ └── 這些能力通常是自發出現的，并非顯式編碼或人為指定。

├── 二、關鍵特性與表現
│
│ ├── a. 規模依賴性
│ │ └── 隨著模型參數量和訓練數據規模的增加，模型能力提升；
│ │ 在規模達到某一“臨界點”后，開始展現新能力。
│
│ ├── b. 復雜任務處理
│ │ └── 能處理邏輯推理、編程、復雜對話等未直接訓練過的任務；
│ │ 如 LLM 能生成代碼、寫論文、推理結論等。
│
│ ├── c. 少樣本學習能力
│ │ └── 在只有少量示例的前提下，快速學習新任務；
│ │ 通過上下文和提示理解新任務而無需重訓練。
│
│ ├── d. 行為多樣性與適應性
│ │ └── 相同模型在不同任務/語境下表現出不同能力；
│ │ 能根據用戶上下文動態調整行為。
│
│ └── e. 研究與應用價值
│ ├── 成為 AI 研究的熱點方向；
│ ├── 被廣泛用于自然語言處理、代碼生成、多模態交互等；
│ └── 挖掘與引導“潛在能力”成為關鍵研究目標。

1.7 大模型遷移學習（Transfer Learning）

├── 一、定義
│ └── 將源領域中學到的知識遷移到目標領域中的技術；
│ 利用已有模型參數，減少目標任務對大數據和訓練時間的依賴。

├── 二、應用場景
│ └── 數據不足或訓練成本高時使用；
│ 通過已有模型進行微調，提高效率與性能。

├── 三、大模型中的遷移學習范式
│
│ ├── 1. 預訓練（Pre-training）
│ │ ├── 在大規模通用語料（如互聯網文本）上訓練；
│ │ └── 獲得具備廣泛語言理解能力的通用模型。
│ │
│ ├── 2. 微調（Fine-tuning）
│ │ ├── 在特定任務的小數據集上進一步訓練；
│ │ └── 使預訓練模型適配具體任務。
│ │
│ └── 說明：
│ ├── 預訓練需海量數據和高昂成本；
│ ├── 通常不從零訓練；
│ └── 使用公開預訓練模型 + 微調 → 成為主流做法。

├── 四、優點總結
│
│ ├── 1. 節省計算資源
│ │ └── 避免從頭訓練，節約訓練時間與算力成本。
│
│ ├── 2. 降低數據需求
│ │ └── 即使目標任務樣本少，也能取得好效果。
│
│ └── 3. 適應性強
│ └── 快速適配新任務、新領域，靈活性好。

1.8 文本輸入到大模型的全過程（以 Transformer 架構文本摘要為例）

文本輸入全過程
├── 1. 輸入文本預處理
│ ├── 分詞：將長句拆分為詞/子詞/Token
│ └── 清洗：去除標點、停用詞等無效信息
│
├── 2. 向量化處理
│ └── 使用詞嵌入模型（如 Word2Vec、BERT Embedding）
│ 將每個詞/Token 轉換為對應的向量表示
│
├── 3. 模型輸入層
│ └── 將序列化向量輸入至 Transformer 的第 1 層
│ 啟動編碼過程
│
├── 4. 模型主體處理（Transformer 編碼器/解碼器）
│ ├── 自注意力機制：
│ │ └── 學習詞與詞之間的依賴關系（支持長距離建模）
│ ├── 前饋神經網絡：
│ │ └── 提供非線性變換能力
│ └── 殘差連接 & LayerNorm：
│ └── 防止梯度消失，穩定訓練
│
├── 5. 輸出層處理
│ └── 輸出潛在表示 → Softmax → 概率分布
│ （預測下一個最可能的詞）
│
├── 6. 文本生成與后處理
│ ├── 詞生成：
│ │ └── 根據概率選擇 Token（如貪心/采樣/Beam Search）
│ └── 后處理：
│ ├── 拼接句子、消除冗余
│ └── 語義優化，確保摘要自然流暢
│
└── 7. 性能監控與優化
├── 硬件監控：
│ └── 實時監測 GPU / CPU / 顯存使用率
└── 模型優化：
└── 微調參數、改進推理速度、提升摘要質量

2. Encoder-only & Decoder-only & Encoder-Decoder

2.1 架構類型總覽

├── Encoder-Only
│ ├── 用途：理解任務（文本分類、問答、信息抽取）
│ ├── 注意力方向：雙向
│ ├── 代表模型：BERT、RoBERTa
│ ├── 訓練目標：MLM（掩碼語言建模）、NSP
│ ├── 優點：語義理解強
│ └── 缺點：不適合生成任務

├── Decoder-Only
│ ├── 用途：生成任務（文本生成、對話、續寫）
│ ├── 注意力方向：單向（因果掩碼）
│ ├── 代表模型：GPT-3、LLaMA、PaLM
│ ├── 訓練目標：因果語言建模
│ ├── 優點：生成流暢，Few-shot能力強
│ └── 缺點：上下文單向，可能偏離主題

└── Encoder-Decoder
├── 用途：輸入-輸出映射任務（翻譯、摘要）
├── 注意力方向：編碼器雙向，解碼器單向
├── 代表模型：T5、BART、原始Transformer
├── 訓練目標：去噪建模、序列轉換
├── 優點：處理輸入/輸出異構結構
└── 缺點：資源消耗大，訓練復雜

───────────────────────────────

2.2 Encoder-Only 架構詳解
├── 特點：僅使用編碼器，對輸入文本進行上下文建模
├── 典型模型：
│ ├── BERT：首個雙向預訓練模型，通過掩碼語言建模（MLM）學習上下文表征。
│ ├── RoBERTa：BERT 的優化版，更大數據量、更長訓練步長。
│ └── ALBERT：參數共享減少計算量，適合資源受限場景。
└── 應用場景：
├── 文本分類:根據輸?的?本進?分類（如情感分析、新聞分類）。
├── 抽取式問答:通過輸?問題和上下?，模型從上下?中抽取出準確的答案。
└── 命名實體識別（NER）:標注?本中的特定實體（如?名、地名等）。

2.3 Decoder-Only 架構詳解
├── 特點：僅使用解碼器，自回歸式地逐詞生成文本
├── 典型模型：
│ ├── GPT-3 / GPT-4：通過海量數據預訓練，Few-Shot 學習能力強
│ ├── PaLM：谷歌大規模模型，強調推理和代碼生成能力。
│ └── LLaMA：Meta 開源模型，參數量高效。
└── 應用場景：
├── 文本生成:根據提??成?段連貫的?本（如對話?成、?動寫作）。
├── 對話系統:逐步?成?然語?響應，回答?戶提問。
└── 翻譯（逐詞生成類）:逐詞?成?標語?的翻譯結果。

2.4 Encoder-Decoder 架構詳解
├── 特點：編碼器處理輸入 → 解碼器生成輸出
├── 典型模型：
│ ├── T5：將任務統一為文本到文本格式，適用翻譯、摘要等。
│ ├── BART：結合雙向編碼器與自回歸解碼器，擅長文本重構任務。
│ └── Transformer：首個完全基于注意力的機器翻譯模型。
└── 應用場景：
├── 機器翻譯:將?個句?從源語?翻譯成?標語?，編碼器負責理解源語?句?，解碼器負責?成?標語?句?。
├── 文本摘要:編碼器處理??本，解碼器?成簡短摘要。
└── 條件生成任務（如自動問答）:如?本填空或根據輸??成對應的完整?本。

───────────────────────────────

2.5 主要區別總結

├── Encoder-Only：語義理解任務
├── Decoder-Only：文本生成任務
└── Encoder-Decoder：輸入映射輸出任務

2.6 為什么大模型偏好 Decoder-Only？

├── 1. 架構更簡單：省去雙結構，只聚焦生成
├── 2. 自回歸機制：適合逐步生成文本
├── 3. 輸入靈活性：適配任意 prompt，條件控制自由
├── 4. 大規模預訓練：學習豐富語言知識，可遷移微調
└── 5. 長文本處理佳：可保持上下文連貫性

3.LLM模型

3.1 Gemma-3 模型

Gemma-3（第三代谷歌開源大模型）
├── 一、背景簡介
│ ├── 來自谷歌，發布于“巴黎開發者日”
│ ├── 是 Gemma 系列第三代，支持圖文多模態（文字+圖像）
│ └── 最重要亮點：1塊GPU/TPU 就能運行（對普通開發者更友好）

├── 二、核心參數規格（共4個版本）
│ ├── 1B：輕量模型，適合手機、小設備
│ ├── 4B：適合一般任務，輕量高效
│ ├── 12B：能力較強，支持復雜任務
│ └── 27B：旗艦模型，精度最強，能和Llama、GPT對比

├── 三、關鍵創新點（重點）
│ ├── ? 單設備運行強：跑得快，還省資源
│ ├── ? 多語言支持：支持140種語言
│ ├── ? 支持圖文視頻理解：不僅能讀文字，還能“看圖”
│ ├── ? 超長記憶力：一次處理 128K token 的超長文本（上下文窗口大）
│ ├── ? 函數調用支持：適合做 AI 助手和自動化
│ └── ? 量化優化：官方提供小模型版本，壓縮后仍保持高精度

├── 四、訓練數據規模（模型越大，訓練數據越多）
│ ├── 1B → 使用 2 萬億 token 訓練
│ ├── 4B → 使用 4T token
│ ├── 12B → 使用 12T token
│ └── 27B → 使用 14T token（T = 萬億）

├── 五、模型結構說明
│
│ ├── 1. 主體架構（語言模型 LLM）
│ │ ├── 解碼器 Transformer 架構（同 GPT 類）
│ │ ├── 技術點：
│ │ │ ├── GQA（分組查詢注意力）→ 更高效的注意力機制
│ │ │ ├── RMSNorm 歸一化（提升穩定性）
│ │ │ ├── 局部+全局注意力交替排列（5層局部+1層全局）
│ │ │ ├── RoPE 頻率提高到 1M（更好處理長文本）
│ │ │ └── 位置插值技術 → 保證對長文本理解效果
│
│ └── 2. 多模態部分（視覺編碼器）
│ ├── 使用 SigLIP（一個視覺Transformer）
│ ├── 支持圖片 896x896 像素輸入
│ └── 能處理圖像識別、圖文理解任務（如識別圖中元素）

├── 六、訓練方法（模型如何“學會”的）
│ ├── Pre-train + Post-train 兩階段訓練
│ ├── 核心訓練技巧：
│ │ ├── 模型蒸餾：學“大模型”的知識
│ │ ├── 強化學習調優（提升理解、遵循指令能力）
│ │ └── 三種 RL 技術：
│ │ ├── RLHF：基于人類反饋訓練
│ │ ├── RLMF：增強數學能力
│ │ └── RLEF：增強編程能力

├── 七、評估效果（表現好不好）
│ ├── 測試平臺：Chatbot Arena（模型排行榜）
│ ├── 結果：
│ │ ├── Gemma-3 27B 超過 LLaMA-3-70B、DeepSeek-V3 等主流模型
│ │ └── 在數學、代碼、對話能力等任務上均表現優秀
│ └── 特別說明：27B 模型只用單 GPU 就能跑 → 非常實用

3.2 DeepSeek 系列

├── 3.2.1 DeepSeek-V3（超大模型、智能強）
│
│ ├── 📌 簡介
│ │ ├── 671B 超大參數量 → 意味著“超級聰明”
│ │ ├── 每個 token 激活 37B 參數 → MoE 架構（部分專家工作）
│ │ └── 屬于最強開源大模型之一（性能強但運行高效）
│
│ ├── 📌 核心技術亮點
│ │ ├── ① MLA：多頭潛在注意力（Multi-head Latent Attention）
│ │ │ └── 優化注意力機制，減少顯存占用但保持效果
│ │ ├── ② DeepSeekMoE 架構（混合專家）
│ │ │ └── 每次預測只用少數專家 → 省算力
│ │ ├── ③ 無輔助損失的負載均衡（Free Load Balance）
│ │ │ └── 自動平衡每個專家被使用頻率
│ │ └── ④ 多 Token 預測（Multi-token Prediction, MTP）
│ │ └── 一次預測多個詞 → 提高推理速度
│
│ ├── 🔧 MLA 原理（理解優化注意力）
│ │ ├── 1. 把輸入壓縮為潛在向量（減少KV緩存）
│ │ ├── 2. 用矩陣投影生成壓縮版 key/value
│ │ ├── 3. 使用 RoPE 做位置編碼
│ │ └── 4. softmax 權重生成注意力輸出
│ │ ? 優點：顯存占用少，速度快，性能保持
│
│ ├── 🔧 DeepSeekMoE 原理（專家網絡）
│ │ ├── 分為共享專家 + 路由專家（讓不同專家負責不同內容）
│ │ ├── 使用門控機制激活最合適的專家
│ │ └── 自動平衡：通過調整偏置項，保證專家不被“偏心”使用
│
│ └── 🔧 MTP 原理（一次預測多個詞）
│ ├── 每個位置不只預測一個詞，而是多個詞
│ ├── 提前生成多個詞向量（加快推理）
│ └── 每個模塊都有共享層 + Transformer + 投影層

├── 3.2.2 DeepSeek-R1 INT8（輕量部署版）
│
│ ├── 📌 背景
│ │ ├── 原版使用 FP8 精度 → 只支持高端 GPU（如 Hopper 架構）
│ │ ├── INT8 精度 → 主流 GPU 也能跑（如 A100）
│ │ └── INT8 推理快、顯存少、部署更容易
│
│ ├── 📌 精度基本無損（測試準確率保持住）
│ │ ├── GSM8K：數學任務
│ │ └── MMLU：多領域知識問答
│
│ ├── 🔧 INT8 量化原理
│ │ ├── 將 FP16 高精度 → 轉為 INT8 低精度
│ │ ├── 通過縮放 + 反縮放，盡量減少信息丟失
│ │ └── 優點：占用空間少、計算快
│
│ ├── ? 兩種量化方式（實際應用）
│ │
│ │ ├── 1?? 分塊量化（Block-wise Quant）
│ │ │ ├── 把矩陣按小塊切 → 精度高
│ │ │ └── 推理快 + 精度好（推薦）
│ │
│ │ └── 2?? 通道量化（Channel-wise Quant）
│ │ ├── 把每列為一個通道
│ │ └── 極致加速，但精度略低
│
│ ├── 🧪 精度評估結果
│ │ ├── INT8 分塊量化 ≈ 原始精度
│ │ └── 通道量化 → 略有波動，但仍可用
│
│ └── 🚀 吞吐測試（推理速度對比）
│ ├── 在 A100 上測試：
│ │ ├── BF16 原始模型 → 基線速度
│ │ ├── INT8（Block） → 提升 33%
│ │ └── INT8（Channel）→ 提升 50%
│ └── ? 減少顯存，提升速度，適合大規模部署

└── ? 小白總結
👉 DeepSeek-V3：超大聰明模型，注意力優化，專家機制聰明分工，生成快。
👉 DeepSeek-R1 INT8：輕量化版本，適合部署在普通顯卡上，速度快，精度也很好。

3.3 Baichuan 系列大模型

├── 3.3.1 Baichuan 2（兩款主力型號）
│ ├── 版本：
│ │ ├── Baichuan 2-7B（70億參數）
│ │ └── Baichuan 2-13B（130億參數）
│ └── 特點：
│ ├── 使用 2.6 萬億 tokens 訓練，遠超 Baichuan 1
│ └── 在多個基準上性能提升高達 30%

├── 一、訓練數據（🔍 基礎知識來源）
│ ├── 數據來源：
│ │ ├── 40% 互聯網網頁
│ │ ├── 30% 圖書
│ │ ├── 20% 學術論文
│ │ ├── 5% 代碼
│ │ └── 5% 新聞、博客等
│ └── 數據處理：
│ ├── 去重技術：用 LSH（近似哈希）對段落/句子去重
│ └── 清洗 + 打分 → 只留下高質量內容參與訓練

├── 二、模型結構（🏗? 怎么搭的）
│ ├── 1?? 位置編碼
│ │ ├── 7B 模型：RoPE（旋轉位置編碼）
│ │ └── 13B 模型：ALiBi（線性偏移編碼）→ 更強 extrapolation
│ ├── 2?? 激活函數
│ │ └── 使用 SwiGLU（帶門控機制的激活）→ 學習能力增強
│ ├── 3?? 注意力機制
│ │ └── xFormers 內存優化注意力 → 適配 RoPE/ALiBi 高效訓練
│ └── 4?? Normalization 歸一化
│ └── 使用 RMSNorm → 更快更穩，代替傳統 LayerNorm

├── 三、訓練方法（?? 怎么訓的）
│ ├── Optimizer：AdamW（帶正則化，收斂快）
│ ├── 學習率策略：
│ │ ├── 預熱（Warm-up 2000 步）
│ │ └── 余弦退火策略（Cosine Annealing）
│ ├── 精度：BFloat16 混合精度 → 節省內存 & 穩定訓練
│ └── 特殊處理：
│ └── 某些計算用 float32 保精度（例如位置嵌入）

├── 四、對齊訓練（🧠 獎勵+強化）
│ ├── 🎯 獎勵模型（Reward Model, RM）
│ │ ├── 設計了 3 層分類系統（200+種用戶需求）
│ │ ├── 自己生成回答 → 自己打分（保持一致性）
│ │ └── RM 表現 ≈ LLaMA 2 級別
│ └── 🧠 PPO 強化學習優化
│ ├── actor（生成）+ critic（評估）+ RM（獎勵）+ reference（對比）
│ └── 實現對輸出質量的精細調控

├── 五、評估表現（📊 實力對比）
│ ├── 數據集：MMLU、GSM8K、AGIEval、C-Eval 等
│ ├── Baichuan 2-7B：
│ │ └── 普遍超越 Baichuan 1、ChatGLM2、MPT、Falcon 等
│ └── Baichuan 2-13B：
│ └── 多項指標優于 LLaMA 2-13B、Alpaca-Plus、XVerse 等

└── ? 總結（小白理解核心）
👉 模型訓練數據多、干凈、覆蓋面廣
👉 模型結構靈活（RoPE vs ALiBi），兼顧推理速度和效果
👉 支持 RLHF 微調，讓回答更靠譜
👉 評估結果穩居國產開源模型第一梯隊
👉 7B/13B 參數量適中 → 性能強且可部署（兼顧效果和資源）

3.4 Qwen 系列（通義千問）模型演進邏輯圖

└─ Qwen（初代）【基礎通用語言模型】
├─ 語言：中英文為主
├─ 架構：標準Transformer + SwiGLU + RoPE位置編碼
├─ 特點：自然語言理解和生成能力強，支持基本對話與問答
└─ 演進 →

├─ Qwen1.5（過渡版本）
│   ├─ 上下文長度擴展到 32K
│   ├─ 引入新位置編碼機制：NTK-aware RoPE 插值
│   └─ 主要為 Qwen2 做過渡準備
│
├─ Qwen2（第二代通用模型）
│   ├─ 多語言支持拓展：新增27種語言
│   │   └─ 覆蓋：東亞、東南亞、歐洲、中東、南亞主流語言
│   ├─ 上下文能力：最長支持128K上下文（訓練和推理均支持）
│   ├─ 關鍵技術：
│   │   ├─ YARN（Yet Another RoPE Extension）擴展位置編碼
│   │   └─ DualChunkAttention：分塊注意力計算，大幅降低長文本計算開銷
│   └─ 應用場景：文檔理解、長對話、多語言問答等
│
└─ Qwen2.5（第三代核心大模型）├─ 模型規模覆蓋：0.5B、1.5B、3B、7B、14B、32B、72B├─ 預訓練數據：│   ├─ Token總量：18T（大幅提升）│   ├─ 內容分布優化：知識、代碼、數學為重點，社交/娛樂等領域降采樣│   └─ 質量保障：使用 Qwen2-Instruct 做過濾評分├─ 上下文長度升級：│   ├─ 通用模型：最高128K│   └─ Turbo模型：支持最高1M tokens（YARN + 雙塊注意力 + ABF擴頻）├─ 后訓練階段：│   ├─ SFT：兩階段微調（短32K + 長256K混合）│   ├─ DPO/GRPO：強化偏好與群體對齊│   └─ RLHF：分為離線RL（推理/執行）+ 在線RL（真實/有用/安全等維度）├─ 結構化輸出能力：強化對 JSON、表格、長指令結構理解與生成└─ 衍生子模型（專精方向）：│├─ Qwen2.5-Omni【全模態模型】│   ├─ 模態支持：文字 + 圖像 + 音頻 + 視頻（輸入）│   ├─ 輸出形式：文本 + 實時語音│   ├─ 創新架構：│   │   ├─ Thinker-Talker：理解與表達解耦并并行│   │   └─ TMRoPE：時間對齊多模態位置編碼（對齊視聽模態）│   ├─ 場景應用：AI 語音助手、多模態對話、虛擬主播、音視頻問答│   └─ 特點：邊輸入邊輸出、語音穩定自然│├─ Qwen-QwQ【自問自答推理模型】│   ├─ 全稱：Qwen-with-Questions│   ├─ 技術突破：│   │   ├─ Structured Self-Questioning（結構化自我提問）│   │   └─ 兩階段強化學習（數學+編程 → 通用能力）│   ├─ Agent能力：動態調整推理路徑，支持多輪規劃│   └─ 應用場景：數學題推理、復雜指令鏈、AI agent規劃執行│├─ Qwen2.5-Math【數學專用模型】│   ├─ 訓練數據：│   │   ├─ 公開數據集 + 合成題（含解析） + 多語言數學題│   │   └─ 加入 CoT（Chain-of-Thought）鏈式推理格式│   ├─ 推理技術：拒絕采樣 + 獎勵建模選優路徑│   └─ 表現：GSM8K、MATH 等基準任務超越大部分開源模型│├─ Qwen2.5-Code【代碼專用模型】│   ├─ 語言覆蓋：支持40+編程語言（Python、C++、Java、JS等）│   ├─ 訓練流程：│   │   ├─ 精選代碼預訓練 + 指令微調（Code-Instruct）│   │   └─ 多語言沙箱環境靜態/動態測試輔助質量提升│   ├─ 輸出評估：單元測試驗證+代碼執行結果過濾│   └─ 表現：HumanEval、MBPP 等代碼基準任務表現優異│└─ Qwen2.5-Turbo / Qwen2.5-Plus【通用強化模型】├─ Qwen2.5-Turbo：│   ├─ 超長上下文處理專家（最高1M tokens）│   ├─ ABF（頻率擴展）+ 分階段長序列訓練│   └─ 場景：文檔總結、合同分析、歷史長對話跟蹤└─ Qwen2.5-Plus：├─ 平衡版高精度模型（性能接近GPT-4）├─ 多領域泛化能力更強：數學/推理/翻譯等└─ 表現優異于MMLU/GSM8K/HumanEval等任務上

3.5 LLAMA 系列

🔹 3.5.1 LLAMA 3.1 —— 新一代升級

LLAMA 3.1
│
├──? 🚀 性能大幅提升  
│      → 比以前的模型更聰明，甚至能和GPT-4比一比！
│
├──? 🔁 三階段預訓練流程  
│      ├─ 初始預訓練 → 模型打基礎，學習基本語言知識  
│      ├─ 長文本預訓練 → 學習如何理解和處理長文檔  
│      └─ 退火訓練 → 像“回爐重造”，讓模型更加穩健
│
├──? 🧹 數據質量優化  
│      ├─ 行級去重 → 刪掉重復的句子，保證多樣性  
│      ├─ 多層次過濾 → 清理低質量內容，比如錯別字、亂碼  
│      └─ 引入高質量數據 → 加入優質文章、書籍，補充知識
│
├──? 🧠 訓練策略升級  
│      ├─ 拒絕采樣 → 去掉模型胡說八道的回答  
│      ├─ SFT（監督微調）→ 模型學習怎么更像“助理”  
│      └─ DPO（偏好優化）→ 讓模型更懂“人類喜好”
│
├──? ?? 網絡結構升級  
│      ├─ SwiGLU 激活函數 → 增強模型理解復雜問題的能力  
│      ├─ RoPE 位置編碼 → 讓模型知道“詞語的順序”  
│      ├─ RMSNorm 歸一化 → 保證訓練過程穩定、不崩  
│      └─ 殘差連接 → 避免“越學越糊涂”，保持信息流暢
│
└──? 🎯 特定能力增強  → 專門優化代碼生成、多語言處理能力，適配不同應用

🔹 3.5.2 LLAMA 系列總覽

LLAMA 總體特征
│
├──? 🏗 模型架構：  
│      → 基于 Transformer 構建的框架，通用而強大
│
├──? 📏 參數規模多樣化  
│      ├─ 7B → 適合中小規模  
│      ├─ 13B / 30B → 平衡性能和成本  
│      └─ 65B → 需要強大硬件，性能最強
│
├──? 📂 開源可用  
│      → 任何人都可以下載和使用，適合研究與開發
│
├──? 🧠 訓練數據豐富  
│      → 使用各種各樣的文本數據訓練，包括網頁、書籍、對話等
│
├──? 🔁 網絡結構優化組件  
│      ├─ RoPE（旋轉位置編碼）→ 更好理解詞語順序  
│      ├─ SwiGLU 激活 → 讓模型“反應更靈活”  
│      ├─ RMSNorm → 穩定模型訓練過程
│
├──? 🛡 梯度問題應對措施  
│      ├─ 殘差連接 → 保留關鍵信息  
│      ├─ 歸一化 → 防止“計算爆炸”或“沒信號”  
│      ├─ 合理激活函數 → 避免數學問題導致“腦抽”
│      └─ 自適應優化器（Adam）→ 像“教練”一樣靈活調整訓練節奏

🔹 3.5.2.1 如何提升 LLAMA 的中文能力（重點！）

LLAMA 中文增強
│
├──? ? 為什么LLAMA原生中文不好？  
│      ├─ 訓練數據中文太少 → 英文占比高達99%  
│      ├─ 詞表不適合中文 → 太多漢字被拆開處理  
│      ├─ 沒訓練中文任務 → 比如古詩、對聯、問診都沒練過
│
├──? ? 解決方案一：繼續預訓練  
│      → 用大批高質量中文數據再“訓練一遍”  
│      → 比如補上新聞、百科、法律、醫療內容等
│
├──? ? 解決方案二：擴充詞表  
│      → 加入常用漢字、中文詞語，解決分詞問題  
│      → 讓模型“認得更多中文詞”
│
├──? ? 解決方案三：指令微調  
│      → 用中文指令數據（如：寫一首詩、解釋法規）來訓練  
│      → 模型會更懂中文使用習慣
│
├──? ? 解決方案四：混合專家（MoE）  
│      → 中文專家專門處理中文，英文專家專門處理英文  
│      → 根據輸入自動選擇最懂的“老師”
│
└──? ? 解決方案五：人類反饋（RLHF）  → 給模型反饋什么回答更符合中國用戶的習慣  → 不斷優化回答質量，避免“中式英文”

3.6 T5：Text-to-Text Transfer Transformer

↓
核心理念：所有 NLP 任務都轉成 “文本 → 文本”
↓
任務示例（統一格式）：
├── 翻譯：translate English to German: That is good. → Das ist gut.
├── 分類：cola sentence: The course is jumping well. → Not acceptable
├── 相似度：stsb sentence1: … sentence2: … → 3.8
├── 摘要：summarize: … → 精簡內容
↓
🌟 創新點
├── 1. 文本到文本統一框架（每個任務都是一個文本生成）
├── 2. Span Corruption預訓練（掩碼一整段連續文本）
├── 3. 架構系統探索（測試各種結構選擇，找到最優方案）
↓
📚 訓練數據
├── 預訓練數據：C4英文網頁清洗大語料（750GB）
└── 微調數據：GLUE、CNN/DailyMail、WMT等多種任務集
↓
🧠 模型結構（Encoder-Decoder）
├── 相對位置編碼（不是用固定位置，而是學出來的位置偏移）
├── LayerNorm放在殘差連接前（提高穩定性）
├── FFN使用GELU激活（更平滑更強）
└── 多個模型版本（從小到大）
├── T5-small：60M參數
├── T5-base：220M參數
├── T5-large：770M參數
├── T5-3B：3B參數
↓
?? 訓練方法
├── 預訓練階段：
│ ├── 使用 span corruption 掩碼訓練
│ ├── 優化器：AdaFactor（顯存省）
│ └── 大批量長時間訓練（1M 步，34B tokens）
└── 微調階段：
├── 每個任務前面加 prefix（任務前綴提示）
└── 多任務混合訓練（翻譯、分類、問答等一起訓）
↓
? 優點
├── 一個模型支持多種任務（統一簡潔）
├── 泛化能力強（小樣本也能學得不錯）
└── 任務前綴讓控制更清晰（可解釋）
↓
?? 缺點
├── Encoder-Decoder結構導致生成速度慢（不如GPT快）
└── 模型越大越占資源（如T5-3B需要很多顯存）
↓
📌 應用場景
├── 文本生成（摘要、翻譯、對話）
├── 序列標注（命名實體識別）
├── 問答系統（開放式回答）
└── 數據增強（合成訓練樣本）
↓
🔧 改進方向
├── mT5：支持101種語言（多語種）
├── T5-UL2：混合預訓練目標（更強大）
├── 蒸餾壓縮：用大模型教小模型（如Distilled-T5）
└── 領域適配：在醫學、法律等數據上繼續預訓練
↓
💻 實現代碼（用Transformers一行就能跑！）
├── 加載模型 tokenizer & model
├── 輸入“任務前綴+文本” → 編碼成token
├── model.generate() 生成 → decode() 得出結果
└── 支持自定義訓練循環 + 優化器微調