【LLM系列】1.大模型簡介

1. 基礎

1.1 如何權衡模型的復雜度和性能?

├── a. 模型架構選擇
│ ├── 簡化架構
│ │ └── 選擇較小的網絡層數和寬度,降低復雜度;
│ │ 可使用高性能基礎模型如 Transformers 作為起點,根據需求縮放模型。
│ └── 剪枝與量化
│ └── 通過剪枝去除不重要參數、量化降低精度,在不顯著影響性能的前提下降低復雜度。

├── b. 正則化技術
│ └── 使用 L1/L2 正則化、Dropout、數據增強等手段控制過擬合,
│ 在模型復雜度較低時仍保持良好泛化能力。

├── c. 超參數優化
│ └── 使用網格搜索、隨機搜索等方法優化學習率、批量大小、優化器等超參數,
│ 以提升訓練效果和模型性能。

├── d. 模型蒸餾
│ └── 利用大模型訓練出小模型,讓小模型學習大模型的知識,
│ 實現“以小博大”的性能提升。

└── e. 數據集規模與質量
└── 高質量的數據和足夠的數據量可以提高模型表現,
進而允許使用更簡單的模型結構來達到較高性能。

1.2 大模型的 Scaling Law(擴展法則)

├── 定義:
│ └── 一種基于實驗總結的經驗規律,
│ 用于指導模型規模、數據量和計算量的合理配置。

├── 作用:
│ └── 在有限計算資源下,
│ 找到性能最優的模型規模與數據量組合。

├── 關鍵內容:
│ ├── 1. 模型規模與性能
│ │ └── 隨著參數數量增加,模型性能通常提升,
│ │ 更大的模型能學習更復雜的數據特征。
│ │
│ ├── 2. 數據量與性能
│ │ └── 提供更多訓練數據通常能提升模型性能,
│ │ 對小模型來說影響尤為顯著。
│ │
│ ├── 3. 計算資源與性能
│ │ └── 投入更多計算資源(計算能力、訓練時間),
│ │ 通常帶來更好的模型性能。
│ │
│ └── 4. 表現的規律性
│ └── 性能提升常呈現冪律關系:
│ 如損失隨參數數量、數據量呈冪函數下降,
│ 而非線性關系。
在這里插入圖片描述

1.3 簡述大模型,與傳統模型的區別

├── 簡介
│ ├── Qwen(大模型):
│ │ └── 追求通用性與生成能力,依賴海量數據和算力,適用于復雜開放任務
│ └── BERT(小模型):
│ └── 面向特定任務高效微調,資源友好,擅長結構化理解任務

├── 與傳統模型的主要區別
│ ├── 1. 模型規模:
│ │ └── 大模型參數量遠超傳統模型,結構更復雜
│ ├── 2. 數據需求:
│ │ └── 大模型需要大量訓練數據以避免過擬合,傳統模型數據需求小
│ ├── 3. 表現能力:
│ │ └── 大模型具有更強的泛化與表現力,適合復雜任務
│ ├── 4. 計算資源:
│ │ └── 大模型需大量計算資源與訓練時間,傳統模型計算成本低
│ └── 5. 遷移學習:
│ └── 大模型可高效微調遷移,小模型通常需為任務重新訓練

├── 1. 背景維度對比
│ ├── 提出時間:Qwen (2023) vs BERT (2018)
│ ├── 背景目標:
│ │ └── Qwen:生成、推理、多模態等通用任務
│ │ └── BERT:自然語言理解任務(分類、NER等)
│ └── 技術趨勢:
│ └── Qwen:參數爆炸、追求零樣本能力
│ └── BERT:預訓練 + 微調范式,Transformer 早期應用

├── 2. 創新點對比
│ ├── 核心技術:
│ │ └── Qwen:千億參數、多模態輸入
│ │ └── BERT:雙向 Transformer,MLM
│ ├── 訓練方法:
│ │ └── Qwen:稀疏注意力、混合精度、分布式優化
│ │ └── BERT:掩碼語言模型(MLM)+ 下一句預測(NSP)
│ └── 應用擴展:
│ └── Qwen:零/少樣本、多輪對話、代碼生成
│ └── BERT:長依賴建模、下游微調

├── 3. 訓練數據對比
│ ├── 數據規模:
│ │ └── Qwen:數十 TB(多語言、多模態)
│ │ └── BERT:數十 GB(英文文本為主)
│ ├── 數據多樣性:
│ │ └── Qwen:文本 + 結構化數據
│ │ └── BERT:英文文本,單語言
│ └── 數據清洗:
│ └── Qwen:復雜質量過濾、多語言對齊
│ └── BERT:規則式清洗

├── 4. 模型結構對比
│ ├── 參數量:
│ │ └── Qwen:千億級(如 Qwen-72B)
│ │ └── BERT:億級(BERT-base: 110M)
│ ├── 層數:
│ │ └── Qwen:80+ 層
│ │ └── BERT:12 層
│ ├── 注意力機制:
│ │ └── Qwen:稀疏注意力
│ │ └── BERT:標準多頭注意力(12頭)
│ └── 結構設計:
│ └── Qwen:Decoder-Only(自回歸)
│ └── BERT:Encoder-Only(雙向上下文)

├── 5. 訓練方法對比
│ ├── 預訓練方式:
│ │ └── Qwen:大規模分布式(千卡)
│ │ └── BERT:單機多卡(TPU/GPU)
│ ├── 訓練目標:
│ │ └── Qwen:自回歸預測下一個詞
│ │ └── BERT:掩碼語言模型(MLM)+ 下一句預測(NSP)
│ ├── 微調方式:
│ │ └── Qwen:無需微調,通過 Prompt 使用
│ │ └── BERT:必須微調適配任務
│ └── 資源消耗:
│ └── Qwen:百萬美元級算力
│ └── BERT:千美元級算力

├── 6. 優缺點對比
│ ├── Qwen 優點:
│ │ └── 通用性強、零樣本、多任務支持
│ ├── Qwen 缺點:
│ │ └── 成本高、幻覺風險、可控性差
│ ├── BERT 優點:
│ │ └── 高效輕量、易部署、資源友好
│ └── BERT 缺點:
│ └── 生成能力弱、任務局限、泛化差

└── 7. 應用場景對比
├── Qwen:
│ └── 場景:智能對話、代碼生成、創作輔助
│ └── 領域:問答系統、教育、多模態交互
│ └── 適用對象:大型企業、云服務提供商
└── BERT:
└── 場景:分類、NER、語義相似度計算
└── 領域:搜索、推薦、金融風控
└── 適用對象:中小企業、科研用戶

1.4 實際業務場景:使用 LLM 還是小模型?

├── 一、總體判斷思路
│ └── 模型選擇需綜合考慮:
│ ├── 業務復雜度
│ ├── 數據規模
│ ├── 算力與預算
│ ├── 技術團隊能力
│ └── 系統可擴展性

├── 二、大模型 vs 小模型對比

│ ├── 1. 大模型(如 Qwen)優勢:
│ │ ├── 強泛化能力:處理復雜用戶行為、非線性關系
│ │ ├── 并行處理能力強:適用于大規模、實時請求
│ │ ├── 深度特征學習:自動提取高階特征,無需人工特工
│ │ └── 持續在線學習:實時優化,動態適應用戶行為
│ │
│ ├── 2. 大模型劣勢:
│ │ ├── 高資源消耗:對算力和存儲需求高
│ │ ├── 架構復雜:運維成本高,需專業團隊
│ │ ├── 可解釋性差:為“黑盒”,難以輸出推薦依據
│ │ └── 有過擬合風險:小數據場景下表現不穩
│ │
│ ├── 3. 多個小模型優勢:
│ │ ├── 高資源效率:可在本地、邊緣設備部署
│ │ ├── 靈活性強:支持按人群/場景定制化建模
│ │ ├── 易維護:可單獨更新、替換,迭代快
│ │ ├── 高可解釋性:推薦邏輯清晰、透明
│ │ └── 容錯性強:部分模型出錯不會影響整體系統
│ │
│ └── 4. 多個小模型劣勢:
│ ├── 分布式協調成本高:統一管理和部署復雜
│ ├── 表達能力有限:處理復雜關系效果不如大模型
│ ├── 模型一致性挑戰:協同邏輯難統一
│ └── 多模型訓練耗時大:需分別調優與測試

├── 三、業務場景模型選擇建議

│ ├── 1. 適合使用大模型的場景:
│ │ ├── 推薦邏輯復雜:如涉及多行為融合、高階特征
│ │ ├── 實時大規模數據處理:如億級用戶、海量內容
│ │ └── 深度個性化推薦:如長文本生成、對話推薦
│ │
│ ├── 2. 適合使用多個小模型的場景:
│ │ ├── 細粒度差異化推薦:如不同地域、用戶群、品類
│ │ ├── 資源受限部署:如邊緣端、本地服務器
│ │ ├── 快速試錯與更新:如敏捷產品迭代
│ │ └── 需高透明度:如政策監管、金融、醫療
│ │
│ └── 3. 混合部署策略:
│ ├── 大模型用于全局建模與特征抽取
│ ├── 小模型負責具體業務模塊細化推薦
│ └── 兼顧性能 + 靈活性,是常見最佳實踐

├── 四、模型選擇的指導因素

│ ├── 1. 業務需求導向:
│ │ ├── 若追求高精度、高復雜度 → 大模型優先
│ │ └── 若需求靈活、響應迅速、可解釋性強 → 小模型優先

│ ├── 2. 算力與預算約束:
│ │ ├── 有 GPU 集群/預算充足 → 支持大模型部署
│ │ └── 算力有限 → 多小模型更劃算

│ ├── 3. 團隊技術能力:
│ │ ├── 有大模型訓練和運維經驗 → 可支持大模型上線
│ │ └── 技術能力有限 → 小模型可快速落地

│ ├── 4. 系統擴展性與靈活性:
│ │ ├── 需快速擴展、組件可替換 → 小模型易模塊化部署
│ │ └── 統一架構管理,追求極致性能 → 可集中大模型部署

│ ├── 5. 可解釋性要求:
│ │ └── 有合規要求或需用戶信任的業務 → 小模型占優

│ └── 6. 模型維護與更新頻率:
│ ├── 高頻迭代業務 → 小模型維護效率高
│ └── 低頻更新場景 → 大模型穩定性更強

1.5 “零樣本”和“少樣本”學習

├── 一、基本定義

│ ├── 零樣本學習(Zero-Shot Learning)
│ │ └── 模型在訓練中從未見過目標任務/類別,也能正確識別與推理。
│ │
│ └── 少樣本學習(Few-Shot Learning)
│ └── 模型僅在極少量示例支持下完成學習與推理任務。

├── 二、零樣本學習詳解

│ ├── 核心能力
│ │ ├── 強泛化能力
│ │ ├── 上下文理解能力
│ │ └── 概念關系推理能力
│ │
│ ├── 示例
│ │ └── ChatGPT 未接受過某類問題訓練,但仍能回答新技術/新事件問題。
│ │
│ └── 實現基礎
│ └── 基于大規模預訓練模型 + 廣泛知識學習 + 語言模式抽象能力

├── 三、少樣本學習詳解

│ ├── 場景特點
│ │ └── 每個類別僅提供少量樣本,模型需快速學習并進行預測。
│ │
│ ├── 示例
│ │ └── 用戶在提示中給出 2~3 個例子,模型學會如何生成對應輸出。
│ │
│ ├── 主要技術路徑
│ │ ├── 1. 數據增強(Data Augmentation)
│ │ │ └── 合成或變換樣本,擴充訓練數據。
│ │ ├── 2. 遷移學習(Transfer Learning)
│ │ │ └── 使用預訓練模型參數,快速適配新任務。
│ │ └── 3. 原型網絡(Prototypical Networks)
│ │ └── 基于類別原型計算樣本距離進行分類。
│ │
│ └── 應用說明
│ └── ChatGPT 可通過少量對話示例(Prompt)進行任務適配和執行。

├── 四、對比總結

│ ├── 零樣本學習:
│ │ └── 不依賴任何任務特定數據,完全靠已有知識推理。
│ └── 少樣本學習:
│ └── 依賴極少量任務樣本,需快速抽象出規律。

└── 五、應用價值(在 LLM 中的體現)
├── 提高模型靈活性與泛化能力
├── 降低標注數據依賴
├── 支持快速任務切換與指令理解
└── 支持Prompt Engineering、類任務式對話設計

1.6 大模型的涌現能力(Emergent Abilities)

├── 一、定義
│ └── 指大型預訓練模型在特定輸入下,表現出超出其原始訓練目標或設計預期的復雜行為。
│ └── 這些能力通常是自發出現的,并非顯式編碼或人為指定。

├── 二、關鍵特性與表現

│ ├── a. 規模依賴性
│ │ └── 隨著模型參數量和訓練數據規模的增加,模型能力提升;
│ │ 在規模達到某一“臨界點”后,開始展現新能力。

│ ├── b. 復雜任務處理
│ │ └── 能處理邏輯推理、編程、復雜對話等未直接訓練過的任務;
│ │ 如 LLM 能生成代碼、寫論文、推理結論等。

│ ├── c. 少樣本學習能力
│ │ └── 在只有少量示例的前提下,快速學習新任務;
│ │ 通過上下文和提示理解新任務而無需重訓練。

│ ├── d. 行為多樣性與適應性
│ │ └── 相同模型在不同任務/語境下表現出不同能力;
│ │ 能根據用戶上下文動態調整行為。

│ └── e. 研究與應用價值
│ ├── 成為 AI 研究的熱點方向;
│ ├── 被廣泛用于自然語言處理、代碼生成、多模態交互等;
│ └── 挖掘與引導“潛在能力”成為關鍵研究目標。

1.7 大模型遷移學習(Transfer Learning)

├── 一、定義
│ └── 將源領域中學到的知識遷移到目標領域中的技術;
│ 利用已有模型參數,減少目標任務對大數據和訓練時間的依賴。

├── 二、應用場景
│ └── 數據不足或訓練成本高時使用;
│ 通過已有模型進行微調,提高效率與性能。

├── 三、大模型中的遷移學習范式

│ ├── 1. 預訓練(Pre-training)
│ │ ├── 在大規模通用語料(如互聯網文本)上訓練;
│ │ └── 獲得具備廣泛語言理解能力的通用模型。
│ │
│ ├── 2. 微調(Fine-tuning)
│ │ ├── 在特定任務的小數據集上進一步訓練;
│ │ └── 使預訓練模型適配具體任務。
│ │
│ └── 說明:
│ ├── 預訓練需海量數據和高昂成本;
│ ├── 通常不從零訓練;
│ └── 使用公開預訓練模型 + 微調 → 成為主流做法。

├── 四、優點總結

│ ├── 1. 節省計算資源
│ │ └── 避免從頭訓練,節約訓練時間與算力成本。

│ ├── 2. 降低數據需求
│ │ └── 即使目標任務樣本少,也能取得好效果。

│ └── 3. 適應性強
│ └── 快速適配新任務、新領域,靈活性好。

1.8 文本輸入到大模型的全過程(以 Transformer 架構文本摘要為例)

文本輸入全過程
├── 1. 輸入文本預處理
│ ├── 分詞:將長句拆分為詞/子詞/Token
│ └── 清洗:去除標點、停用詞等無效信息

├── 2. 向量化處理
│ └── 使用詞嵌入模型(如 Word2Vec、BERT Embedding)
│ 將每個詞/Token 轉換為對應的向量表示

├── 3. 模型輸入層
│ └── 將序列化向量輸入至 Transformer 的第 1 層
│ 啟動編碼過程

├── 4. 模型主體處理(Transformer 編碼器/解碼器)
│ ├── 自注意力機制:
│ │ └── 學習詞與詞之間的依賴關系(支持長距離建模)
│ ├── 前饋神經網絡:
│ │ └── 提供非線性變換能力
│ └── 殘差連接 & LayerNorm:
│ └── 防止梯度消失,穩定訓練

├── 5. 輸出層處理
│ └── 輸出潛在表示 → Softmax → 概率分布
│ (預測下一個最可能的詞)

├── 6. 文本生成與后處理
│ ├── 詞生成:
│ │ └── 根據概率選擇 Token(如貪心/采樣/Beam Search)
│ └── 后處理:
│ ├── 拼接句子、消除冗余
│ └── 語義優化,確保摘要自然流暢

└── 7. 性能監控與優化
├── 硬件監控:
│ └── 實時監測 GPU / CPU / 顯存 使用率
└── 模型優化:
└── 微調參數、改進推理速度、提升摘要質量

2. Encoder-only & Decoder-only & Encoder-Decoder

2.1 架構類型總覽

├── Encoder-Only
│ ├── 用途:理解任務(文本分類、問答、信息抽取)
│ ├── 注意力方向:雙向
│ ├── 代表模型:BERT、RoBERTa
│ ├── 訓練目標:MLM(掩碼語言建模)、NSP
│ ├── 優點:語義理解強
│ └── 缺點:不適合生成任務

├── Decoder-Only
│ ├── 用途:生成任務(文本生成、對話、續寫)
│ ├── 注意力方向:單向(因果掩碼)
│ ├── 代表模型:GPT-3、LLaMA、PaLM
│ ├── 訓練目標:因果語言建模
│ ├── 優點:生成流暢,Few-shot能力強
│ └── 缺點:上下文單向,可能偏離主題

└── Encoder-Decoder
├── 用途:輸入-輸出映射任務(翻譯、摘要)
├── 注意力方向:編碼器雙向,解碼器單向
├── 代表模型:T5、BART、原始Transformer
├── 訓練目標:去噪建模、序列轉換
├── 優點:處理輸入/輸出異構結構
└── 缺點:資源消耗大,訓練復雜

───────────────────────────────

2.2 Encoder-Only 架構詳解
├── 特點:僅使用編碼器,對輸入文本進行上下文建模
├── 典型模型:
│ ├── BERT:首個雙向預訓練模型,通過掩碼語言建模(MLM)學習上下文表征。
│ ├── RoBERTa:BERT 的優化版,更大數據量、更長訓練步長。
│ └── ALBERT:參數共享減少計算量,適合資源受限場景。
└── 應用場景:
├── 文本分類:根據輸?的?本進?分類(如情感分析、新聞分類)。
├── 抽取式問答:通過輸?問題和上下?,模型從上下?中抽取出準確的答案。
└── 命名實體識別(NER):標注?本中的特定實體(如?名、地名等)。

2.3 Decoder-Only 架構詳解
├── 特點:僅使用解碼器,自回歸式地逐詞生成文本
├── 典型模型:
│ ├── GPT-3 / GPT-4:通過海量數據預訓練,Few-Shot 學習能力強
│ ├── PaLM:谷歌大規模模型,強調推理和代碼生成能力。
│ └── LLaMA:Meta 開源模型,參數量高效。
└── 應用場景:
├── 文本生成:根據提??成?段連貫的?本(如對話?成、?動寫作)。
├── 對話系統:逐步?成?然語?響應,回答?戶提問。
└── 翻譯(逐詞生成類):逐詞?成?標語?的翻譯結果。

2.4 Encoder-Decoder 架構詳解
├── 特點:編碼器處理輸入 → 解碼器生成輸出
├── 典型模型:
│ ├── T5:將任務統一為文本到文本格式,適用翻譯、摘要等。
│ ├── BART:結合雙向編碼器與自回歸解碼器,擅長文本重構任務。
│ └── Transformer:首個完全基于注意力的機器翻譯模型。
└── 應用場景:
├── 機器翻譯:將?個句?從源語?翻譯成?標語?,編碼器負責理解源語?句?,解碼器負責?成?標語?句?。
├── 文本摘要:編碼器處理??本,解碼器?成簡短摘要。
└── 條件生成任務(如自動問答):如?本填空或根據輸??成對應的完整?本。

───────────────────────────────

2.5 主要區別總結

├── Encoder-Only:語義理解任務
├── Decoder-Only:文本生成任務
└── Encoder-Decoder:輸入映射輸出任務

2.6 為什么大模型偏好 Decoder-Only?

├── 1. 架構更簡單:省去雙結構,只聚焦生成
├── 2. 自回歸機制:適合逐步生成文本
├── 3. 輸入靈活性:適配任意 prompt,條件控制自由
├── 4. 大規模預訓練:學習豐富語言知識,可遷移微調
└── 5. 長文本處理佳:可保持上下文連貫性

3.LLM模型

3.1 Gemma-3 模型

Gemma-3(第三代谷歌開源大模型)
├── 一、背景簡介
│ ├── 來自谷歌,發布于“巴黎開發者日”
│ ├── 是 Gemma 系列第三代,支持圖文多模態(文字+圖像)
│ └── 最重要亮點:1塊GPU/TPU 就能運行(對普通開發者更友好)

├── 二、核心參數規格(共4個版本)
│ ├── 1B:輕量模型,適合手機、小設備
│ ├── 4B:適合一般任務,輕量高效
│ ├── 12B:能力較強,支持復雜任務
│ └── 27B:旗艦模型,精度最強,能和Llama、GPT對比

├── 三、關鍵創新點(重點)
│ ├── ? 單設備運行強:跑得快,還省資源
│ ├── ? 多語言支持:支持140種語言
│ ├── ? 支持圖文視頻理解:不僅能讀文字,還能“看圖”
│ ├── ? 超長記憶力:一次處理 128K token 的超長文本(上下文窗口大)
│ ├── ? 函數調用支持:適合做 AI 助手和自動化
│ └── ? 量化優化:官方提供小模型版本,壓縮后仍保持高精度

├── 四、訓練數據規模(模型越大,訓練數據越多)
│ ├── 1B → 使用 2 萬億 token 訓練
│ ├── 4B → 使用 4T token
│ ├── 12B → 使用 12T token
│ └── 27B → 使用 14T token(T = 萬億)

├── 五、模型結構說明

│ ├── 1. 主體架構(語言模型 LLM)
│ │ ├── 解碼器 Transformer 架構(同 GPT 類)
│ │ ├── 技術點:
│ │ │ ├── GQA(分組查詢注意力)→ 更高效的注意力機制
│ │ │ ├── RMSNorm 歸一化(提升穩定性)
│ │ │ ├── 局部+全局注意力交替排列(5層局部+1層全局)
│ │ │ ├── RoPE 頻率提高到 1M(更好處理長文本)
│ │ │ └── 位置插值技術 → 保證對長文本理解效果

│ └── 2. 多模態部分(視覺編碼器)
│ ├── 使用 SigLIP(一個視覺Transformer)
│ ├── 支持圖片 896x896 像素輸入
│ └── 能處理圖像識別、圖文理解任務(如識別圖中元素)

├── 六、訓練方法(模型如何“學會”的)
│ ├── Pre-train + Post-train 兩階段訓練
│ ├── 核心訓練技巧:
│ │ ├── 模型蒸餾:學“大模型”的知識
│ │ ├── 強化學習調優(提升理解、遵循指令能力)
│ │ └── 三種 RL 技術:
│ │ ├── RLHF:基于人類反饋訓練
│ │ ├── RLMF:增強數學能力
│ │ └── RLEF:增強編程能力

├── 七、評估效果(表現好不好)
│ ├── 測試平臺:Chatbot Arena(模型排行榜)
│ ├── 結果:
│ │ ├── Gemma-3 27B 超過 LLaMA-3-70B、DeepSeek-V3 等主流模型
│ │ └── 在數學、代碼、對話能力等任務上均表現優秀
│ └── 特別說明:27B 模型只用單 GPU 就能跑 → 非常實用

3.2 DeepSeek 系列

├── 3.2.1 DeepSeek-V3(超大模型、智能強)

│ ├── 📌 簡介
│ │ ├── 671B 超大參數量 → 意味著“超級聰明”
│ │ ├── 每個 token 激活 37B 參數 → MoE 架構(部分專家工作)
│ │ └── 屬于最強開源大模型之一(性能強但運行高效)

│ ├── 📌 核心技術亮點
│ │ ├── ① MLA:多頭潛在注意力(Multi-head Latent Attention)
│ │ │ └── 優化注意力機制,減少顯存占用但保持效果
│ │ ├── ② DeepSeekMoE 架構(混合專家)
│ │ │ └── 每次預測只用少數專家 → 省算力
│ │ ├── ③ 無輔助損失的負載均衡(Free Load Balance)
│ │ │ └── 自動平衡每個專家被使用頻率
│ │ └── ④ 多 Token 預測(Multi-token Prediction, MTP)
│ │ └── 一次預測多個詞 → 提高推理速度

│ ├── 🔧 MLA 原理(理解優化注意力)
│ │ ├── 1. 把輸入壓縮為潛在向量(減少KV緩存)
│ │ ├── 2. 用矩陣投影生成壓縮版 key/value
│ │ ├── 3. 使用 RoPE 做位置編碼
│ │ └── 4. softmax 權重生成注意力輸出
│ │ ? 優點:顯存占用少,速度快,性能保持

│ ├── 🔧 DeepSeekMoE 原理(專家網絡)
│ │ ├── 分為共享專家 + 路由專家(讓不同專家負責不同內容)
│ │ ├── 使用門控機制激活最合適的專家
│ │ └── 自動平衡:通過調整偏置項,保證專家不被“偏心”使用

│ └── 🔧 MTP 原理(一次預測多個詞)
│ ├── 每個位置不只預測一個詞,而是多個詞
│ ├── 提前生成多個詞向量(加快推理)
│ └── 每個模塊都有共享層 + Transformer + 投影層

├── 3.2.2 DeepSeek-R1 INT8(輕量部署版)

│ ├── 📌 背景
│ │ ├── 原版使用 FP8 精度 → 只支持高端 GPU(如 Hopper 架構)
│ │ ├── INT8 精度 → 主流 GPU 也能跑(如 A100)
│ │ └── INT8 推理快、顯存少、部署更容易

│ ├── 📌 精度基本無損(測試準確率保持住)
│ │ ├── GSM8K:數學任務
│ │ └── MMLU:多領域知識問答

│ ├── 🔧 INT8 量化原理
│ │ ├── 將 FP16 高精度 → 轉為 INT8 低精度
│ │ ├── 通過縮放 + 反縮放,盡量減少信息丟失
│ │ └── 優點:占用空間少、計算快

│ ├── ? 兩種量化方式(實際應用)
│ │
│ │ ├── 1?? 分塊量化(Block-wise Quant)
│ │ │ ├── 把矩陣按小塊切 → 精度高
│ │ │ └── 推理快 + 精度好(推薦)
│ │
│ │ └── 2?? 通道量化(Channel-wise Quant)
│ │ ├── 把每列為一個通道
│ │ └── 極致加速,但精度略低

│ ├── 🧪 精度評估結果
│ │ ├── INT8 分塊量化 ≈ 原始精度
│ │ └── 通道量化 → 略有波動,但仍可用

│ └── 🚀 吞吐測試(推理速度對比)
│ ├── 在 A100 上測試:
│ │ ├── BF16 原始模型 → 基線速度
│ │ ├── INT8(Block) → 提升 33%
│ │ └── INT8(Channel)→ 提升 50%
│ └── ? 減少顯存,提升速度,適合大規模部署

└── ? 小白總結
👉 DeepSeek-V3:超大聰明模型,注意力優化,專家機制聰明分工,生成快。
👉 DeepSeek-R1 INT8:輕量化版本,適合部署在普通顯卡上,速度快,精度也很好。

3.3 Baichuan 系列大模型

├── 3.3.1 Baichuan 2(兩款主力型號)
│ ├── 版本:
│ │ ├── Baichuan 2-7B(70億參數)
│ │ └── Baichuan 2-13B(130億參數)
│ └── 特點:
│ ├── 使用 2.6 萬億 tokens 訓練,遠超 Baichuan 1
│ └── 在多個基準上性能提升高達 30%

├── 一、訓練數據(🔍 基礎知識來源)
│ ├── 數據來源:
│ │ ├── 40% 互聯網網頁
│ │ ├── 30% 圖書
│ │ ├── 20% 學術論文
│ │ ├── 5% 代碼
│ │ └── 5% 新聞、博客等
│ └── 數據處理:
│ ├── 去重技術:用 LSH(近似哈希)對段落/句子去重
│ └── 清洗 + 打分 → 只留下高質量內容參與訓練

├── 二、模型結構(🏗? 怎么搭的)
│ ├── 1?? 位置編碼
│ │ ├── 7B 模型:RoPE(旋轉位置編碼)
│ │ └── 13B 模型:ALiBi(線性偏移編碼)→ 更強 extrapolation
│ ├── 2?? 激活函數
│ │ └── 使用 SwiGLU(帶門控機制的激活)→ 學習能力增強
│ ├── 3?? 注意力機制
│ │ └── xFormers 內存優化注意力 → 適配 RoPE/ALiBi 高效訓練
│ └── 4?? Normalization 歸一化
│ └── 使用 RMSNorm → 更快更穩,代替傳統 LayerNorm

├── 三、訓練方法(?? 怎么訓的)
│ ├── Optimizer:AdamW(帶正則化,收斂快)
│ ├── 學習率策略:
│ │ ├── 預熱(Warm-up 2000 步)
│ │ └── 余弦退火策略(Cosine Annealing)
│ ├── 精度:BFloat16 混合精度 → 節省內存 & 穩定訓練
│ └── 特殊處理:
│ └── 某些計算用 float32 保精度(例如位置嵌入)

├── 四、對齊訓練(🧠 獎勵+強化)
│ ├── 🎯 獎勵模型(Reward Model, RM)
│ │ ├── 設計了 3 層分類系統(200+種用戶需求)
│ │ ├── 自己生成回答 → 自己打分(保持一致性)
│ │ └── RM 表現 ≈ LLaMA 2 級別
│ └── 🧠 PPO 強化學習優化
│ ├── actor(生成)+ critic(評估)+ RM(獎勵)+ reference(對比)
│ └── 實現對輸出質量的精細調控

├── 五、評估表現(📊 實力對比)
│ ├── 數據集:MMLU、GSM8K、AGIEval、C-Eval 等
│ ├── Baichuan 2-7B:
│ │ └── 普遍超越 Baichuan 1、ChatGLM2、MPT、Falcon 等
│ └── Baichuan 2-13B:
│ └── 多項指標優于 LLaMA 2-13B、Alpaca-Plus、XVerse 等

└── ? 總結(小白理解核心)
👉 模型訓練數據多、干凈、覆蓋面廣
👉 模型結構靈活(RoPE vs ALiBi),兼顧推理速度和效果
👉 支持 RLHF 微調,讓回答更靠譜
👉 評估結果穩居國產開源模型第一梯隊
👉 7B/13B 參數量適中 → 性能強且可部署(兼顧效果和資源)

3.4 Qwen 系列(通義千問)模型演進邏輯圖

└─ Qwen(初代)【基礎通用語言模型】
├─ 語言:中英文為主
├─ 架構:標準Transformer + SwiGLU + RoPE位置編碼
├─ 特點:自然語言理解和生成能力強,支持基本對話與問答
└─ 演進 →

├─ Qwen1.5(過渡版本)
│   ├─ 上下文長度擴展到 32K
│   ├─ 引入新位置編碼機制:NTK-aware RoPE 插值
│   └─ 主要為 Qwen2 做過渡準備
│
├─ Qwen2(第二代通用模型)
│   ├─ 多語言支持拓展:新增27種語言
│   │   └─ 覆蓋:東亞、東南亞、歐洲、中東、南亞主流語言
│   ├─ 上下文能力:最長支持128K上下文(訓練和推理均支持)
│   ├─ 關鍵技術:
│   │   ├─ YARN(Yet Another RoPE Extension)擴展位置編碼
│   │   └─ DualChunkAttention:分塊注意力計算,大幅降低長文本計算開銷
│   └─ 應用場景:文檔理解、長對話、多語言問答等
│
└─ Qwen2.5(第三代核心大模型)├─ 模型規模覆蓋:0.5B、1.5B、3B、7B、14B、32B、72B├─ 預訓練數據:│   ├─ Token總量:18T(大幅提升)│   ├─ 內容分布優化:知識、代碼、數學為重點,社交/娛樂等領域降采樣│   └─ 質量保障:使用 Qwen2-Instruct 做過濾評分├─ 上下文長度升級:│   ├─ 通用模型:最高128K│   └─ Turbo模型:支持最高1M tokens(YARN + 雙塊注意力 + ABF擴頻)├─ 后訓練階段:│   ├─ SFT:兩階段微調(短32K + 長256K混合)│   ├─ DPO/GRPO:強化偏好與群體對齊│   └─ RLHF:分為離線RL(推理/執行)+ 在線RL(真實/有用/安全等維度)├─ 結構化輸出能力:強化對 JSON、表格、長指令結構理解與生成└─ 衍生子模型(專精方向):│├─ Qwen2.5-Omni【全模態模型】│   ├─ 模態支持:文字 + 圖像 + 音頻 + 視頻(輸入)│   ├─ 輸出形式:文本 + 實時語音│   ├─ 創新架構:│   │   ├─ Thinker-Talker:理解與表達解耦并并行│   │   └─ TMRoPE:時間對齊多模態位置編碼(對齊視聽模態)│   ├─ 場景應用:AI 語音助手、多模態對話、虛擬主播、音視頻問答│   └─ 特點:邊輸入邊輸出、語音穩定自然│├─ Qwen-QwQ【自問自答推理模型】│   ├─ 全稱:Qwen-with-Questions│   ├─ 技術突破:│   │   ├─ Structured Self-Questioning(結構化自我提問)│   │   └─ 兩階段強化學習(數學+編程 → 通用能力)│   ├─ Agent能力:動態調整推理路徑,支持多輪規劃│   └─ 應用場景:數學題推理、復雜指令鏈、AI agent規劃執行│├─ Qwen2.5-Math【數學專用模型】│   ├─ 訓練數據:│   │   ├─ 公開數據集 + 合成題(含解析) + 多語言數學題│   │   └─ 加入 CoT(Chain-of-Thought)鏈式推理格式│   ├─ 推理技術:拒絕采樣 + 獎勵建模選優路徑│   └─ 表現:GSM8K、MATH 等基準任務超越大部分開源模型│├─ Qwen2.5-Code【代碼專用模型】│   ├─ 語言覆蓋:支持40+編程語言(Python、C++、Java、JS等)│   ├─ 訓練流程:│   │   ├─ 精選代碼預訓練 + 指令微調(Code-Instruct)│   │   └─ 多語言沙箱環境靜態/動態測試輔助質量提升│   ├─ 輸出評估:單元測試驗證+代碼執行結果過濾│   └─ 表現:HumanEval、MBPP 等代碼基準任務表現優異│└─ Qwen2.5-Turbo / Qwen2.5-Plus【通用強化模型】├─ Qwen2.5-Turbo:│   ├─ 超長上下文處理專家(最高1M tokens)│   ├─ ABF(頻率擴展)+ 分階段長序列訓練│   └─ 場景:文檔總結、合同分析、歷史長對話跟蹤└─ Qwen2.5-Plus:├─ 平衡版高精度模型(性能接近GPT-4)├─ 多領域泛化能力更強:數學/推理/翻譯等└─ 表現優異于MMLU/GSM8K/HumanEval等任務上

3.5 LLAMA 系列

🔹 3.5.1 LLAMA 3.1 —— 新一代升級

LLAMA 3.1
│
├──? 🚀 性能大幅提升  
│      → 比以前的模型更聰明,甚至能和GPT-4比一比!
│
├──? 🔁 三階段預訓練流程  
│      ├─ 初始預訓練 → 模型打基礎,學習基本語言知識  
│      ├─ 長文本預訓練 → 學習如何理解和處理長文檔  
│      └─ 退火訓練 → 像“回爐重造”,讓模型更加穩健
│
├──? 🧹 數據質量優化  
│      ├─ 行級去重 → 刪掉重復的句子,保證多樣性  
│      ├─ 多層次過濾 → 清理低質量內容,比如錯別字、亂碼  
│      └─ 引入高質量數據 → 加入優質文章、書籍,補充知識
│
├──? 🧠 訓練策略升級  
│      ├─ 拒絕采樣 → 去掉模型胡說八道的回答  
│      ├─ SFT(監督微調)→ 模型學習怎么更像“助理”  
│      └─ DPO(偏好優化)→ 讓模型更懂“人類喜好”
│
├──? ?? 網絡結構升級  
│      ├─ SwiGLU 激活函數 → 增強模型理解復雜問題的能力  
│      ├─ RoPE 位置編碼 → 讓模型知道“詞語的順序”  
│      ├─ RMSNorm 歸一化 → 保證訓練過程穩定、不崩  
│      └─ 殘差連接 → 避免“越學越糊涂”,保持信息流暢
│
└──? 🎯 特定能力增強  → 專門優化代碼生成、多語言處理能力,適配不同應用

🔹 3.5.2 LLAMA 系列總覽

LLAMA 總體特征
│
├──? 🏗 模型架構:  
│      → 基于 Transformer 構建的框架,通用而強大
│
├──? 📏 參數規模多樣化  
│      ├─ 7B → 適合中小規模  
│      ├─ 13B / 30B → 平衡性能和成本  
│      └─ 65B → 需要強大硬件,性能最強
│
├──? 📂 開源可用  
│      → 任何人都可以下載和使用,適合研究與開發
│
├──? 🧠 訓練數據豐富  
│      → 使用各種各樣的文本數據訓練,包括網頁、書籍、對話等
│
├──? 🔁 網絡結構優化組件  
│      ├─ RoPE(旋轉位置編碼)→ 更好理解詞語順序  
│      ├─ SwiGLU 激活 → 讓模型“反應更靈活”  
│      ├─ RMSNorm → 穩定模型訓練過程
│
├──? 🛡 梯度問題應對措施  
│      ├─ 殘差連接 → 保留關鍵信息  
│      ├─ 歸一化 → 防止“計算爆炸”或“沒信號”  
│      ├─ 合理激活函數 → 避免數學問題導致“腦抽”
│      └─ 自適應優化器(Adam)→ 像“教練”一樣靈活調整訓練節奏

🔹 3.5.2.1 如何提升 LLAMA 的中文能力(重點!)

LLAMA 中文增強
│
├──? ? 為什么LLAMA原生中文不好?  
│      ├─ 訓練數據中文太少 → 英文占比高達99%  
│      ├─ 詞表不適合中文 → 太多漢字被拆開處理  
│      ├─ 沒訓練中文任務 → 比如古詩、對聯、問診都沒練過
│
├──? ? 解決方案一:繼續預訓練  
│      → 用大批高質量中文數據再“訓練一遍”  
│      → 比如補上新聞、百科、法律、醫療內容等
│
├──? ? 解決方案二:擴充詞表  
│      → 加入常用漢字、中文詞語,解決分詞問題  
│      → 讓模型“認得更多中文詞”
│
├──? ? 解決方案三:指令微調  
│      → 用中文指令數據(如:寫一首詩、解釋法規)來訓練  
│      → 模型會更懂中文使用習慣
│
├──? ? 解決方案四:混合專家(MoE)  
│      → 中文專家專門處理中文,英文專家專門處理英文  
│      → 根據輸入自動選擇最懂的“老師”
│
└──? ? 解決方案五:人類反饋(RLHF)  → 給模型反饋什么回答更符合中國用戶的習慣  → 不斷優化回答質量,避免“中式英文”

3.6 T5:Text-to-Text Transfer Transformer


核心理念:所有 NLP 任務都轉成 “文本 → 文本”

任務示例(統一格式):
├── 翻譯:translate English to German: That is good. → Das ist gut.
├── 分類:cola sentence: The course is jumping well. → Not acceptable
├── 相似度:stsb sentence1: … sentence2: … → 3.8
├── 摘要:summarize: … → 精簡內容

🌟 創新點
├── 1. 文本到文本統一框架(每個任務都是一個文本生成)
├── 2. Span Corruption預訓練(掩碼一整段連續文本)
├── 3. 架構系統探索(測試各種結構選擇,找到最優方案)

📚 訓練數據
├── 預訓練數據:C4英文網頁清洗大語料(750GB)
└── 微調數據:GLUE、CNN/DailyMail、WMT等多種任務集

🧠 模型結構(Encoder-Decoder)
├── 相對位置編碼(不是用固定位置,而是學出來的位置偏移)
├── LayerNorm放在殘差連接前(提高穩定性)
├── FFN使用GELU激活(更平滑更強)
└── 多個模型版本(從小到大)
├── T5-small:60M參數
├── T5-base:220M參數
├── T5-large:770M參數
├── T5-3B:3B參數

?? 訓練方法
├── 預訓練階段:
│ ├── 使用 span corruption 掩碼訓練
│ ├── 優化器:AdaFactor(顯存省)
│ └── 大批量長時間訓練(1M 步,34B tokens)
└── 微調階段:
├── 每個任務前面加 prefix(任務前綴提示)
└── 多任務混合訓練(翻譯、分類、問答等一起訓)

? 優點
├── 一個模型支持多種任務(統一簡潔)
├── 泛化能力強(小樣本也能學得不錯)
└── 任務前綴讓控制更清晰(可解釋)

?? 缺點
├── Encoder-Decoder結構導致生成速度慢(不如GPT快)
└── 模型越大越占資源(如T5-3B需要很多顯存)

📌 應用場景
├── 文本生成(摘要、翻譯、對話)
├── 序列標注(命名實體識別)
├── 問答系統(開放式回答)
└── 數據增強(合成訓練樣本)

🔧 改進方向
├── mT5:支持101種語言(多語種)
├── T5-UL2:混合預訓練目標(更強大)
├── 蒸餾壓縮:用大模型教小模型(如Distilled-T5)
└── 領域適配:在醫學、法律等數據上繼續預訓練

💻 實現代碼(用Transformers一行就能跑!)
├── 加載模型 tokenizer & model
├── 輸入“任務前綴+文本” → 編碼成token
├── model.generate() 生成 → decode() 得出結果
└── 支持自定義訓練循環 + 優化器微調

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/75660.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/75660.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/75660.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【leetcode】記錄與查找:哈希表的題型分析

前言 🌟🌟本期講解關于力扣的幾篇題解的詳細介紹~~~ 🌈感興趣的小伙伴看一看小編主頁:GGBondlctrl-CSDN博客 🔥 你的點贊就是小編不斷更新的最大動力 🎆那么廢話不…

優選算法的妙思之流:分治——快排專題

專欄:算法的魔法世界 個人主頁:手握風云 目錄 一、快速排序 二、例題講解 2.1. 顏色分類 2.2. 排序數組 2.3. 數組中的第K個最大元素 2.4. 庫存管理 III 一、快速排序 分治,簡單理解為“分而治之”,將一個大問題劃分為若干個…

二叉樹的ACM板子(自用)

package 二叉樹的中序遍歷;import java.util.*;// 定義二叉樹節點 class TreeNode {int val; // 節點值TreeNode left; // 左子節點TreeNode right; // 右子節點// 構造函數TreeNode(int x) {val x;} }public class DMain {// 構建二叉樹(層序遍歷方式&…

Linux常用命令詳解:從基礎到進階

目錄 一、引言 二、文件處理相關命令 (一)grep指令 (二)zip/unzip指令 ?編輯 (三)tar指令 (四)find指令 三、系統管理相關命令 (一)shutdown指…

Qt多線程從基礎到性能優化

一、為什么需要多線程開發 現代應用程序的性能需求 CPU多核架構的有效利用 復雜任務的解耦與響應式界面保持 二、Qt線程創建四大方式 1. 繼承QThread重寫run() class WorkerThread : public QThread {void run() override {// 耗時操作qDebug() << "Thread ID…

【java】在 Java 中,獲取一個類的`Class`對象有多種方式

在 Java 中&#xff0c;獲取一個類的Class對象有多種方式。Class對象代表了 Java 中的一個類或接口的運行時類信息&#xff0c;可以用于反射操作。以下是獲取Class對象的幾種常見方法&#xff1a; 1.使用.class屬性 每個類都有一個.class屬性&#xff0c;可以直接獲取該類的Cl…

什么是RPC通信

RPC&#xff08;Remote Procedure Call&#xff0c;遠程過程調用&#xff09;通信是一種允許程序像調用本地函數一樣調用遠程服務器上函數的通信技術。它簡化了分布式系統中的網絡交互&#xff0c;隱藏了底層網絡通信的復雜性&#xff0c;使開發者能夠專注于業務邏輯。 一、RPC…

還是主題混合程序設計

以下是針對您現有代碼的完整主題化改造方案&#xff0c;實現跨QML/Qt Widgets的陰影主題系統&#xff1a; 一、主題管理系統核心 // thememanager.h #pragma once #include <QObject> #include <QColor> #include <QMap> #include <QQmlEngine>class…

BT-Basic函數之首字母T

BT-Basic函數之首字母T 文章目錄 BT-Basic函數之首字母Ttabtesttest conttest monitortest on boardstest scanworkstest shortstesthead cleanuptesthead configurationtesthead istesthead power on/offtesthead statustestjet print level istestordertestplan generationth…

7-9 趣味游戲

題目解析 在某個學校的趣味游戲活動中&#xff0c;N 名同學站成一排&#xff0c;他們的年齡恰好是 1 到 N &#xff0c;需要注意的是他們并不是按照年齡的大小排列的&#xff0c;而是隨機排列的。 游戲的規則是請同學們快速計算出&#xff0c;如果在這 N 名同學的小組中&…

Hugging Face模型微調訓練(基于BERT的中文評價情感分析)

文章目錄 學習視頻地址項目地址數據集的下載模型微調的基本概念與流程加載數據集數據集格式數據集信息 制作Dataset數據集字段數據集信息 vocab字典操作詞匯表文本轉換 下游任務模型設計模型訓練與保存數據加載優化器訓練循環 最終效果評估與測試模型加載和測試 學習視頻地址 …

【藍橋杯】十五屆省賽B組c++

目錄 前言 握手問題 分析 排列組合寫法 枚舉 小球反彈 分析 代碼 好數 分析 代碼 R 格式 分析 代碼 寶石組合 分析 代碼 數字接龍 分析 代碼 拔河 分析 代碼 總結 前言 主播這兩天做了一套藍橋杯的省賽題目&#xff08;切實感受到了自己有多菜&#x…

必刷算法100題之計算右側小于當前元素的個數

題目鏈接 315. 計算右側小于當前元素的 個數 - 力扣&#xff08;LeetCode&#xff09; 題目解析 計算數組里面所有元素右側比它小的數的個數, 并且組成一個數組,進行返回 算法原理 歸并解法(分治) 當前元素的后面, 有多少個比我小(降序) 我們要找到第一比左邊小的元素, 這…

Hyperlane框架:下一代高性能Rust Web框架 [特殊字符]

Hyperlane框架&#xff1a;下一代高性能Rust Web框架 &#x1f680; 引言 &#x1f44b; 在當今快速發展的Web開發領域&#xff0c;性能和開發效率的平衡變得越來越重要。Hyperlane作為一個新興的Rust Web框架&#xff0c;完美地解決了這個問題。本文將帶您深入了解Hyperlane…

圖像處理:使用Numpy和OpenCV實現傅里葉和逆傅里葉變換

文章目錄 1、什么是傅里葉變換及其基礎理論 1.1 傅里葉變換 1.2 基礎理論 2. Numpy 實現傅里葉和逆傅里葉變換 2.1 Numpy 實現傅里葉變換 2.2 實現逆傅里葉變換 2.3 高通濾波示例 3. OpenCV 實現傅里葉變換和逆傅里葉變換及低通濾波示例 3.1 OpenCV 實現傅里葉變換 3.2 實現逆傅…

OpenEuler/CentOS一鍵部署OpenGauss數據庫教程(腳本+視頻)

&#x1f4cc;OpenEuler/CentOS一鍵安裝OpenGauss數據庫教程 為什么需要OpenGauss一鍵安裝腳本&#xff1f; 手動部署OpenGauss數據庫時&#xff0c;環境適配、依賴沖突等問題常讓開發者頭疼。尤其對新人而言&#xff0c;官方文檔的配置步驟可能耗時數小時甚至引發未知報錯。 …

如何解決 Hive 在創建 MySQL 表時出現亂碼???的問題

1.問題描述 我們啟動Hive建立一個學生students表格 使用desc students;查看表格結構時 發現有出現亂碼的情況 2.解決方案 打開Hive安裝機器上面的MySQL 切換到Hive數據庫 執行以下命令修改字段注釋字符集 mysql -u root -p123456;use hive;alter table COLUMNS_V2 modify col…

自定義組件觸發餓了么表單校驗

餓了么的表單控件&#xff0c;如果存在自定義組件更改了值&#xff0c;例如在el-from中存在原生input組件很有可能沒法觸發表單校驗&#xff0c;下拉框或者彈框組件仍然是報紅邊框。 這是因為餓了么的輸入框或者下拉框更改值的時候會自動觸發表單校驗&#xff0c;但是封裝過后的…

架構思維:查詢分離 - 表數據量大查詢緩慢的優化方案

文章目錄 Pre引言案例何謂查詢分離&#xff1f;何種場景下使用查詢分離&#xff1f;查詢分離實現思路1. 如何觸發查詢分離&#xff1f;方式一&#xff1a; 修改業務代碼&#xff1a;在寫入常規數據后&#xff0c;同步建立查詢數據。方式二&#xff1a;修改業務代碼&#xff1a;…

Linux開發工具——make/makefile

&#x1f4dd;前言&#xff1a; 這篇文章我們來講講Linux開發工具——make/makefile&#xff1a; &#x1f3ac;個人簡介&#xff1a;努力學習ing &#x1f4cb;個人專欄&#xff1a;Linux &#x1f380;CSDN主頁 愚潤求學 &#x1f304;其他專欄&#xff1a;C學習筆記&#xf…