1. 訓練與部署
1.1 預訓練
- 專業:在海量無標注文本(如Common Crawl、Wikipedia)上通過自監督學習訓練基礎語言模型,學習通用語言表征(如GPT-3訓練數據達45TB)。
- 通俗:AI的“通識教育階段”,通過閱讀互聯網百科全書掌握基本語言規則。
1.2 微調(SFT)
- 專業:使用任務特定標注數據(如問答對、指令集)調整預訓練模型參數,適配下游任務格式(如ChatGPT對話優化)。
- 通俗:針對具體崗位(如客服、翻譯)進行的“職業技能培訓”。
1.3 獎勵模型訓練
- 專業:通過人類標注員對模型輸出排序(如A/B測試),訓練一個可量化輸出質量的獎勵函數(Reward Model)。
- 通俗:教練給AI的答案“打分”,教會它分辨好壞回答。
1.4 強化學習微調(RLHF)
- 專業:結合獎勵模型與PPO算法,優化策略模型生成符合人類偏好的輸出(如Anthropic Claude的安全對齊)。
- 通俗:AI通過“考試評分+自我改進”循環,學會答得更得體。
2. 模型架構
2.1 Transformer
- 專業:基于自注意力機制的神經網絡,支持并行處理長序列(如輸入4096 Token),是LLM的通用基礎架構(如GPT、BERT)。
- 通俗:AI理解語言的“中央處理器”,能同時關聯全文信息。
2.2 MoE(稀疏專家模型)
- 專業:動態路由機制激活部分專家網絡(如Mixtral-8x7B每輸入僅用2個專家),提升模型容量且控制計算成本。
- 通俗:“專家委員會”模式,不同問題自動分配專業AI解答。
2.3 編碼器-解碼器
- 專業:編碼器壓縮輸入語義,解碼器生成目標序列(如T5統一文本到文本框架)。
- 通俗:AI先“聽懂問題”(編碼),再“組織答案”(解碼)。
3. 模型類型
3.1 量化模型(INT4/INT8)
- 專業:將FP32權重壓縮為4/8位整數,顯存占用減少75%(如LLM.int4()),精度損失<1%。
- 通俗:模型“極限瘦身”,手機也能運行百億參數AI。
3.2 非量化模型(FP32/FP16)
- 專業:保留全精度浮點數權重,訓練穩定性高但推理成本高(如科研場景常用FP16)。
- 通俗:AI的“原裝大腦”,精度最高但耗電量大。
3.2.1 FP32(單精度浮點數)
專業定義
- 全稱:32-bit Floating Point(32位浮點數)
- 二進制結構:
1 位符號位 | 8 位指數位 | 23 位尾數位
───────────┬────────────┬────────────正負號 指數范圍 小數精度
- 數值范圍:±3.4×103?
- 精度:約7位有效十進制數字
通俗類比
相當于數學中的“精確計算器”,適合需要高精度的場景(如財務核算),但占用存儲空間較大。
LLM中的應用
- 訓練階段主流格式:
- 梯度計算需要高精度防止數值溢出
- 示例:訓練GPT-3時全程使用FP32
- 顯存占用:
70億參數模型 ≈ 70億 × 4字節 = 28 GB
3.2.2 FP16(半精度浮點數)
專業定義
- 全稱:16-bit Floating Point(16位浮點數)
- 二進制結構:
1 位符號位 | 5 位指數位 | 10 位尾數位
───────────┬────────────┬────────────正負號 指數范圍 小數精度
- 數值范圍:±6.5×10?
- 精度:約3-4位有效十進制數字
通俗類比
相當于“便攜計算器”,計算速度快、省電,但復雜運算可能舍入誤差。
LLM中的應用
- 推理加速:
- 顯存占用減半(FP32的50%)
70億參數模型:28GB → 14GB
- 示例:ChatGPT實時響應使用FP16推理
- 混合精度訓練:
- 結合FP16+FP32(梯度用FP32防溢出)
- 速度提升2-3倍(NVIDIA Tensor Core支持)
3.3 蒸餾模型
- 專業:小模型(學生)模仿大模型(教師)的輸出分布,體積縮小60%保留95%性能(如DistilBERT)。
- 通俗:“高手帶徒弟”,小模型繼承大模型的經驗智慧。
3.4 推理優化模型
- 專業:通過層融合、內核優化提升推理速度(如vLLM引擎的PagedAttention技術)。
- 通俗:給AI思維“裝上渦輪增壓”,回答快3倍。
4. 參數與規模
4.1 小型(<1B)
- 代表模型:Microsoft Phi-2(27億參數)
- 特點:可在手機端部署(如Android App),響應延遲<100ms。
4.2 中型(1B~10B)
- 代表模型:Meta Llama2-7B、ChatGLM3-6B
- 特點:單卡消費級GPU(RTX 4090)可運行,適合企業私有化部署。
4.3 大型(10B~100B)
- 代表模型:GPT-4(約1.8T MoE)、Claude 3(公開版40B)
- 特點:需8卡A100集群,具備復雜邏輯推理與多任務泛化能力。
4.4 超大規模(>100B)
- 代表模型:Google Gemini Ultra、Anthropic Claude 3.5
- 特點:千億級參數,需專用AI芯片(如TPU v5)集群訓練,支持跨模態理解。
5. 生成策略
5.1 解碼策略
- 貪心搜索:每一步選最高概率詞,輸出確定但易重復(如ATM密碼生成)。
- 束搜索(Beam Search):保留Top-k路徑,平衡質量與多樣性(如醫療報告生成)。
5.2 Top-k采樣
- 專業:從概率最高的k個候選詞中隨機采樣(k=50為常見值),避免低質量輸出。
- 通俗:AI從“高分答案庫”隨機抽選,兼顧準確與創意。
5.3 溫度控制
- 專業:調整Softmax概率分布陡度:
P_i = exp(z_i/T)/Σexp(z_j/T)
,低溫(T=0.1)保守,高溫(T=1.0)創意迸發。 - 通俗:控制AI“腦洞溫度”,低溫寫合同,高溫寫詩歌。
5.4 頻率懲罰
- 專業:基于重復次數的對數概率衰減:
P(token) = P_original / (1 + λ * count)
,抑制循環輸出(λ=0.5~2.0)。 - 通俗:防AI“復讀機模式”,避免同一詞反復出現。
6. 評估與優化
6.1 困惑度
- 專業:衡量模型預測樣本不確定性的指標,越低越好(GPT-4的困惑度≈10.2)。
- 通俗:AI答題的“迷惑程度”,數值越低說明越自信準確。
6.2 LoRA / PEFT
- 專業:注入可訓練低秩矩陣(ΔW=BA),僅微調0.1%參數(QLoRA支持4-bit微調)。
- 通俗:給AI“打技能補丁”,升級專業能力不重建大腦。
6.3 RAG
- 專業:結合FAISS向量檢索與LLM生成,通過外部知識庫注入提升事實準確性(如企業知識庫問答)。
- 通俗:AI答題前先“翻參考書”,拒絕信口開河。
7. 硬件與算力
7.1 算力
- 專業表述:算力(Computing Power)是計算機設備或計算系統處理信息的能力,涵蓋硬件計算性能(如CPU/GPU的運算速度)與軟件算法的協同效率。狹義上以每秒浮點運算次數(FLOPS) 為核心指標,用于量化理論峰值性能。
- 通俗類比:數字世界的“體力值”:算力決定智能設備處理任務的速度上限,如同體力越強的人工作效率越高。手機刷臉支付需0.1秒完成上億次計算,即高算力的體現
- 示例:一臺超算的算力為1 EFLOPS = 每秒100億億次浮點運算。
7.2 通用服務器
- 配置示例:雙路Intel Xeon + 8×NVIDIA A100(80GB),支持70B模型推理。
7.3 高性能計算
- 技術方案:
- 張量并行(Tensor Parallelism):單層計算拆分多GPU(如Megatron-LM)。
- 流水線并行(Pipeline Parallelism):模型層拆分不同設備(如DeepSpeed)。
7.4 分布式部署
- 邊緣計算:INT4量化模型 + Jetson Orin模塊,工業設備本地故障診斷。
- 云邊協同:中心云訓練(H100集群) → 邊緣端部署(INT4蒸餾模型)。
資料來源于網絡