大語言模型（LLM）專業術語匯總

1. 訓練與部署

1.1 預訓練

專業：在海量無標注文本（如Common Crawl、Wikipedia）上通過自監督學習訓練基礎語言模型，學習通用語言表征（如GPT-3訓練數據達45TB）。
通俗：AI的“通識教育階段”，通過閱讀互聯網百科全書掌握基本語言規則。

1.2 微調（SFT）

專業：使用任務特定標注數據（如問答對、指令集）調整預訓練模型參數，適配下游任務格式（如ChatGPT對話優化）。
通俗：針對具體崗位（如客服、翻譯）進行的“職業技能培訓”。

1.3 獎勵模型訓練

專業：通過人類標注員對模型輸出排序（如A/B測試），訓練一個可量化輸出質量的獎勵函數（Reward Model）。
通俗：教練給AI的答案“打分”，教會它分辨好壞回答。

1.4 強化學習微調（RLHF）

專業：結合獎勵模型與PPO算法，優化策略模型生成符合人類偏好的輸出（如Anthropic Claude的安全對齊）。
通俗：AI通過“考試評分+自我改進”循環，學會答得更得體。

2. 模型架構

2.1 Transformer

專業：基于自注意力機制的神經網絡，支持并行處理長序列（如輸入4096 Token），是LLM的通用基礎架構（如GPT、BERT）。
通俗：AI理解語言的“中央處理器”，能同時關聯全文信息。

2.2 MoE（稀疏專家模型）

專業：動態路由機制激活部分專家網絡（如Mixtral-8x7B每輸入僅用2個專家），提升模型容量且控制計算成本。
通俗：“專家委員會”模式，不同問題自動分配專業AI解答。

2.3 編碼器-解碼器

專業：編碼器壓縮輸入語義，解碼器生成目標序列（如T5統一文本到文本框架）。
通俗：AI先“聽懂問題”（編碼），再“組織答案”（解碼）。

3. 模型類型

3.1 量化模型（INT4/INT8）

專業：將FP32權重壓縮為4/8位整數，顯存占用減少75%（如LLM.int4()），精度損失<1%。
通俗：模型“極限瘦身”，手機也能運行百億參數AI。

3.2 非量化模型（FP32/FP16）

專業：保留全精度浮點數權重，訓練穩定性高但推理成本高（如科研場景常用FP16）。
通俗：AI的“原裝大腦”，精度最高但耗電量大。

3.2.1 FP32（單精度浮點數）

專業定義

全稱：32-bit Floating Point（32位浮點數）
二進制結構：

1 位符號位 | 8 位指數位 | 23 位尾數位
───────────┬────────────┬────────────正負號    指數范圍     小數精度

數值范圍：±3.4×103?
精度：約7位有效十進制數字

通俗類比

相當于數學中的“精確計算器”，適合需要高精度的場景（如財務核算），但占用存儲空間較大。

LLM中的應用

訓練階段主流格式：
- 梯度計算需要高精度防止數值溢出
- 示例：訓練GPT-3時全程使用FP32
顯存占用：

70億參數模型 ≈ 70億 × 4字節 = 28 GB

3.2.2 FP16（半精度浮點數）

專業定義

全稱：16-bit Floating Point（16位浮點數）
二進制結構：

1 位符號位 | 5 位指數位 | 10 位尾數位
───────────┬────────────┬────────────正負號    指數范圍     小數精度

數值范圍：±6.5×10?
精度：約3-4位有效十進制數字

通俗類比

相當于“便攜計算器”，計算速度快、省電，但復雜運算可能舍入誤差。

LLM中的應用

推理加速：
- 顯存占用減半（FP32的50%）

70億參數模型：28GB → 14GB

- 示例：ChatGPT實時響應使用FP16推理

混合精度訓練：
- 結合FP16+FP32（梯度用FP32防溢出）
- 速度提升2-3倍（NVIDIA Tensor Core支持）

3.3 蒸餾模型

專業：小模型（學生）模仿大模型（教師）的輸出分布，體積縮小60%保留95%性能（如DistilBERT）。
通俗：“高手帶徒弟”，小模型繼承大模型的經驗智慧。

3.4 推理優化模型

專業：通過層融合、內核優化提升推理速度（如vLLM引擎的PagedAttention技術）。
通俗：給AI思維“裝上渦輪增壓”，回答快3倍。

4. 參數與規模

4.1 小型（<1B）

代表模型：Microsoft Phi-2（27億參數）
特點：可在手機端部署（如Android App），響應延遲<100ms。

4.2 中型（1B~10B）

代表模型：Meta Llama2-7B、ChatGLM3-6B
特點：單卡消費級GPU（RTX 4090）可運行，適合企業私有化部署。

4.3 大型（10B~100B）

代表模型：GPT-4（約1.8T MoE）、Claude 3（公開版40B）
特點：需8卡A100集群，具備復雜邏輯推理與多任務泛化能力。

4.4 超大規模（>100B）

代表模型：Google Gemini Ultra、Anthropic Claude 3.5
特點：千億級參數，需專用AI芯片（如TPU v5）集群訓練，支持跨模態理解。

5. 生成策略

5.1 解碼策略

貪心搜索：每一步選最高概率詞，輸出確定但易重復（如ATM密碼生成）。
束搜索（Beam Search）：保留Top-k路徑，平衡質量與多樣性（如醫療報告生成）。

5.2 Top-k采樣

專業：從概率最高的k個候選詞中隨機采樣（k=50為常見值），避免低質量輸出。
通俗：AI從“高分答案庫”隨機抽選，兼顧準確與創意。

5.3 溫度控制

專業：調整Softmax概率分布陡度：P_i = exp(z_i/T)/Σexp(z_j/T)，低溫（T=0.1）保守，高溫（T=1.0）創意迸發。
通俗：控制AI“腦洞溫度”，低溫寫合同，高溫寫詩歌。

5.4 頻率懲罰

專業：基于重復次數的對數概率衰減：P(token) = P_original / (1 + λ * count)，抑制循環輸出（λ=0.5~2.0）。
通俗：防AI“復讀機模式”，避免同一詞反復出現。

6. 評估與優化

6.1 困惑度

專業：衡量模型預測樣本不確定性的指標，越低越好（GPT-4的困惑度≈10.2）。
通俗：AI答題的“迷惑程度”，數值越低說明越自信準確。

6.2 LoRA / PEFT

專業：注入可訓練低秩矩陣（ΔW=BA），僅微調0.1%參數（QLoRA支持4-bit微調）。
通俗：給AI“打技能補丁”，升級專業能力不重建大腦。

6.3 RAG

專業：結合FAISS向量檢索與LLM生成，通過外部知識庫注入提升事實準確性（如企業知識庫問答）。
通俗：AI答題前先“翻參考書”，拒絕信口開河。

7. 硬件與算力

7.1 算力

專業表述：算力（Computing Power）是計算機設備或計算系統處理信息的能力，涵蓋硬件計算性能（如CPU/GPU的運算速度）與軟件算法的協同效率。狹義上以每秒浮點運算次數（FLOPS） 為核心指標，用于量化理論峰值性能。
通俗類比：數字世界的“體力值”：算力決定智能設備處理任務的速度上限，如同體力越強的人工作效率越高。手機刷臉支付需0.1秒完成上億次計算，即高算力的體現
示例：一臺超算的算力為1 EFLOPS = 每秒100億億次浮點運算。

7.2 通用服務器

配置示例：雙路Intel Xeon + 8×NVIDIA A100（80GB），支持70B模型推理。

7.3 高性能計算

技術方案：
- 張量并行（Tensor Parallelism）：單層計算拆分多GPU（如Megatron-LM）。
- 流水線并行（Pipeline Parallelism）：模型層拆分不同設備（如DeepSpeed）。

7.4 分布式部署

邊緣計算：INT4量化模型 + Jetson Orin模塊，工業設備本地故障診斷。
云邊協同：中心云訓練（H100集群） → 邊緣端部署（INT4蒸餾模型）。

資料來源于網絡

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/912726.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/912726.shtml
英文地址，請注明出處：http://en.pswp.cn/news/912726.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！