大語言模型(LLM)既可以按順序逐個生成單詞(token),也能實現一次生成多個 token
核心差異源于解碼策略與模型架構設計
一、常規“逐個生成”模式(基礎邏輯)
多數入門級演示或簡單文本生成中,LLM 會默認按 “生成一個 token → 拼接回輸入 → 再生成下一個” 的流程,本質是 自回歸(Auto - Regressive)機制的基礎應用 。
比如用小語言模型續寫 “今天天氣____”:
- 模型先基于 “今天天氣” 預測第一個 token,假設輸出 “很”;
- 再把 “今天天氣很” 作為新輸入,預測下一個 token(如 “好” );
- 持續迭代直到觸發結束條件(如生成句號、達到長度限制)。
這種方式邏輯直觀,但逐 token 生成效率較低,且容易因長依賴出現重復、邏輯斷裂問題。
二、一次生成多個 token 的實現方式
實際應用中,LLM 可通過 “多 token 并行生成” 加速文本產出,核心思路是讓模型一次預測多個位置的 token&#x