1. 引言:大模型的推理解碼優化
大型語言模型(LLM)在處理數學、編碼等復雜推理任務時,一種強大但“耗能巨大”的技術是self-consistency,也稱并行思考(parallel thinking)。其核心思想是讓模型對同一個問題生成多條不同的“思考路徑”(reasoning traces),然后通過多數投票(majority voting)來決定最終答案。這種“集思廣益”的方式能顯著提升準確率,但代價是驚人的計算開銷——為了提升十幾個百分點的精度,可能需要生成數百條完整的推理路徑,消耗數百萬甚至上億的token。
然而,這些思考路徑的質量是良莠不齊的。標準的大多數投票機制“一視同仁”地對待每一條路徑,導致高質量的“金點子”常常被大量低質量的“胡思亂想”所淹沒。更糟糕的是,我們必須等到所有路徑都生成完畢,才能進行投票,無法提前“掐掉”那些明顯跑偏的思路。
在此背景下,來自Meta AI和UCSD的研究者們提出了Deep Think with Confidence (DeepConf),一個簡單、無需額外訓練、卻異常強大的測試時(test-time)優化方法。它通過實時監控模型內部的“置信度”信號,動態地過濾和提前終止低質量的推理路徑,旨在實現更少的計算,更高的精度。
本文將作為一份DeepConf的深度技術剖析指南,從其核心的置信度測量,到在線與離線兩種應用模式,全方位揭示這個為LLM推理裝上“儀表盤”和“智能剎車”的精妙技術。