??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/
等模型如何處理復雜推理。結果顯示,o1 這類大模型在面臨難題時容易陷入“推理崩潰”,計算資源被不斷嘗試新方法消耗殆盡。然而,正確率更高的模型并不一定更高效,它們可能只是更擅長找到最終答案,而非更聰明地利用計算資源。
如何讓 AI“堅持己見”?
為了解決“思維不堅定”問題,研究團隊提出了一種新的解碼策略——“思維切換懲罰”(TIP)。它通過調整模型的概率分布,降低某些表示策略變化的詞語(比如“或者”)的權重,從而讓 AI 在跳到新思路前,更深入地探索當前路徑。
結果表明,TIP 確實讓 AI 更加“堅定立場”:QwQ-32B-Preview 在數學競賽 MATH500-Hard 任務中的正確率從 82.8% 提高到了 84.3%,并且推理過程更加穩定。這一改進同樣適用于 GPQA Diamond、AIME2024 等高難度測試集。
研究人員表示,這項研究揭示了一個關鍵點——提升 AI 的推理能力并不只是堆砌更多算力,而是要教會模型什么時候應該堅持,什么時候才該換思路。未來,他們計劃進一步優化 AI 的問題解決方式,讓它們自主判斷“該堅持還是該變通”,從而真正實現更高效、更聰明的推理過程。