Deepseek-R1 和 OpenAI o1 這樣的推理模型普遍存在“思考不足”的問題

??每周跟蹤AI熱點新聞動向和震撼發展想要探索生成式人工智能的前沿進展嗎？訂閱我們的簡報，深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同，從行業內部的深度分析和實用指南中受益。不要錯過這個機會，成為AI領域的領跑者。點擊訂閱，與未來同行！訂閱：https://rengongzhineng.io/

等模型如何處理復雜推理。結果顯示，o1 這類大模型在面臨難題時容易陷入“推理崩潰”，計算資源被不斷嘗試新方法消耗殆盡。然而，正確率更高的模型并不一定更高效，它們可能只是更擅長找到最終答案，而非更聰明地利用計算資源。

如何讓 AI“堅持己見”？
為了解決“思維不堅定”問題，研究團隊提出了一種新的解碼策略——“思維切換懲罰”（TIP）。它通過調整模型的概率分布，降低某些表示策略變化的詞語（比如“或者”）的權重，從而讓 AI 在跳到新思路前，更深入地探索當前路徑。

結果表明，TIP 確實讓 AI 更加“堅定立場”：QwQ-32B-Preview 在數學競賽 MATH500-Hard 任務中的正確率從 82.8% 提高到了 84.3%，并且推理過程更加穩定。這一改進同樣適用于 GPQA Diamond、AIME2024 等高難度測試集。

研究人員表示，這項研究揭示了一個關鍵點——提升 AI 的推理能力并不只是堆砌更多算力，而是要教會模型什么時候應該堅持，什么時候才該換思路。未來，他們計劃進一步優化 AI 的問題解決方式，讓它們自主判斷“該堅持還是該變通”，從而真正實現更高效、更聰明的推理過程。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/894551.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/894551.shtml
英文地址，請注明出處：http://en.pswp.cn/news/894551.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！