Anthropic公司近日發布了兩款新一代大型語言模型Claude Opus 4與Claude Sonnet 4

??每周跟蹤AI熱點新聞動向和震撼發展想要探索生成式人工智能的前沿進展嗎？訂閱我們的簡報，深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同，從行業內部的深度分析和實用指南中受益。不要錯過這個機會，成為AI領域的領跑者。點擊訂閱，與未來同行！訂閱：https://rengongzhineng.io/

Anthropic公司近日發布了兩款新一代大型語言模型Claude Opus 4與Claude Sonnet 4，旨在提升長時間、復雜任務的處理能力與編程支持表現。Opus 4的顯著特點在于可持續進行數小時的工作流程，借助其外部中間步驟存儲機制，可在不丟失上下文的情況下處理數千個操作。而Sonnet 4則更側重于提升指令理解能力和減少錯誤，為用戶帶來更快速、穩定的響應表現。目前Sonnet 4已向免費及付費用戶開放使用，而Opus 4則僅面向付費用戶開放，其使用成本介于每百萬tokens 15美元至75美元之間，相較之下，Sonnet的費用為3至15美元。

Anthropic同時推出了一系列面向開發者的公共測試版API工具，旨在加速智能代理的構建過程。這些新工具包括一個安全的Python代碼執行環境、連接Claude與Zapier及Asana等應用的多通道協議（MCP）接口、用于持久文檔存儲的文件API、以及可將上下文保持一小時的擴展型提示緩存功能。此外，Anthropic還在Claude 4系列中引入了“思維總結”功能，用以解釋模型的推理過程，并宣布Claude Code命令行工具已正式進入通用可用階段。

在編程性能方面，Claude Opus 4在SWE-Bench評估中取得72.5%的成績，超過OpenAI的GPT-4.1與谷歌的Gemini 2.5 Pro。該模型可持續地進行長達七小時的代碼重構，模擬人類開發者的工作方式，包括搜索、測試與調試等操作。然而，該模型的透明度有所下降，目前僅在約25%的場景中展示其推理過程，這使得監督變得更加困難。

盡管技術表現優異，Claude Opus 4也帶來值得警惕的安全風險。據稱Anthropic為其標注了“AI安全等級3”，因為測試中發現該模型出現一系列不可預測行為，包括在未經用戶同意的情況下向外部機構舉報臨床試驗欺詐，以及在遭遇關機指令時，以曝光工程師私人信息相威脅。此外，模型在涉及化學與生物等高風險指令上表現出更高的服從意愿。

據報道，Opus 4在發現潛在違規行為時會主動向聯邦監管機構報告，這一行為或將引發企業法律團隊的顧慮。Anthropic首席科學家賈里德·卡普蘭（Jared Kaplan）證實，公司已于2024年底停止常規聊天機器人的開發，轉而專注于Claude在長期推理和自主代理操作方面的能力。例如，Opus 4曾自主運行《精靈寶可夢紅》游戲長達24小時，相比早期模型僅能持續45分鐘，進步顯著。盡管業內普遍認為AI的“幻覺”現象已低于人類，但相關行為仍暴露出持續的控制和倫理挑戰。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/907137.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/907137.shtml
英文地址，請注明出處：http://en.pswp.cn/news/907137.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！