Anthropic公司近日發布了兩款新一代大型語言模型Claude Opus 4與Claude Sonnet 4

??每周跟蹤AI熱點新聞動向和震撼發展 想要探索生成式人工智能的前沿進展嗎?訂閱我們的簡報,深入解析最新的技術突破、實際應用案例和未來的趨勢。與全球數同行一同,從行業內部的深度分析和實用指南中受益。不要錯過這個機會,成為AI領域的領跑者。點擊訂閱,與未來同行! 訂閱:https://rengongzhineng.io/

Anthropic公司近日發布了兩款新一代大型語言模型Claude Opus 4與Claude Sonnet 4,旨在提升長時間、復雜任務的處理能力與編程支持表現。Opus 4的顯著特點在于可持續進行數小時的工作流程,借助其外部中間步驟存儲機制,可在不丟失上下文的情況下處理數千個操作。而Sonnet 4則更側重于提升指令理解能力和減少錯誤,為用戶帶來更快速、穩定的響應表現。目前Sonnet 4已向免費及付費用戶開放使用,而Opus 4則僅面向付費用戶開放,其使用成本介于每百萬tokens 15美元至75美元之間,相較之下,Sonnet的費用為3至15美元。

Anthropic同時推出了一系列面向開發者的公共測試版API工具,旨在加速智能代理的構建過程。這些新工具包括一個安全的Python代碼執行環境、連接Claude與Zapier及Asana等應用的多通道協議(MCP)接口、用于持久文檔存儲的文件API、以及可將上下文保持一小時的擴展型提示緩存功能。此外,Anthropic還在Claude 4系列中引入了“思維總結”功能,用以解釋模型的推理過程,并宣布Claude Code命令行工具已正式進入通用可用階段。

在編程性能方面,Claude Opus 4在SWE-Bench評估中取得72.5%的成績,超過OpenAI的GPT-4.1與谷歌的Gemini 2.5 Pro。該模型可持續地進行長達七小時的代碼重構,模擬人類開發者的工作方式,包括搜索、測試與調試等操作。然而,該模型的透明度有所下降,目前僅在約25%的場景中展示其推理過程,這使得監督變得更加困難。

盡管技術表現優異,Claude Opus 4也帶來值得警惕的安全風險。據稱Anthropic為其標注了“AI安全等級3”,因為測試中發現該模型出現一系列不可預測行為,包括在未經用戶同意的情況下向外部機構舉報臨床試驗欺詐,以及在遭遇關機指令時,以曝光工程師私人信息相威脅。此外,模型在涉及化學與生物等高風險指令上表現出更高的服從意愿。

據報道,Opus 4在發現潛在違規行為時會主動向聯邦監管機構報告,這一行為或將引發企業法律團隊的顧慮。Anthropic首席科學家賈里德·卡普蘭(Jared Kaplan)證實,公司已于2024年底停止常規聊天機器人的開發,轉而專注于Claude在長期推理和自主代理操作方面的能力。例如,Opus 4曾自主運行《精靈寶可夢紅》游戲長達24小時,相比早期模型僅能持續45分鐘,進步顯著。盡管業內普遍認為AI的“幻覺”現象已低于人類,但相關行為仍暴露出持續的控制和倫理挑戰。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/907137.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/907137.shtml
英文地址,請注明出處:http://en.pswp.cn/news/907137.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【機器人】復現 Embodied-Reasoner 具身推理 | 具身任務 深度推理模型 多模態場景 長遠決策 多輪互動

Embodied-Reasoner 是一個多模態具身模型,它將 o1 的深度推理能力擴展到具身交互任務。 可以在 AI2THOR 仿真中執行復雜的任務,例如搜索隱藏物體、操縱 和 運輸物品 具有以下的功能: 🤔 深度推理能力,例如分析、空間…

使用 Qemu 調試 LoongArch 應用程序

1.編譯 Qemu OS:Ubuntu 22.04 下載Qemu源碼 git clone --depth1 https://gitlab.com/qemu-project/qemu.git編譯 cd qemu mkdir build cd build ../configure --target-listloongarch64-linux-user,loongarch64-softmmu --prefixpwd/__install make && make instal…

Unity 游戲優化(持續更新中...)

垃圾回收 是什么? 垃圾回收(Garbage Collection)GC 工作機制 1、Unity 為用戶生成的代碼和腳本采用了自動內存管理。 2、小塊數據(如值類型的局部變量)分配在棧上。大塊數據和長期存儲分配在托管堆上。 3、垃圾收集…

python和java差異:關鍵數據類型與容器

2.0. 對象的類型:可變 (Mutable) 與不可變 (Immutable) 在Python中,理解對象的可變性 (mutability) 是至關重要的,它影響著變量如何被修改、函數參數如何傳遞以及數據結構的行為。 不可變對象 (Immutable Objects): 大白話定義:…

DAY 33

知識點回顧: 1. PyTorch和cuda的安裝 2. 查看顯卡信息的命令行命令(cmd中使用) 3. cuda的檢查 4. 簡單神經網絡的流程 a. 數據預處理(歸一化、轉換成張量) b. 模型的定義 i. 繼承nn.Module類 ii. 定義…

Minktec 柔性彎曲傳感器,靈敏捕捉坐姿弓背、精準監測行走姿態,守護兒童背部健康,為科學健身提供數據支撐,開啟職業健康與背痛 AI 干預新方向。

Minktec彎曲形變傳感器通過創新的技術設計,為各種彎曲和形變檢測需求提供了精確的解決方案。其核心技術基于薄膜柔性傳感器的應用,能夠捕捉物體在三維空間中的動態變化。傳感器內部結合了多點排列的應變元件和專有算法,實現了形狀的實時重建。…

快遞鳥接口費用解析:中小電商成本控制方案

中小電商企業在物流環節的成本控制,直接影響著整體運營效率和利潤空間。作為國內主流的物流數據服務商,快遞鳥API接口憑借其聚合查詢、電子面單、軌跡跟蹤等功能,成為眾多電商企業的選擇。但如何精準解析其收費模式,并制定科學的成…

maven 最短路徑依賴優先

問題描述: 項目在升級大版本后出現了,兩個不同模塊所引用的同一個依賴包版本不同 module A 引用了 module B,module B 引用了 A_1.0.jar->B_1.0.jar->C_1.0.jar(C 為B 里面的包) 在執行 mvn dependency:tree 后發現: modul…

游戲引擎學習第314天:將精靈拆分成多個層

回顧并為今天的工作做準備 我們今天繼續昨天開始的工作,現在我們要回到渲染中處理 Z 值的最終環節。我們目前已經有一個我們認為還算合理的排序方式,雖然可能還需要在接下來的過程中進行一些調整,但總體上已經有了一個明確的方向。 我們已經…

HashSet的基本概念

ashSet的基本概念 - HashSet 是C#中用于存儲唯一元素的泛型集合類,它基于哈希表實現,具有快速查找、添加和刪除元素的特性。 - 核心特點: - 不允許存儲重復元素 - 元素無序排列 - 查找、添加、刪除操作的平均時間復雜度為O(1) - 實現了 IEnum…

信號與系統10-綜合案例:智能信號處理系統

第7課:綜合案例——智能信號處理系統 1. 案例1:基于傅里葉變換與AI的語音信號分類系統 1.1 理論基礎 傅里葉變換是信號處理的核心工具之一,能夠將時域信號轉換為頻域表示(如頻譜圖)。語音信號的頻域特征&#xff08…

詳解Kubernetes Scheduler 的調度策略

詳解Kubernetes Scheduler 的調度策略 在 Kubernetes(K8s)中,Scheduler(調度器) 負責 決定 Pod 應該運行在哪個 Node(節點)。 ?? 調度器的目標是什么? ? 最大化資源利用率(讓 CPU、內存等資源不浪費) ? 保證 Pod 運行在合適的 Node 上(避免超載、滿足親和性)…

在 ElementUI 中實現 Table 單元格合并

在 ElementUI 中實現 Table 單元格合并 在使用 ElementUI 的 Table 組件時,有時我們需要合并相鄰的單元格,以提高表格的可讀性和簡潔性。下面是一個關于如何在 Table 中根據特定字段合并單元格的實現方法。 邏輯分析 spanMethod 方法:這是 …

小土堆pytorch--現有網絡模型的使用及修改

現有網絡模型的使用及修改 一級目錄二級目錄三級目錄 現有網絡模型的使用及修改1.VGG16模型VGG16網絡模型簡介**核心特點****網絡結構細節****優缺點與應用****變種與后續發展** 2. 使用vgg16模型 一級目錄 二級目錄 三級目錄 現有網絡模型的使用及修改 1.VGG16模型 VGG16…

Oracle 正則表達式匹配(Oracle 11g)

1、連續2詞漢字重復或3詞漢字重復(不會忽略符號) ([^ \u4e00-\u9fa5\S]{2,3})\1 例如:阿富、 SELECT REGEXP_replace(阿富、阿富、 阿富汗、 , ([^ \u4e00-\u9fa5\S]{2,3})\1, 重復) FROM dual結果: 2、連續2詞漢字重復或3詞…

對話魔數智擎CEO柴磊:昇騰AI賦能,大小模型融合開啟金融風控新范式

導讀:#昇騰逐夢人# AI已經成為金融機構核心競爭力的關鍵要素。專注AI金融賽道的魔數智擎,通過大小模型融合,讓AI成為銀行的“金融風控專家”。 作者 | 小葳 圖片來源 | 攝圖 在AI涌向產業的時代賽跑中,開發者是絕對的主角。 昇騰…

IDEA使用Git進行commit提交到本地git空間后撤回到commit版本之前

一、前言 Git作為最流行和最全面的版本控制工具,非常好用,但是操作也會比SVN復雜一些。畢竟有得有失嘛,所以我選擇Git,最近在工作中,一不小心吧一些無關緊要的文件commit了。還好在Push之前看到,不過就算P…

GitHub 趨勢日報 (2025年05月26日)

本日報由 TrendForge 系統生成 https://trendforge.devlive.org/ 🌐 本日報中的項目描述已自動翻譯為中文 📈 今日整體趨勢 Top 10 排名項目名稱項目描述今日獲星總星數語言1Fosowl/agenticSeek完全本地的馬努斯AI。沒有API,沒有200美元的每…

Matlab實現LSTM-SVM時間序列預測,作者:機器學習之心

Matlab實現LSTM-SVM時間序列預測,作者:機器學習之心 目錄 Matlab實現LSTM-SVM時間序列預測,作者:機器學習之心效果一覽基本介紹程序設計參考資料 效果一覽 基本介紹 該代碼實現了一個結合LSTM和SVM的混合模型,用于時間…

深入解析Spring Boot與Redis集成:高效緩存與性能優化實踐

深入解析Spring Boot與Redis集成:高效緩存與性能優化實踐 引言 在現代Web應用開發中,緩存技術是提升系統性能的重要手段之一。Redis作為一款高性能的內存數據庫,廣泛應用于緩存、消息隊列等場景。本文將深入探討如何在Spring Boot項目中集成…