名人說:博觀而約取,厚積而薄發。——蘇軾《稼說送張琥》
創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder😊)
目錄
- 一、3分鐘速覽版:一張表看懂本周AI大事
- 二、OpenAI:gpt-realtime 上線,語音智能終于“可落地”
- 1. 發生了什么?
- 2. 小案例:3步把客服熱線接進AI
- 三、AI安全:Claude“反濫用”報告+頭部聯測的信號
- 1. 真實世界的三類濫用
- 2. 頭部公司“聯合評估”的啟示
- 四、產品線升級:Gemini、VLM與多終端
- 1. Google:Gemini Live 持續迭代
- 2. Microsoft:Copilot 進入客廳屏
- 五、生態與競爭:外采模型、開放策略與“誰用誰”
- 結語
很高興你打開了這篇博客,更多AI知識,請關注我、訂閱專欄《AI知識圖譜》,內容持續更新中…
大家好,我是流蘇👋,今天我們一起了解一下本周的一些AI熱點。
- 如果你想看簡單版,下面筆者整理了3分鐘速覽版,放到了表格里,可以查看
一、3分鐘速覽版:一張表看懂本周AI大事
日期 | 機構/產品 | 動作 | 一句話影響 |
---|---|---|---|
8/28 | OpenAI Realtime API / gpt-realtime | 正式商用,支持SIP電話、遠程MCP工具、圖片輸入,并降價 | 語音座席不再停留在Demo,進入可規模落地階段。 (OpenAI) |
8/27 | Anthropic Claude | 發布AI濫用威脅情報與典型案例(勒索、朝鮮遠程用工詐騙、RaaS) | 安全攻防進入“對抗真實犯罪場景”的新階段。 (Anthropic) |
8/27 | OpenAI × Anthropic | 聯合公布一次安全評估做法與結果 | 頭部公司在評測與治理上出現協作苗頭。 (OpenAI) |
8/28 | Microsoft Copilot | 上線三星2025款TV/顯示器,客廳可直接呼叫AI助理 | AI從電腦和手機“走進客廳屏”。 (The Verge, Forbes) |
8/30 | Meta | 與員工討論是否在產品中調用OpenAI或Google的模型 | 大廠更務實:在“自研/外采”之間動態取舍。 (Reuters) |
8/24 | xAI Grok 2.5 | 部分開源/算法公開,持續推進開放路線 | 開源/公開策略成為差異化競爭點。 (TechCrunch) |
二、OpenAI:gpt-realtime 上線,語音智能終于“可落地”
1. 發生了什么?
OpenAI宣布 Realtime API 全面可用,并推出新的語音到語音模型 gpt-realtime
。要點包括:
- 通話級能力:原生支持SIP,可把AI座席接入公網電話/PBX/座機;
- 工具擴展:會話內支持遠程 MCP(Model Context Protocol)服務器,像“熱插拔”一樣給座席掛接新工具;
- 多模態輸入:語音會話里可以補充圖片/截圖,讓AI基于“看得見”的內容回答;
- 成本與時延:相較舊版預覽,價格下降并強調低時延,更貼近生產;
- 適配異步函數調用,長耗時工具不再打斷對話。 (OpenAI)
2. 小案例:3步把客服熱線接進AI
(1)把現有電話系統的SIP信息寫入會話配置;
(2)在會話中注冊業務工具(如check_order
、refund
),也可通過MCP把外部系統掛進來;
(3)在system
里定規則(話術/合規)+可復用的Prompt模板。
這樣,一個能打電話、會查系統、懂流程的AI坐席就能在真實客服里跑起來了。上述能力均來自本次Realtime的原生支持。 (OpenAI)
三、AI安全:Claude“反濫用”報告+頭部聯測的信號
1. 真實世界的三類濫用
Anthropic發布8月安全情報:
- “Agent化勒索”:攻擊者用 Claude Code 自動化內網偵察、數據竊取與勒索話術生成;
- 朝鮮遠程用工詐騙:用大模型偽造身份、通過筆試、“保住崗位”;
- RaaS(勒索即服務):低技術門檻的攻擊者在AI輔助下售賣勒索套件。
針對這些,Anthropic通報了封禁與檢測器更新,并與相關部門共享技術指標。 (Anthropic)
補充:安全社區亦有第三方報道對這些濫用手法進行歸納,側面印證其廣度與嚴重性。(BleepingComputer)
2. 頭部公司“聯合評估”的啟示
OpenAI與Anthropic公開了一次聯合安全評估的做法和經驗,討論了如何在“邊發布、邊治理”的節奏里,形成跨公司協作的評測與基線。
對行業意味著:不只是“各家自測”,而是共享評估思路與對抗樣本,把“安全紅線”進一步社會化。 (OpenAI)
四、產品線升級:Gemini、VLM與多終端
1. Google:Gemini Live 持續迭代
谷歌本周更新了 Gemini Live 的頁面與能力說明,強調實時語音對話的穩定性/隱私與更多可用平臺,并與安卓生態應用做打通;
開發者面向的圖像創建/編輯(如 Gemini 2.5 Flash Image)繼續推進。
對于用戶而言,語音+視覺的一體化交互在手機端與Web端都更順手了。 (blog.google, Google DeepMind)
2. Microsoft:Copilot 進入客廳屏
微軟與三星宣布:Copilot 上線2025款電視與智能顯示器,支持語音互動、內容推薦與“劇情回顧”等場景。AI第一次以“常駐形象”進入客廳大屏,形態從App升級為“家庭數字伙伴”。 (The Verge, Forbes)
五、生態與競爭:外采模型、開放策略與“誰用誰”
- Meta在內部討論是否在部分產品中直接調用OpenAI/Google模型。這釋放了一個信號:當體驗/時效優先時,大廠也可能在自研與外采間切換,以達到“最好用”的目標。 (Reuters)
- xAI在8/24進一步公開Grok 2.5相關資源/代碼,延續開放姿態,加速社區復現與評測。對比“閉源領先”的路線,開放框架有利于快速迭代與人才吸引。 (TechCrunch)
結語
這一周的主線很清晰:語音智能從“炫技”走向“可用”,安全對抗從“規則”走向“實戰”,生態競爭從“閉門造車”走向“靈活拼裝”。對團隊而言,一個能打電話、會用工具、可落地的AI座席與一套能對抗真實濫用的安全基線,就是現在值得投入的兩件事。
隨著AI的發展,更貼近人類日常使用的模型會越來越多,相應著隨著AI能力的提升,AI的安全性也需隨之提升。
參考與來源(節選)
- OpenAI:gpt-realtime與Realtime API更新、SIP/MCP/圖片輸入、定價與可用性。(OpenAI)
- OpenAI × Anthropic:聯合安全評估做法與結論。(OpenAI)
- Anthropic:AI濫用威脅情報(8月)與三類真實案例。(Anthropic)
- Microsoft × Samsung:Copilot上電視/顯示器,媒體報道與落地細節。(The Verge, Forbes)
- Meta:討論外部模型接入(路透)。(Reuters)
- xAI:Grok 2.5開放動作(TechCrunch,另有路透跟進)。(TechCrunch)
- Google/DeepMind:Gemini Live與2.5 Flash Image能力頁面。(blog.google, Google DeepMind)
- 政策環境:美國州級AI立法加速(Investopedia匯總)。(Investopedia)
創作者:Code_流蘇(CSDN)(一個喜歡古詩詞和編程的Coder😊)