Manus 全面開放注冊，OpenAI 發布 Codex，ChatGPT 上線 GPT-4.1！| AI Weekly 5.12-18

📢本周 AI 快訊 | 1 分鐘速覽🚀

1?? 📝 Manus 全面開放注冊 ：無需邀請碼即可注冊，新用戶免費獲得 1000 積分，每日 300 積分免費任務。

2?? 🔍 阿里 Qwen 推出「深入研究」 ：QwenChat 免費開放深度研究助理，僅需數分鐘完成復雜研究任務。

3?? 🔧 阿里通義實驗室開源 ZeroSearch ：強化學習框架讓大模型無需依賴真實搜索引擎，自主學習搜索與推理。

4?? 📸 騰訊發布混元圖像 2.0 ：毫秒級實時生圖，超寫實畫質，避免 AI 味，細節更豐富。

5?? 🧑?💻 OpenAI 發布 Codex 軟件工程智能體 ：支持自動化編程任務，覆蓋代碼編寫、錯誤修復、測試運行等。

6?? 💡 OpenAI 上線 GPT-4.1 模型 ：編程專家版上線 ChatGPT，GPT-4.1 mini 替代 GPT-4o mini，所有用戶可使用。

7?? 🔗 OpenAI 測試 MCP 協議 ：ChatGPT 即將支持 Model Context Protocol，可連接第三方服務。

8?? 🎤 OpenAI 計劃推出 ChatGPT Record 功能 ：實現實時會議錄音、轉錄和自動總結。

9?? ? Windsurf 發布 SWE-1 系列 ：專為軟件工程設計，SWE-1、SWE-1-lite、SWE-1-mini 全面上線。

🔟 🌐 Anthropic 即將發布 Claude Neptune ：安全測試收官，挑戰 OpenAI 和谷歌 Gemini，預計 5 月底或 6 月初發布。

1??1?? 🚀 馬斯克稱 Grok 3.5 仍需打磨 ：還有點太粗糙，預計還需一周推出。

1??2?? ? Meta 推遲發布 Behemoth 模型 ：因技術瓶頸，發布時間推至秋季，引發投資者擔憂。

1. Manus 官宣全面開放注冊

5 月 12 日，曾因邀請碼炒至數萬元而備受關注的 AI 智能體平臺 Manus 宣布全面開放注冊，所有用戶無需邀請碼即可免費體驗。注冊用戶將一次性獲得 1000 積分獎勵，并可每日免費獲得 300 積分，用于執行一項任務，積分當日有效，不可結轉。

Manus 由中國初創團隊 Monica 開發，定位為通用型 AI 智能體，能夠自主完成復雜任務，如撰寫報告、制作表格等。此前，Manus 采用邀請制，邀請碼在二手平臺一度被炒至近 10 萬元人民幣，引發廣泛關注。

據報道，Manus 最近完成了由美國風險投資公司 Benchmark Capital 領投的 7500 萬美元融資，估值達 5 億美元。此次融資將用于加速產品開發和市場拓展，應對來自 OpenAI、Google 等科技巨頭的競爭。

2. 阿里通義千問上線「深入研究」功能

5 月 13 日，阿里巴巴旗下的通義千問（Qwen）正式推出全新智能助理系統「深入研究」（Deep Research），并在 QwenChat 平臺免費向所有用戶開放體驗。

「深入研究」能夠根據用戶提供的提示詞（prompt），自動規劃多步驟的研究流程。系統首先分析用戶需求，提出反問以確認任務細節，隨后制定研究計劃，自動查找、分析并整合來自網絡的相關信息，最終生成結構清晰、數據可信的研究報告。這一過程大幅縮短了研究時間，原本需要數小時的任務現在僅需十幾分鐘即可完成。

該功能深度融合了 Qwen 的模型推理能力、Agent 能力及長上下文窗口技術，并通過強化學習優化性能，實現了從需求理解到成果交付的閉環。用戶只需在 QwenChat 對話框中點擊“深入研究”按鈕，即可立即體驗這一智能助理。

3. 阿里通義實驗室開源搜索框架 ZeroSearch

阿里通義實驗室近日正式開源了 ZeroSearch，這是一個創新性的強化學習框架，旨在讓大型語言模型（LLM）在無需依賴真實搜索引擎的情況下，學習搜索與推理能力。該方法通過模擬搜索環境，顯著降低了訓練成本，同時在多個評測中展現出超越傳統搜索引擎的性能。

ZeroSearch 的核心在于使用預訓練的 LLM（如 Qwen2.5 系列）模擬搜索引擎的行為。實驗結果顯示，使用 3B 參數的模擬模型即可有效訓練 LLM 的搜索能力；7B 模型的性能已與谷歌搜索相當；而 14B 模型則在多個基準測試中超越了谷歌搜索。

傳統的搜索增強訓練方法依賴于真實搜索引擎，導致高昂的 API 成本和不可控的文檔質量。ZeroSearch 通過模擬搜索過程，成功將訓練成本降低了近 88%。例如，使用谷歌搜索 API 訓練 64,000 個查詢的成本約為 586.70 美元，而使用 14B 參數的模擬模型在四個 A100 GPU 上訓練的成本僅為 70.80 美元。

目前，ZeroSearch 已在 GitHub 和 Hugging Face 上開源，提供完整的代碼、數據集和預訓練模型，支持全球開發者在本地環境中進行訓練和部署。這一創新性的框架為中小型企業和研究機構提供了低成本、高效能的解決方案，有望推動 AI 搜索技術的普及與發展。

4. 騰訊發布生圖模型：混元圖像 2.0

5 月 16 日，騰訊正式發布了 混元圖像 2.0 模型（Hunyuan Image2.0），在騰訊混元官方網站上線，并對外開放注冊體驗。該模型的核心特點為“實時生圖”和“超寫實畫質”。

混元圖像 2.0 相較前代模型，參數量提升了一個數量級，得益于超高壓縮倍率的圖像編解碼器以及全新擴散架構，其圖像生成速度顯著快于行業領先模型。在同類商業產品每張圖推理速度需要 5 到 10 秒的情況下，騰訊混元號稱可實現毫秒級響應，支持用戶可以邊打字或者邊說話邊出圖，改變了傳統“抽卡 — 等待 — 抽卡”的方式，帶來交互體驗革新。

除了速度快以外，騰訊混元圖像 2.0 模型圖像生成質量提升明顯，通過強化學習等算法以及引入大量人類美學知識對齊，生成的圖像可有效避免 AIGC 圖像中的“AI 味”，真實感強、細節豐富、可用性高。

5. OpenAI 推出 Codex 軟件工程智能體

5 月 16 日，OpenAI 正式發布了 Codex 智能體，這是一個基于云端的 AI 軟件工程助手，通過自動化編程任務，如代碼編寫、錯誤修復和測試運行，提升開發者的工作效率。

Codex 由 OpenAI 的 codex-1 模型驅動，這是在 o3 推理模型基礎上，專為軟件開發任務優化的版本。該智能體能夠并行處理多個開發任務，包括實現新功能、修復代碼錯誤、回答代碼庫相關問題，并提出代碼審查請求。每項任務都在獨立的云端沙盒環境中運行，預加載用戶的代碼庫，確保操作的安全性和隔離性。

與傳統的代碼自動補全工具不同，Codex 不僅能生成代碼，還能在虛擬環境中執行命令、運行測試，并根據測試結果進行迭代優化。此外，Codex 具備解釋其操作的能力，幫助開發者理解其生成的代碼和修改建議，從而提高協作效率。

Codex 目前已集成至 ChatGPT，面向 ChatGPT Pro、Team 和 Enterprise 用戶開放使用。未來，OpenAI 計劃將 Codex 的訪問權限擴展至 Plus 和 Edu 用戶，并持續優化其功能。

6. OpenAI 為 ChatGPT 推出 GPT-4.1 模型

5 月 14 日，OpenAI 正式在 ChatGPT 中上線了全新一代多模態模型 GPT-4.1，并同步推出輕量版 GPT-4.1 mini。

GPT-4.1 被定位為“編程專家模型”，在代碼生成、調試、測試和文檔撰寫等任務中表現出色。相比前代 GPT-4o，新模型在 SWE-bench 編程基準測試中的得分提升了 21%，并支持高達 100 萬個 token 的上下文窗口，約為 GPT-4o 的 8 倍，顯著增強了處理大型項目和復雜指令的能力。

目前，GPT-4.1 已向 ChatGPT 的 Plus、Pro 和 Team 用戶開放，Enterprise 和 Edu 用戶將在未來幾周內獲得訪問權限。

同步推出的 GPT-4.1 mini 替代了原有的 GPT-4o mini，成為所有 ChatGPT 用戶（包括免費用戶）的默認模型。

7. 爆料：ChatGPT 即將支持 MCP 協議

5 月 16 日，科技媒體 bleepingcomputer 發布爆料稱，OpenAI 正在測試將 Model Context Protocol（模型上下文協議，簡稱 MCP）集成至 ChatGPT 的功能，允許用戶將第三方服務作為上下文接入 AI 對話流程。這一新功能通過新增的“Connectors”設置，用戶可自定義添加工具，輸入名稱、URL 和描述，使 ChatGPT 能夠訪問外部應用或 API 的信息。例如，用戶可連接 Gmail、日歷、數據庫等服務，實現更豐富的交互體驗。

MCP 是由 Anthropic 于 2024 年推出的開源標準，旨在簡化 AI 模型與外部工具、數據源的集成流程。通過 MCP，開發者無需為每個數據源編寫專屬代碼，只需一次集成，即可讓 AI 系統與多種服務無縫連接。目前，包括 Replit、Codeium 和 Sourcegraph 在內的多家企業已在其 AI 工具中采用 MCP，提升了 AI 系統互操作性。

ChatGPT 對 MCP 的支持功能目前仍處于內部測試階段，預計 OpenAI 將在未來幾天或幾周內正式公布。

8. 爆料：OpenAI 計劃推出 ChatGPT “Record” 功能

5 月 14 日，X 用戶 @M1Astra 發現，OpenAI 正在為 ChatGPT 開發一項名為 “Record” 的新功能，旨在實現實時會議錄音、轉錄和總結。該功能可能會作為 ChatGPT 移動應用中的一項內置工具，允許用戶在會議、頭腦風暴或想法記錄過程中，直接通過應用進行錄音，并自動生成文字記錄和摘要。

根據泄露的信息，“Record” 功能將包括以下主要特性：

實時錄音與轉錄：用戶可以在 ChatGPT 應用中啟動錄音，系統將實時將語音轉換為文本。
暫停與恢復錄音：錄音過程中，用戶可以隨時暫停或恢復錄音，確保靈活性。
生成詳細報告和摘要：錄音結束后，ChatGPT 將利用其自然語言處理能力，生成會議的詳細報告和簡潔摘要，幫助用戶快速了解會議要點。
用戶隱私提示：在錄音開始前，應用將請求用戶授權訪問麥克風和系統音頻，并提醒用戶在錄音前獲得其他參與者的同意，以確保隱私合規。

目前，微軟 Teams 的 Copilot 已經提供了類似的會議記錄和總結功能，但主要面向 Microsoft 365 訂閱用戶。OpenAI 的“Record”功能如果成功推出，可能會為更廣泛的用戶群體提供類似的服務，降低使用門檻，尤其對中小企業和個人用戶具有吸引力。

目前，OpenAI 尚未正式宣布 “Record” 功能的發布時間和具體細節。

9. Windsurf 發布 SWE-1 系列軟件工程模型

5 月 15 日，AI 初創公司 Windsurf（前身為 Codeium）正式發布其首個自研 AI 模型系列 SWE-1，該系列專為軟件工程全流程設計，涵蓋代碼生成、調試、測試、文檔生成等多個環節，旨在將開發效率提升至 99%。

SWE-1 系列包括三款模型，分別針對不同的開發場景和用戶需求：

SWE-1：旗艦模型，具備高級推理和工具調用能力，性能接近 Claude 3.5 Sonnet，運行成本更低，現階段對付費用戶開放無限使用。
SWE-1-lite：中型模型，替代原有的 Cascade Base，性能更優，所有用戶（包括免費用戶）均可無限次使用。
SWE-1-mini：輕量級模型，專為 Windsurf Tab 的被動代碼預測功能設計，響應速度快，適合快速場景，同樣對所有用戶開放。

根據內部評測，SWE-1 在編程任務中的表現與 GPT-4.1 和 Gemini 2.5 Pro 相當，尤其在復雜的多輪任務和工具調用方面表現突出。

目前，開發者可通過 Windsurf Editor 體驗 SWE-1 系列模型。

值得一提的是，此前 OpenAI 已與 Windsurf 達成協議，將以約 30 億美元收購 Windsurf。

10. 爆料：Anthropic 新模型 Claude Neptune 即將發布

5 月 14 日，科技媒體 TestingCatalog News 爆料：Anthropic 正在為其下一代大型語言模型 Claude Neptune 進行最后的內部安全測試，預計將于 5 月 18 日完成紅隊演練，隨后可能在 5 月底或 6 月初正式發布。

Claude Neptune 的紅隊測試重點在于評估其對越獄攻擊的抵抗能力，特別是對 Anthropic 獨有的憲法式 AI 安全框架的穩健性進行驗證。初步測試結果顯示，該模型在處理潛在有害請求時表現出更高的敏感度和防御能力。

在架構方面，Claude Neptune 預計將引入以下關鍵升級：

增強的推理能力，可能在 Claude 3.7 的基礎上進一步優化“延展思維”功能。
更強大的代碼生成能力，延續 Claude 系列在開發者社區中的優勢。
改進的多模態處理能力，提升對圖像和文本等復雜輸入的理解。
可能擴展上下文窗口，超越當前的 200K token 限制。

11. 馬斯克：Grok 3.5 仍太粗糙，預計一周內發布

5 月 12 日，埃隆?馬斯克在 X 平臺上回應網友關于 Grok 3.5、o3 pro 和 GTA 6 哪個將最先發布的提問時表示：“3.5 還是有點太粗糙了。還需要一周左右的時間。

Grok 3.5 是馬斯克旗下 xAI 公司開發的下一代大型語言模型，旨在提升 AI 的推理能力和技術問題解答能力。據馬斯克介紹，該模型能夠準確回答關于火箭發動機和電化學等復雜技術問題，采用“第一性原理”進行推理，提供不依賴互聯網現有內容的原創答案。

Grok 3.5 的測試版預計將在未來一周內向 SuperGrok 訂閱用戶開放。此前，Grok 3 于 2025 年 2 月發布，采用了 xAI 的 Colossus 超級計算平臺進行訓練，具備圖像編輯、語音模式和高級推理等功能。

12. Meta 推遲發布 Behemoth 模型

據《華爾街日報》5 月 15 日報道，Meta 公司已將其旗艦 AI 模型 Behemoth 的發布計劃推遲至今年秋季或更晚，原因是內部對模型性能的擔憂。該模型原定于 4 月在 Meta 首屆 AI 開發者大會上亮相，后延期至 6 月，但目前尚未確定具體發布日期。

Behemoth 是 Llama 4 系列中的核心模型，采用混合專家（MoE）架構，擁有約兩萬億參數，旨在處理多模態輸入。然而，內部工程師在訓練過程中遇到技術瓶頸，模型在穩定性和輸出一致性方面未達預期，引發了對其發布時機和競爭力的質疑。

此次延期也反映出大型科技公司在 AI 模型開發中面臨的共同挑戰。例如，OpenAI 的 GPT-5 和 Anthropic 的 Claude 3.5 Opus 也因技術限制而推遲發布。此外，Meta 在 2025 年第一季度的資本支出已達 140 億美元，全年預計將投入 500 至 580 億美元用于 AI 基礎設施建設，但目前尚未明確 AI 投資的商業化路徑，這引發了投資者對其回報的擔憂。