AI日報 · 2025年5月15日|GPT-4.1 登陸 ChatGPT
1、OpenAI 在 ChatGPT 全面開放 GPT-4.1 與 GPT-4.1 mini
北京時間 5 月 14 日晚,OpenAI 在官方 Release Notes 中宣布:專為復雜代碼與精細指令場景打造的 GPT-4.1 正式加入 ChatGPT,Plus/Pro/Team 付費用戶即日起可在模型下拉菜單中直接調用;企業版與 Edu 版將于數周內接入。更新同 步推出 GPT-4.1 mini——在保持推理深度的同時大幅縮短響應延遲,取代原 GPT-4o mini 成為免費層超額 fallback 模型。
OpenAI 同時上線「Safety Evaluations Hub」,公開 GPT-4.1 系列最新安全基準數據,以期提升外部透明度。官方強調,兩款模型沿用 GPT-4o 相同速率限制,且在編碼、網頁開發與工具調用鏈路上具備更高穩健度,預計將成為開發者與高級用戶日常工作的“主力編譯器”。[1]
2、API 直接吃 PDF:OpenAI 推出原生文件輸入能力
5 月 15 日,OpenAI 在開發者社區公告板發布 「Direct PDF file input now supported in the API」,首次開放 PDF 作為 file_id
直傳格式,無需預先轉為文本或多頁圖片。新能力意味著開發者可在一次調用中上傳、解析并讓模型對復雜 PDF 結構(目錄、表格、批注)進行語義檢索、摘要或鏈式推理。官方示例還展示了結合 o4-mini-high 進行長鏈路推理的最佳實踐。此舉將進一步降低文檔智能化門檻,為 RAG、合同審核、科研論文導航等場景提供即插即用的后端能力。[2]
3、Google DeepMind 發布 AlphaEvolve:Gemini 驅動的算法設計代理
DeepMind 于 5 月 14 日深夜(PDT)發布博客,推出 AlphaEvolve —— 基于 Gemini 2.5 系列的跨語言多模態編碼代理。
官方稱,AlphaEvolve 通過自監督進化搜索結合強化學習,可在數小時內自動生成高質量近似最優算法,并支持 Python/C++/Rust 等語言輸出;內部基準顯示在圖著色、約束滿足與半定規劃等 12 個經典難題上平均超越人類專家基線 8.3 %。團隊還開源了評測框架與部分搜索日志,邀請學術界共同驗證可重復性。該項目被視作 AlphaGo 系列“搜索+RL”路線在通用算法設計上的首次產品化落地。[3]
4、Hugging Face × Kaggle:模型一鍵直連筆記本生態
開源社區旗艦 Hugging Face 5 月 14 日宣布與 Google Kaggle 達成深度集成:即日起,Hugging Face Hub 模型頁新增 “Open in Kaggle” 按鈕,用戶可一鍵生成預填代碼的 Kaggle Notebook;反向地,Kaggle 模型頁也同步展示 Hub 元數據與 Spaces 示例。雙方還自動為 Notebook 中引用且尚未托管的模型創建 Hub Entry,打通社區示例與數據血緣。官方博客指出,該集成后續將支持離線競賽場景與私有模型令牌透傳,目標是“讓任何開發者在零配置下練手最前沿開源 LLM”。[4]
5、DeepSeek-V3 硬件共設論文披露 2 048 張 H800 GPU 訓練細節
DeepSeek 團隊于 5 月 14 日 20:39 (北京時間)在 arXiv 發布論文《Insights into DeepSeek-V3》。
“硬件–模型協同”成為核心主題:團隊針對 H800 GPU 顯存與帶寬限制提出 Multi-head Latent Attention、FP8 混精度與多平面網絡拓撲,將 128 k 上下文訓練成本壓縮 43 %。文中還公開了 2 048 卡集群 55 天預訓練總耗 $5.6 M 的資源曲線,為大規模推理模型節能給出硬件參考。論文透露 DeepSeek-V3/R1 在推理階段已內置動態混合專家路由,指向下一代「R2 多代理協同」的實驗路線。[5]
6、Qwen 3 技術報告:思考模式與非思考模式合一
阿里 Qwen 團隊 5 月 14 日深夜釋出 Qwen 3 Technical Report。Qwen 3 覆蓋 0.6B-235B 多尺度密集與 MoE 版本,首創“Thinking Mode / Non-Thinking Mode 動態切換”與 思考預算機制:模型可根據任務復雜度自適應調用專家數與計算步長,在保持延遲可控的同時提升多步推理準確率。團隊聲稱,旗艦 235B-A22B MoE 模型在 MATH、CoderBench 與 Agent Arena 多項基準上全面領先同尺寸閉源模型,并擴充至 119 種語言方言。全部權重 Apache 2.0 開源。[6]
7、OpenAI 上線「Safety Evaluations Hub」集中公開模型安全指標
繼 GPT-4.1 入駐 ChatGPT 之際,OpenAI 同步推出 Safety Evaluations Hub。該站點匯總 GPT-4o、o-series、GPT-4.1 以及未來版本的越權輸出、拒答率、隱私泄漏等多維評測數據,并將隨模型迭代定期更新。官方表示此舉旨在讓外界更直觀追蹤模型風險曲線、促進社區復現與外部紅隊反饋,從而加速內部安全對齊流程。業內人士認為,OpenAI 此番“類 Model Card 即時化”策略,或將成為高強度監管語境下的大模型新合規范式。[7]
參考資料
[1] ChatGPT — Release Notes,更新日期:2025-05-14,OpenAI Help Center.
[2] Direct PDF file input now supported in the API,2025-05-15,OpenAI Developer Forum Announcements.
[3] AlphaEvolve: A Gemini-Powered Coding Agent for Designing Advanced Algorithms,2025-05-14,Google DeepMind Blog.
[4] Improving Hugging Face Model Access for Kaggle Users,2025-05-14,Hugging Face Blog.
[5] Zhao C. et al., “Insights into DeepSeek-V3: Scaling Challenges and Reflections on Hardware for AI Architectures”,arXiv preprint arXiv:2505.09343,2025-05-14.
[6] Qwen Team, “Qwen 3 Technical Report”,arXiv preprint arXiv:2505.09388,2025-05-14.
[7] Safety Evaluations Hub,OpenAI 官方網站,訪問時間:2025-05-15.
以上為今日重點 AI 新聞,歡迎關注后續更新。