阿里 Qwen3 四模型齊發，字節 Coze 全面開源，GPT-5 8 月初發布！| AI Weekly 7.21-7.27

📢本周AI快訊 | 1分鐘速覽🚀

1?? 🧠 阿里 Qwen3 全系列爆發 ：一周內密集發布四款新模型，包括 Qwen3-235B-A22B-Thinking-2507、Qwen3-Coder 和 Qwen3-MT，MMLU-Pro 成績超越 Claude Opus 4，百萬 token 僅 2 元。

2?? 🛠? 字節跳動 Coze 全面開源 ：AI Agent 平臺“扣子”（Coze）采用 Apache 2.0 協議開源，僅需 2 核 CPU 和 4GB 內存即可運行，含 Coze Studio 和 Coze Loop 兩大核心項目。

3?? 💻 通義靈碼接入 Qwen3-Coder ：阿里 AI 編程助手全面免費不限量，480B 參數激活 35B 的 MoE 架構，支持 256K token 上下文，性能直逼 Claude Sonnet 4。

4?? 🎯 騰訊 CodeBuddy IDE 發布 ：首個全棧 AI IDE，覆蓋“產品-設計-研發-部署全流程，內置 Claude-4.0-Sonnet 和 Gemini-2.5-Pro，從想法到上線一步到位。

5?? 🚀 階躍星辰 Step 3 開源 ：321B 參數 MoE 模型，推理效率達 DeepSeek-R1 的 300%，聯合華為等成立"模芯生態創新聯盟"，打通模型-芯片-應用全鏈路。

6?? 🎯 訊飛星火 X1 升級版 ：基于全國產算力訓練，對標 OpenAI o3，支持 130 余種語言，僅需 4 張華為 910B 算力卡即可運行。

7?? 🧩 快手 KAT-V1 開源 ：40B 參數推理模型，解決"過度思考"問題，token 使用量降低 30%，LiveCodeBench Pro 測試超越 o3-mini。

8?? ? GitHub Spark 公測啟動 ：基于 Claude Sonnet 4 驅動，一句話生成全棧應用并一鍵部署，需訂閱 Copilot Pro+（39 美元/月）。

9?? 🎨 谷歌 Opal 無代碼工具 ：面向美國用戶公測，自然語言生成網頁應用，支持可視化編輯和一鍵發布，主打"氛圍編程"概念。

1??0?? 🔥 OpenAI GPT-5 即將發布 ：計劃 8 月初推出標準版、mini 版和 nano 版，首次融合傳統 GPT 與推理 o 系列能力于單一系統。

1??1?? 🏆 谷歌 Gemini 獲 IMO 金牌 ：國際數學奧賽 6 道題解決 5 道，得分 35/42，采用自然語言直接生成數學證明，4.5 小時內完成。

01｜阿里 Qwen3 系列密集發布，通用到垂直全覆蓋

本周，阿里通義千問團隊開啟“高產模式”，密集發布并開源了四款 Qwen3 系列新模型，全面覆蓋從通用智能到垂直應用場景。其中，旗艦基礎模型包括擅長復雜推理任務的 Qwen3-235B-A22B-Thinking-2507 以及專注高效執行與人類對齊的 Qwen3-235B-A22B-Instruct-2507，后者在 MMLU-Pro 基準測試中的成績飆升至 83.0，甚至超越了 Claude Opus 4 和 Kimi K2。此外，專注代碼生成的 Qwen3-Coder 和支持 92 種語言互譯的 Qwen3-MT 也同步亮相，形成了“理解-執行-表達”的完整模型布局。

值得關注的是，阿里重新定義了“思考模式”模型，將原有的混合架構拆分為“推理型”（Thinking）和“指令型”（Instruct）兩個獨立版本，精準滿足了不同應用場景的需求。此外，Qwen3-MT 在覆蓋全球 95% 人口語言的同時，API 成本更低至百萬 token 僅 2 元人民幣，極具市場競爭力。這種全面而立體的產品矩陣不僅體現了阿里在 AI 大模型領域的領先實力，也標志著國產 AI 正從單點突破邁入生態競爭的新階段。

02｜字節跳動全面開源 Coze，AI Agent 開發迎來新拐點

7 月 26 日，字節跳動正式宣布將旗下 AI Agent 開發平臺“扣子”（Coze）全面開源，包括 Coze Studio 和 Coze Loop 兩大核心項目。本次開源采用極為寬松的 Apache 2.0 協議，允許任何個人與企業自由使用、修改，甚至商業化部署。尤其值得注意的是，系統運行的硬件門檻大幅降低，僅需 2 核 CPU 和 4 GB 內存即可，配合一鍵部署腳本，使 AI Agent 開發真正實現了“人人可用”。

從技術架構來看，Coze Studio 提供從開發到部署的完整工具鏈，采用 Golang 微服務架構，在字節內部大量產品中經受驗證，特別適合頻繁與大模型交互的高性能場景。另一核心組件 Coze Loop 則專注于 AI 智能體的全生命周期管理，從提示詞工程到性能監控均覆蓋在內。目前，已有上萬家企業和數百萬開發者正在使用 Coze 平臺，此次全面開源無疑將進一步加速 AI Agent 生態的繁榮。

有分析指出，此次開源不僅僅是技術分享，更體現了字節跳動布局 AI Agent 賽道的戰略意圖。相比 Dify 等開源競品的商業限制，Coze 更具開放性與包容性，未來極有可能成為 AI Agent 開發領域的行業標準，如同 Docker、Kubernetes 在容器化領域一樣。這也預示著 AI Agent 應用有望在開源生態的助推下快速迎來爆發式增長。

03｜阿里通義靈碼接入 Qwen3-Coder，免費不限量

7 月 24 日，阿里云宣布旗下 AI 編程助手“通義靈碼”正式全面接入最新開源的代碼模型 Qwen3-Coder，即日起在通義靈碼 AI IDE、VS Code 和 JetBrains 插件端為全球開發者提供不限量免費服務。

此次接入的最強版本 Qwen3-Coder 采用了 480B 參數激活 35B 參數的 MoE 架構，原生支持 256K token 上下文，擴展后可達 1M token，在 Agentic Coding 等關鍵指標中達到開源模型 SOTA 水平，性能直逼 Claude Sonnet 4，在部分任務上甚至實現了反超。得益于此，初級程序員的工作效率大幅提升至資深程序員的 5 倍，生成一個完整品牌官網最快只需 5 分鐘。

效率提升引發了全球開發者社區的熱烈反響，Hugging Face CEO 克萊門特·德朗格直言“這真有趣”，知名風投 a16z 合伙人馬克·馬斯克羅更是評價其“幾乎與 Claude 4 一樣厲害”。目前，通義靈碼插件累計下載量已超 2000 萬次，生成代碼超過 30 億行，成為國內最受歡迎的編程輔助工具，一汽集團、蔚來汽車等上萬家企業均已接入使用。

04｜騰訊發布全棧 AI IDE CodeBuddy，從想法到上線一步到位

7 月 22 日，騰訊正式發布旗下首個全棧 AI IDE 產品 CodeBuddy IDE，定位為覆蓋“產品-設計-研發-部署”全流程的 AI 一站式開發工作臺。與傳統 AI 編程助手專注代碼生成不同，CodeBuddy IDE 整合了產品經理、設計師、開發者三大角色的工作流程，用戶僅需用自然語言描述需求，即可自動生成 PRD 文檔、交互原型、前后端代碼，甚至實現一鍵部署上線。國際版內置了 Claude-4.0-Sonnet 和 Gemini-2.5-Pro 等頂級模型，國內版則全面接入騰訊混元、DeepSeek 等國產大模型。

在技術架構上，CodeBuddy IDE 通過四大智能體完整覆蓋開發全流程：Plan Agent 負責需求拆解與產品規劃；Design Agent 基于 DSL 語言生成可直接修改的交互設計稿；Coding Agent 支持從 Figma 設計稿一鍵生成高質量前端代碼；而 Deploy Agent 則提供與 Supabase、騰訊云 TCB 等平臺的無縫集成，真正實現了一鍵上線。此外，該 IDE 還兼容 MCP（Model Control Protocol）協議，方便開發者自定義擴展更多功能。

騰訊云表示，未來 AI 編程將分化為“氛圍編程”（適合快速實現簡單應用）和“規約編程”（適合復雜系統的專業協作）兩種模式，CodeBuddy IDE 正好滿足了這兩種范式融合的需求。目前該產品處于內測階段，需邀請碼激活，內測期間提供 Pro 版權益與高級模型額度。這類 AI 產品將極大縮短產品從構想到落地的周期，對獨立開發者、創業團隊及非技術背景的產品經理來說，或將成為快速驗證產品想法的重要工具。

05｜階躍星辰發布 Step 3 大模型，牽頭成立國產芯片聯盟

7 月 25 日，階躍星辰在世界人工智能大會（WAIC 2025）開幕前夕正式發布新一代基礎大模型 Step 3，并宣布將于 7 月 31 日向全球開發者開源。作為該公司首個全尺寸原生多模態推理模型，Step 3 采用 MoE 架構，總參數量達 321B，激活參數 38B，在 MMMU、MathVision、AIME 2025 等國際多模態基準測試中均實現開源模型 SOTA 成績，推理效率更高達 DeepSeek-R1 的 300%。

除了技術創新，更值得關注的是階躍星辰聯合華為昇騰、沐曦、壁仞科技、燧原科技、天數智芯、寒武紀、摩爾線程等近 10 家國產芯片巨頭，共同成立“模芯生態創新聯盟”。目前，華為昇騰芯片已率先完成對 Step 3 的適配運行，其他成員企業的適配也在同步推進中。這是國內首次由模型企業牽頭，打通“模型-芯片-應用”全鏈路生態，預示著國產 AI 正式進入協同發展的新時代。

據階躍星辰 CEO 姜大昕透露，得益于上半年業務高速增長，公司今年營收目標已提升至 10 億元。目前，Step 系列大模型已廣泛應用于汽車、具身智能、物聯網領域，超過半數的國產頭部手機品牌均與階躍星辰展開 AI 智能體合作。

06｜訊飛星火 X1 升級版發布，國產算力對標 OpenAI o3

7 月 25 日，科大訊飛正式發布深度推理大模型訊飛星火 X1 升級版。據官方介紹，新版本基于全國產算力訓練，在翻譯、推理、文本生成、數學推理等任務上可對標 OpenAI o3，多語言支持擴展至 130 余種。值得關注的是，新版模型針對大模型幻覺問題進行了重點優化，在事實性幻覺和忠實性幻覺治理兩方面均取得明顯改善。

具體應用場景方面，基于星火 X1 的語音同傳大模型翻譯質量較半年前提升 20%，專業詞匯覆蓋達 8 萬余個，尤其在醫療和教育等訊飛傳統優勢領域的表現進一步加強。此外，該模型支持“快思考-慢思考”統一架構，官方表示僅需 4 張華為 910B 算力卡即可完整運行，大幅降低了企業進行私有化部署的硬件成本。

07｜快手開源推理模型 KAT-V1，40B 性能直逼 R1-0528

7 月 21 日，快手正式開源自研大語言推理模型 Kwaipilot-AutoThink（KAT-V1），專門解決當前推理模型普遍存在的“過度思考”問題。這款擁有 40B 參數的模型采用獨創的“自動思考”訓練范式，能夠根據任務復雜度動態切換推理與非推理模式，在保障任務效果的前提下，可將 token 使用量降低約 30%。在 LiveCodeBench Pro 防泄露基準測試中，KAT-V1 更是超越所有開源模型，表現甚至超過閉源的 Seed 和 o3-mini 模型。

在技術上，KAT-V1 引入了多項創新，包括雙模態數據集構建、結合 Multi-Token Prediction（MTP）的知識蒸餾、冷啟動初始化策略，以及創新強化學習算法 Step-SRPO。在多個基準測試中，該模型的表現均達到甚至超越當前頂尖模型，如 DeepSeek-R1-0528 和 Qwen3-235B-A22B。

此外，據快手團隊透露，目前正積極訓練一個規模達 200B 參數的混合專家（MoE）模型，激活參數為 40B，初步測試結果已展現出優異的性能和效率，進一步驗證了 AutoThink 訓練框架的擴展潛力。

08｜GitHub Spark 公測啟動，一句話生成全棧應用

7 月 23 日，GitHub 宣布 AI 應用開發平臺 GitHub Spark 正式進入公開預覽階段，向所有 Copilot Pro+ 用戶開放。該平臺以 Claude Sonnet 4 為核心驅動，用戶只需用自然語言描述想法，即可在幾分鐘內自動生成前后端完整的全棧應用，并支持一鍵部署上線。整個過程無需進行復雜的配置、環境搭建或 API 密鑰管理，極大地簡化了傳統開發流程。

GitHub Spark 的最大亮點在于與 GitHub 生態的深度融合。每個生成的應用都會自動創建對應的 GitHub 倉庫，并配置好 GitHub Actions 與 Dependabot，每次修改均自動提交為獨立的 commit。此外，用戶還能隨時在 Codespaces 或本地 VS Code 中繼續精細開發，并通過 Copilot 代理模式執行更復雜的編程任務。該平臺還內置 OpenAI、Meta、DeepSeek 和 xAI 等多個 AI 模型，無需用戶管理 API 密鑰即可快速添加智能功能。

業內人士分析，GitHub Spark 的推出標志著 AI 編程真正邁入“氛圍編程”（vibe coding）時代。相較于谷歌 Opal 等競品只能實現簡單網頁開發，Spark 支持創建完整的全棧應用，并提供從原型到生產的無縫工作流。GitHub CEO Thomas Dohmke 表示，這款產品將幫助實現“讓 10 億人成為開發者”的愿景。目前該服務需訂閱 Copilot Pro+（39 美元/月），GitHub 未來計劃進一步擴大開放范圍。

09｜谷歌推出無代碼工具 Opal，用自然語言生成網頁應用

7 月 24 日，谷歌通過 Google Labs 正式推出實驗性 AI 編程工具 Opal，目前已面向美國用戶開放公測。該工具聚焦于“氛圍編程”（vibe-coding）趨勢，用戶只需用自然語言描述所需功能，Opal 即可自動生成可視化的應用工作流，并轉化為無需編寫任何代碼即可運行的網頁應用。每個工作流步驟均支持點擊查看和修改提示詞，實現了透明且易用的 AI 構建體驗。

Opal 的推出意味著谷歌正式加入了無代碼 AI 工具的競爭行列。就在前一天，微軟旗下的 GitHub 發布了類似的 Spark 工具，而亞馬遜 AWS 的 Kiro、Replit 和 Cursor 等平臺也在競逐這一市場。谷歌強調自身產品的差異化在于強大的視覺化編輯能力和極低的使用門檻，用戶可直接從模板庫選擇并進行“重混”（remix），完成后即可一鍵發布，通過鏈接分享即可使用谷歌賬號訪問應用。

TechCrunch 認為，相較于谷歌現有的開發者工具 AI Studio，Opal 的視覺化界面更顯直觀，旨在吸引更廣泛的用戶群體，尤其適合營銷、銷售等非技術部門快速進行原型搭建、概念驗證和生產力工具的創建。

10｜OpenAI 預計 8 月初發布 GPT-5，多版本融合推理能力

7 月 25 日，據 The Verge 報道，OpenAI 計劃在 8 月初正式推出下一代語言模型 GPT-5。此次發布將包含標準版、mini 版與 nano 版三個版本，其中 nano 版僅通過 API 提供。這一計劃原定于今年 5 月，但因額外的安全與性能測試需求而推遲數月。據悉，微軟工程師早在 5 月就已開始為 GPT-5 部署服務器容量，發布前期準備已基本完成。

GPT-5 最大的突破在于首次將傳統 GPT 模型與推理導向的 o 系列模型（如 o3）能力整合于單一系統。OpenAI CEO Sam Altman 稱其為“融合大量技術成果的系統”，目的是簡化用戶體驗，避免在不同模型間頻繁切換。本周，Sam Altman 在播客中透露自己曾用 GPT-5 完美解決了一個他無法回答的問題，坦言這一體驗令他產生了“奇妙的感覺”。此外，OpenAI 代碼庫近期也出現了 gpt-5-reasoning-alpha-2025-07-13 等字樣，表明模型已進入最終測試階段。

值得關注的是，OpenAI 此前還計劃推出自 2019 年 GPT-2 以來的首個開源權重模型，類似于 o3-mini，將通過 Azure、Hugging Face 等平臺提供。同時有消息稱，OpenAI 正積極推進視頻生成工具 Sora 第二代版本的開發。在谷歌 Gemini 和 Anthropic Claude 等競爭對手高速發展的背景下，GPT-5 的發布被視為 OpenAI 保持行業領先地位的關鍵布局。

11｜繼 OpenAI 后，谷歌 Gemini 獲國際數學奧賽金牌

7 月 21 日，谷歌 DeepMind 宣布其增強版 Gemini 模型在國際數學奧林匹克競賽（IMO）測試中斬獲金牌成績，6 道題目成功解決 5 道，總得分 35 分（滿分 42 分）。IMO 主席 Gregor Dolinar 教授對此表示肯定：“谷歌 DeepMind 達到了這一重要里程碑，他們的解答清晰、準確，且大部分易于理解。”此前，OpenAI 的實驗性推理模型也曾獲得相同分數的金牌成績。

此次 Gemini 模型最大的技術進步在于推理方式的革新。與去年需借助 Lean 等形式化語言、耗時數天才能完成的解題方式不同，今年的 Gemini Deep Think 模型完全采用自然語言，直接基于官方題目描述生成完整而嚴謹的數學證明，且在規定的 4.5 小時內完成。谷歌 DeepMind 高級研究員 Thang Luong 表示，此次參賽的模型與日常提供給用戶的 Gemini 主力版本極為接近，相關能力預計很快將向數學界等可信測試者開放。

盡管 AI 已表現出強大實力，但人類參賽者依舊占據優勢。本屆比賽共有 5 名學生獲得滿分 42 分，金牌比例約為參賽選手的 10%。Gemini 模型從專用推理向通用模型的轉變，標志著 AI 推理能力達到新高度，谷歌表示計劃明年繼續參賽，挑戰滿分紀錄。