【AI News | 20250512】每日AI進展

AI Repos

1、UI-TARS
UI-TARS-1.5 是字節跳動開源的多模態智能體，基于強大的視覺語言模型構建，通過強化學習實現高級推理，顯著提升了在虛擬世界中執行多樣化任務的能力和適應性。相較前期模型，1.5 版本在 OSWorld、Windows Agent Arena 和 WebVoyager 等基準測試中取得了領先成果，并在 Poki 游戲和 Minecraft 等環境展現出卓越性能。該項目提供了快速上手指南、部署和后處理說明，以及針對桌面、移動和基礎任務的不同提示模板。盡管性能強大，UI-TARS-1.5 仍面臨潛在的濫用、高計算需求和幻覺等局限性，未來將致力于提升模型能力并探索在實際應用中的潛力。
在這里插入圖片描述

2、agent-api
Simple Agent API 是一個穩健的、可用于生產環境的應用程序，旨在將 AI 智能體作為 API 進行服務化。它包含一個用于處理 API 請求的 FastAPI 服務器、一個用于存儲智能體對話會話、知識和記憶的 PostgreSQL 數據庫，以及一組預構建的智能體作為起點。該框架支持使用 Docker Compose 快速啟動，默認采用 GPT 4.1 模型，并可通過 Agno Playground 或 Agent UI 進行交互。開發者可以輕松配置 API 密鑰，利用預構建的 Web 搜索、Agno 助手和金融智能體，并支持通過 Dockerfile 部署到各種云平臺。
在這里插入圖片描述

3、Muyan-TTS
Muyan-TTS 是一款為預算 5 萬美元的播客應用設計的可訓練文本轉語音（TTS）模型。它在超過 10 萬小時的播客音頻數據上進行預訓練，能夠實現高質量的零樣本 TTS 合成，并支持通過數十分鐘的目標語音進行說話人自適應，高度可定制化。該項目開源了零樣本和少量樣本 TTS 模型權重，以及從基礎模型到說話人自適應 SFT 模型的訓練代碼和技術報告。Muyan-TTS 在單個 A100 GPU 上實現了快速的合成速度，但目前僅支持英語輸入。提供了詳細的安裝、模型下載、快速上手、API 使用和訓練指南。
在這里插入圖片描述

4、agentset
Agentset 是一個面向開發者的開源檢索增強生成（RAG）平臺。其技術棧包括 Next.js、TypeScript、Tailwind、Shadcn/ui、Upstash、Supabase、Prisma、BetterAuth、Turborepo、Stripe、Resend 和 Vercel。該平臺提供自托管指南，開發者可通過簡單的步驟安裝依賴、配置環境變量、遷移數據庫并啟動本地 Upstash 工作流服務器和開發服務器。Agentset 采用 MIT 許可證開源，旨在為開發者提供構建 RAG 應用的基礎設施。
在這里插入圖片描述

5、LocalSite-ai
LocalSite AI 是一款現代 Web 應用，利用 AI 根據自然語言提示生成完整的 HTML、CSS 和 JavaScript 代碼，實現一鍵創建網頁。它支持 DeepSeek、兼容 OpenAI API 的自定義接口以及 Ollama 和 LM Studio 等本地模型。用戶可以通過簡潔的界面輸入提示，實時預覽桌面、平板和移動視圖，并直接在瀏覽器中編輯生成的代碼。LocalSite AI 提供多種 AI 提供商選擇，并計劃集成更多模型和高級代碼生成功能，如選擇框架、多文件生成和 Agentic 編輯能力。該項目采用 Next.js、React、Tailwind CSS 等技術棧，并支持 Vercel 等平臺部署。
在這里插入圖片描述

6、Local_Chat_RAG
Local Chat RAG 是一款本地運行、注重隱私的檢索增強生成（RAG）聊天應用。用戶可以上傳 DOCX、PDF 等文檔，并向基于本地開源 LLM（如 Mistral、Llama2）的應用提問，獲取帶有文檔來源的答案，所有數據處理均在用戶本地進行，無云端交互。該應用采用 Vite、React、TypeScript、Zustand 和 Chakra UI 構建現代用戶界面，后端使用 FastAPI 提供 API，并集成 Ollama 進行本地 LLM 和嵌入。Local Chat RAG 具有模塊化、可擴展的代碼結構和完善的文檔。
在這里插入圖片描述

AI News

1、ChatGPT 推出 PDF 導出功能，優化深度研究報告分享
ChatGPT 新增了將深度研究報告直接導出為 PDF 格式的功能，解決了以往復制內容時格式丟失的問題，方便用戶分享研究成果。ChatGPT 的深度研究功能能夠自動進行復雜的多步驟研究，整合網絡信息生成詳盡報告。用戶現在可以通過新增的“下載為 PDF”選項，輕松保存高質量的報告文件。此外，OpenAI 還為團隊訂閱用戶推出了新的 GitHub 連接器，旨在增強 ChatGPT 在代碼管理和團隊協作方面的能力，進一步提升用戶體驗和團隊合作效率。

2、蘋果發布 FastVLM 模型：iPhone 上極速運行的高分辨率視覺語言模型
蘋果發布 FastVLM，一款專為 iPhone 等移動設備優化的高效視覺語言模型。其核心創新在于 FastViTHD 混合視覺編碼器，實現了高達 85 倍的編碼速度提升，并通過動態分辨率調整、層次化令牌壓縮和硬件優化，在保持性能的同時顯著降低計算和內存需求。FastVLM 在 SeedBench、MMMU 等基準測試中表現出色，并支持 CoreML 集成，可在 iPhone 上實現實時多模態推理，應用于 AR、圖像編輯和醫療影像分析等場景。蘋果已開源 FastVLM 的代碼和模型，標志著其在移動端 AI 戰略上的重要一步。

3、字節跳動開源 8B 參數代碼模型 Seed-Coder，引領智能編程新風潮
字節跳動 Seed 團隊發布了開源代碼模型 Seed-Coder，包含 Base、Instruct 和 Reasoning 三個變體，參數規模 8B，上下文長度 32K，并采用 MIT 協議。Seed-Coder 的核心創新在于“模型為中心”的數據處理方式，利用小型 LLM 自動策劃和過濾代碼數據，顯著提升了數據質量和模型性能。在 SWE-bench、Multi-SWE-bench 和 IOI 等基準測試中，Seed-Coder 均超越同級別競品，展現出強大的代碼生成、補全、編輯和推理能力，堪稱輕量級代碼模型的佼佼者。字節跳動此次開源進一步推動了 AI 在軟件工程領域的應用。

4、NVIDIA AI 發布 Audio-SDS：SDS 技術賦能音頻擴散模型，革新音效生成與多任務處理
NVIDIA AI 研究團隊推出了 Audio-SDS，通過將 Score Distillation Sampling (SDS) 技術擴展到文本條件音頻擴散模型，實現了音效生成、音源分離及多任務音頻處理能力的顯著提升。Audio-SDS 無需重新訓練即可將預訓練音頻擴散模型轉化為多功能工具，支持文本條件控制的高效推理。該技術在音源分離、音效合成、FM 合成和語音增強等任務中表現卓越，降低了開發成本，并為娛樂、智能設備和教育創作等領域帶來廣泛的應用前景。NVIDIA 已開源相關論文和音頻樣本，推動 AI 音頻創新。

5、Fellou 發布全球首款 AI 智能瀏覽器，效率提升 5 倍
Fellou 號稱全球首款 Agentic 瀏覽器，利用 AI 自動化實現深度研究和跨平臺工作流一鍵完成。其深度研究模式通過并行搜索多個平臺，數分鐘內生成完整報告；深度工作流模式則支持自然語言指令觸發跨平臺任務自動化，如社交媒體發帖和郵件發送。Fellou 基于 Claude3.5 和 OpenAI 等先進 AI 系統，注重用戶隱私，數據本地處理并端到端加密。官方數據表明，Fellou 完成復雜任務的速度比手動操作快 5.2 倍。該瀏覽器提供免費版本，高級功能需訂閱，項目已開源。

6、騰訊開源多模態視頻生成框架 HunyuanCustom，強調高一致性與強控制力
騰訊開源了全新的多模態定制視頻生成框架 HunyuanCustom，該框架基于 HunyuanVideo 打造，核心特點是“主體一致性”和“多模態靈活輸入”。HunyuanCustom 支持文本、單/多圖、參考音頻甚至已有視頻片段作為輸入，生成定制化視頻，并著重保證視頻中人物或物體身份的一致性。該框架在虛擬人物廣告、虛擬試穿、唱歌頭像生成和智能視頻編輯等領域展現出巨大潛力，旨在降低多模態視頻創作門檻，為開發者和內容創作者提供高質量、高一致性的視頻生產能力。

7、騰訊發布 PrimitiveAnything 框架，革新 3D 形狀生成方式
騰訊 AIPD 與清華大學聯合推出了 PrimitiveAnything 框架，將 3D 形狀抽象重新定義為原始組件生成任務。該框架采用解碼器式變換器，通過統一的參數化方案和自動回歸生成方式，高效捕捉復雜形狀的分解模式。PrimitiveAnything 支持多種原始形狀類型，并利用級聯解碼器建模屬性依賴關系。研究團隊構建了包含人工標注的 HumanPrim 數據集進行評估，結果表明該框架在重構準確性和與人類抽象模式的一致性上表現優異，并支持從文本或圖像生成可編輯的 3D 內容，實現高建模質量和存儲節省，適用于高效互動 3D 應用。

8、谷歌 Gemini 2.5 Pro 突破視頻理解極限，支持 6 小時分析與 YouTube 鏈接解析
谷歌 Gemini 2.5 Pro 在視頻理解能力上實現重大升級，不僅能分析長達 6 小時的視頻，還具備 200 萬 Token 的超大上下文窗口，并首次支持通過 API 直接解析 YouTube 鏈接。該模型在 VideoMME 基準測試中準確率高達 84.7%。Gemini 2.5 Pro 能夠一次性處理長視頻內容，精準定位關鍵時刻，并進行復雜的跨時間分析。這項技術基于 3D-JEPA 和多模態融合技術，為教育、創意產業和商業分析等領域帶來創新應用，并通過低分辨率處理模式降低了長視頻分析成本。

9、Anthropic Claude API 新增網頁搜索功能，直指谷歌搜索
Anthropic 于 5 月 8 日宣布為其 Claude API 引入網頁搜索功能，允許開發者構建能夠訪問最新網絡信息的智能應用程序。通過啟用該功能，Claude 在接收需要最新信息的請求時，將利用推理能力判斷是否需要進行網絡搜索，并能進行漸進式搜索以生成更全面的答案，且附帶來源引用。該功能在金融服務、法律研究和開發者工具等領域具有廣泛的應用潛力，使得 Claude 能夠提供更準確和及時的信息服務，直接挑戰以谷歌為首的傳統搜索引擎。

10、QwenChat 上線網頁開發功能，一句指令生成精美網頁
QwenChat 近日推出了全新的網頁開發（Web Dev）功能，用戶只需輸入一句自然語言指令，例如“創建一個水果電商網站”，系統即可自動生成結構清晰、風格美觀的網頁代碼并支持預覽和調整。該功能不僅限于電商網站，還能用于制作音樂播放器、單詞記憶卡片等多種網頁應用，為不具備編程技能的用戶提供了便捷的網頁創建方式。目前，該功能已集成至 QwenChat 平臺（chat.qwen.ai）。

11、騰訊混元 T1-Vision 上線元寶，深度理解圖片內容
騰訊混元 T1-Vision 模型已上線元寶 App，具備深度理解圖片內容的能力，能夠精確捕捉圖片背后的關鍵信息。用戶上傳圖片后，無論是不常見的植物、外文游戲界面還是復雜決策場景，元寶都能快速給出詳細解答和分析。其“深度思考 T1”功能支持圖文之間的多模態原生思維鏈，反應速度更快，完答速度提升 1.5 倍。元寶旨在幫助用戶更高效準確地獲取和理解信息，已在學習、工作和日常生活中展現出多方面優勢，用戶可通過騰訊元寶官方網站下載使用。