【AI News | 20250507】每日AI進展

AI Repos

1、CFWorkerACME
SSL證書助手是一個免費開源的平臺，基于Cloudflare Worker運行，旨在自動化SSL證書的申請和下發，尤其適用于多服務器或內網環境。它通過自動化的CNAME和DNS操作完成域名驗證，支持Let’s Encrypt、ZeroSSL等多個證書提供商。相較于acme.sh，該平臺通過一次CNAME設置即可永久使用，簡化了通配符證書申請和多服務器同步。用戶可選擇使用演示平臺或部署私有實例，后者安全性更高。
在這里插入圖片描述

2、chonkie
Chonkie是一個Python庫，以其超輕量級、極速和易用性著稱，專為文本分塊而設計，尤其適用于RAG應用。它提供了包括遞歸、語義、代碼和神經等多種分塊策略，并通過CHOMP流水線實現靈活的文本處理。Chonkie支持17+集成，涵蓋主流tokenizer、嵌入模型和LLM提供商，并能與多種向量數據庫連接。其安裝體積小巧，速度在多項基準測試中領先于其他庫。Chonkie旨在提供高效、便捷的文本分塊方案。
在這里插入圖片描述

3、agent-as-a-judge
Agent-as-a-Judge 是一種新穎的評判 agentic 工作的方法和理念，旨在跨領域自動化評估并生成高質量的 agentic 數據集。該方法通過在任務執行期間或之后進行評估，相較人工專家節省了高達 97% 的時間和成本，并能提供連續的、逐步的反饋作為 agentic 系統訓練和改進的獎勵信號。MetaAuto-AI 開源的 DeepWiki (OpenWiki) 進一步展示了其應用潛力。作為概念驗證，Agent-as-a-Judge 在 DevAI 代碼生成基準測試中表現出色，顯著優于傳統評估方法，為 agentic 系統的可擴展自改進提供了可靠的獎勵信號。
在這里插入圖片描述

4、agent-squad
靈活地編排多個 AI 智能體以處理復雜的對話。它具備智能意圖分類、雙語支持、靈活的響應方式和上下文管理等特性，并易于擴展和部署。框架包含預構建的智能體和分類器，并通過引入 SupervisorAgent 實現更高級的團隊協作和并行處理。Agent Squad 可應用于多種場景，如智能客服、AI 電影制作和旅行規劃等，其架構通過分類器智能路由用戶輸入至最合適的智能體，并維護對話歷史以實現連貫交互。豐富的示例和文檔方便用戶快速上手和探索其強大功能。
在這里插入圖片描述

AI News

1、小紅書推出多模態筆記推薦框架 NoteLLM，提升用戶體驗
小紅書發布了名為 NoteLLM 的多模態大型語言模型框架，旨在提升筆記推薦的精準度。該框架通過對比學習和指令微調生成筆記的壓縮嵌入與自動標簽，解析用戶行為以實現更相關的推薦。升級版 NoteLLM-2 引入多模態輸入，能同時處理文本和圖像信息，利用多模態上下文學習和晚期融合增強視覺理解，從而實現更全面準確的推薦。NoteLLM 已應用于個性化推薦、冷啟動推薦和標簽生成等場景，助力用戶發現感興趣內容，并為新筆記提供快速曝光機會，推動小紅書內容推薦服務升級。

2、IBM 發布小巧強大的 Granite 4.0 Tiny Preview：突破長上下文處理限制
IBM 發布了 Granite4.0 Tiny Preview，作為其 Granite4.0 系列中最小的模型，展現了高效能和極低的內存需求，在消費級 GPU 上即可處理 128K 長上下文的并發任務。該模型采用創新的混合 Mamba-2/Transformer 架構，總參數 70 億，推理時僅激活 10 億，實現了速度與精度的結合。其不使用位置編碼的設計使其理論上能處理無限長序列，目前已在 128K 上表現良好。Granite4.0 Tiny 的效率使其適用于多種企業應用，IBM 將持續完善并在未來分享更多進展。

3、騰訊元寶文生圖功能升級：支持混元與 DeepSeek 雙模型驅動
騰訊元寶宣布其文生圖功能迎來重大升級，現已支持騰訊混元和 DeepSeek 兩大模型生成圖像。用戶僅需一句簡單的文字描述，即可在元寶全端生成高質量、復雜且富有想象力的圖片。升級后的功能能夠自動擴展和細化提示詞，確保生成的圖像與描述高度一致，無論是漫畫風格還是莫奈畫作都能輕松實現。此次升級顯著提升了圖像質量和多樣性，并降低了使用門檻，讓即使不熟悉專業提示詞的用戶也能便捷地創作出心儀的圖像，用戶可自由選擇混元或 DeepSeek 模型進行創作。

4、階躍星辰開源音樂大模型音躍ACE-Step：快速高質量生成多語言音樂
階躍星辰與 ACE Studio 聯合發布并開源了音樂大模型音躍 ACE-Step，該 35 億參數模型具備快速高質量生成、強可控性和易于拓展等特點，支持包括中、英、日等 19 種語言的歌曲生成。ACE-Step 通過創新架構和訓練策略提升了旋律流暢性和歌詞契合度，支持多種音樂風格創作和高質量純音樂生成。其快速和慢速兩種生成模式最快僅需 15 秒即可生成整首歌曲，并支持在不改變旋律的情況下精確修改歌詞內容。ACE-Step 具備高度可拓展性，支持 LoRA 和 ControlNet 等微調方式，采用一階段 DiT 架構和 REPA 技術提升音頻質量，并利用 DCAE 和線性 Transformer 架構提高生成速度與效率，為全球創作者提供高效靈活的音樂創作工具。

5、CausVid：新型混合 AI 模型實現秒級高質量視頻生成
麻省理工學院 CSAIL 與 Adobe Research 聯合研發出新型混合 AI 模型 CausVid，可在幾秒鐘內生成高質量視頻，突破了傳統逐幀生成方式的效率瓶頸。CausVid 結合了全序列擴散模型和自回歸模型，由擴散模型指導自回歸系統預測下一幀，有效避免錯誤累積，保證視頻流暢一致。該模型支持文本提示生成視頻、靜態圖片轉動態場景以及多種視頻編輯任務。性能測試顯示，CausVid 的生成速度是 OpenSORA 和 MovieGen 等基準模型的 100 倍，且在畫質和穩定性方面表現更優，未來有望實現更長時間、更高質量的視頻即時生成。

6、Lightricks 發布開源視頻模型 LTXV-13B：消費級硬件提速 30 倍
Lightricks 發布了擁有 130 億參數的開源 AI 視頻生成模型 LTXV-13B，該模型通過創新的“多尺度渲染”技術，在消費級硬件上實現了高達 30 倍的生成速度提升。LTXV-13B 逐層生成視頻細節，降低了計算需求，使得用戶在普通電腦上也能制作高質量 AI 視頻。Lightricks 將該模型完全開源，并在 Hugging Face 和 GitHub 上提供訪問，同時免費授權給年收入低于 1000 萬美元的初創企業，旨在推動 AI 視頻生成技術的發展和應用。

7、ComfyUI 品牌升級并推出原生 API 節點，一站式接入主流 AI 模型
ComfyUI 完成品牌升級，并推出了核心功能——原生 API 節點，集成了包括 Flux.1、Veo2、GPT-Image-1 等 11 個主流在線視覺 AI 模型和 65 個新節點，顯著提升了圖像和視頻生成能力。用戶無需自行申請 API 密鑰，登錄 ComfyUI 平臺即可無縫調用這些付費模型 API，并將其生成結果直接融入 ComfyUI 工作流。此次更新簡化了高級模型的接入流程，提高了工作流效率，尤其在處理復雜生成任務時速度提升顯著。ComfyUI 在品牌煥新的同時，也重申了其開源、自由、靈活的理念，API 節點的使用完全可選，平臺將始終保持免費開源。

8、聯想發布“天禧超級智能體”，開啟混合式 AI 新紀元
在 2025 聯想創新科技大會上，聯想正式發布了面向個人和企業的“天禧超級智能體”。這款產品被定位為個性化 AI 的超級入口，具備感知與交互、認知與決策、自主與演進三大核心能力。天禧支持多模態感知和自然語言指令，能夠整合個人數據和外部信息完成復雜推理任務，并能自主拆解和執行任務，根據用戶反饋不斷優化。聯想強調 AI 不會取代人類，而是賦能創造力，而天禧正是旨在通過個性化 AI 體驗和智能生態系統建設，加速混合式 AI 的全面落地，讓用戶“越用越聰明”。

9、Klavis AI 開源 MCP 集成，賦能大規模用戶與自定義工具
Klavis AI 推出了開源 MCP 集成解決方案，旨在為開發者提供高效穩定的 AI 應用集成與部署環境。該項目已在 GitHub 開源，提供全面的工具和資源，支持在一分鐘內將 AI 應用連接至生產就緒的 MCP 服務器和客戶端，并具備快速擴展能力。Klavis AI 的 MCP 集成提供穩定可靠的 MCP 服務器、內置身份驗證、官方或評估認證的高品質保障，以及 Slack、Discord 和 Web 等多種客戶端集成方式。此外，它還支持 100 多種工具的集成與定制，滿足多樣化的開發需求，加速 AI 技術的創新與普及。

10、OpenAI 發布新一代 GPT-4.1 模型，與智譜 Z.ai 同日競爭
OpenAI 發布了最新的 GPT-4.1 模型及其小型版本，相較前代在編碼能力、指令跟蹤和長上下文處理（高達 100 萬 tokens）方面均有顯著提升，尤其在 SWE-bench Verified 編碼測試中表現領先。與此同時，智譜也推出了新款 32B/9B 系列 GLM 模型在 Z.ai 平臺開放免費體驗，直接與 GPT-4.1 展開競爭。兩家公司的新模型都在代碼生成和長上下文理解方面展現出強大能力，且 GPT-4.1 的使用成本有所降低，預示著 AI 領域的激烈競爭格局。

11、Google 發布升級版 Gemini 2.5 Pro AI 模型，提升開發者編碼能力
Google 在 I/O 2025 開發者大會前夕推出了升級版 Gemini 2.5 Pro Preview 模型，通過 Gemini API、Vertex AI 和 AI Studio 平臺提供，價格與之前版本相同，并將集成至 Gemini 聊天機器人應用。新模型在編碼和構建交互式 Web 應用方面顯著提升，尤其在代碼轉換和編輯任務中表現出色，并在 WebDev Arena 排行榜上取得優異成績。此外，其視頻理解能力也在 VideoMME 基準測試中獲得高分。此次升級還解決了開發者反饋的問題，如減少函數調用錯誤，旨在為開發者提供更強大的工具，助力其在技術環境中保持競爭力。

12、360 開源升級 7B 參數模型 360Zhinao3-7B，各項能力顯著提升
360 集團開源升級了其自研的 7B 參數模型 360Zhinao3-7B，該模型通過僅增量訓練 700B 高質量 token，在數學、科學和通用能力上均實現顯著提升，尤其在端側應用方面展現出優勢。升級版模型通過更嚴格的數據篩選和調整數據配比，增強了指令遵循和推理能力，并將最大窗口長度擴展至 32k，優化了長文本處理能力。評估結果顯示，360Zhinao3-7B 在同尺寸模型中具備競爭力，并在長思維鏈訓練后，于數學和科學數據上達到相當水平，同時在通用多輪對話等方面表現更優。該模型的開源旨在推動 AI 技術發展。