【AI News | 20250512】每日AI進展

AI Repos

1、UI-TARS
UI-TARS-1.5 是字節跳動開源的多模態智能體,基于強大的視覺語言模型構建,通過強化學習實現高級推理,顯著提升了在虛擬世界中執行多樣化任務的能力和適應性。相較前期模型,1.5 版本在 OSWorld、Windows Agent Arena 和 WebVoyager 等基準測試中取得了領先成果,并在 Poki 游戲和 Minecraft 等環境展現出卓越性能。該項目提供了快速上手指南、部署和后處理說明,以及針對桌面、移動和基礎任務的不同提示模板。盡管性能強大,UI-TARS-1.5 仍面臨潛在的濫用、高計算需求和幻覺等局限性,未來將致力于提升模型能力并探索在實際應用中的潛力。
在這里插入圖片描述

2、agent-api
Simple Agent API 是一個穩健的、可用于生產環境的應用程序,旨在將 AI 智能體作為 API 進行服務化。它包含一個用于處理 API 請求的 FastAPI 服務器、一個用于存儲智能體對話會話、知識和記憶的 PostgreSQL 數據庫,以及一組預構建的智能體作為起點。該框架支持使用 Docker Compose 快速啟動,默認采用 GPT 4.1 模型,并可通過 Agno Playground 或 Agent UI 進行交互。開發者可以輕松配置 API 密鑰,利用預構建的 Web 搜索、Agno 助手和金融智能體,并支持通過 Dockerfile 部署到各種云平臺。
在這里插入圖片描述

3、Muyan-TTS
Muyan-TTS 是一款為預算 5 萬美元的播客應用設計的可訓練文本轉語音(TTS)模型。它在超過 10 萬小時的播客音頻數據上進行預訓練,能夠實現高質量的零樣本 TTS 合成,并支持通過數十分鐘的目標語音進行說話人自適應,高度可定制化。該項目開源了零樣本和少量樣本 TTS 模型權重,以及從基礎模型到說話人自適應 SFT 模型的訓練代碼和技術報告。Muyan-TTS 在單個 A100 GPU 上實現了快速的合成速度,但目前僅支持英語輸入。提供了詳細的安裝、模型下載、快速上手、API 使用和訓練指南。
在這里插入圖片描述

4、agentset
Agentset 是一個面向開發者的開源檢索增強生成(RAG)平臺。其技術棧包括 Next.js、TypeScript、Tailwind、Shadcn/ui、Upstash、Supabase、Prisma、BetterAuth、Turborepo、Stripe、Resend 和 Vercel。該平臺提供自托管指南,開發者可通過簡單的步驟安裝依賴、配置環境變量、遷移數據庫并啟動本地 Upstash 工作流服務器和開發服務器。Agentset 采用 MIT 許可證開源,旨在為開發者提供構建 RAG 應用的基礎設施。
在這里插入圖片描述

5、LocalSite-ai
LocalSite AI 是一款現代 Web 應用,利用 AI 根據自然語言提示生成完整的 HTML、CSS 和 JavaScript 代碼,實現一鍵創建網頁。它支持 DeepSeek、兼容 OpenAI API 的自定義接口以及 Ollama 和 LM Studio 等本地模型。用戶可以通過簡潔的界面輸入提示,實時預覽桌面、平板和移動視圖,并直接在瀏覽器中編輯生成的代碼。LocalSite AI 提供多種 AI 提供商選擇,并計劃集成更多模型和高級代碼生成功能,如選擇框架、多文件生成和 Agentic 編輯能力。該項目采用 Next.js、React、Tailwind CSS 等技術棧,并支持 Vercel 等平臺部署。
在這里插入圖片描述

6、Local_Chat_RAG
Local Chat RAG 是一款本地運行、注重隱私的檢索增強生成(RAG)聊天應用。用戶可以上傳 DOCX、PDF 等文檔,并向基于本地開源 LLM(如 Mistral、Llama2)的應用提問,獲取帶有文檔來源的答案,所有數據處理均在用戶本地進行,無云端交互。該應用采用 Vite、React、TypeScript、Zustand 和 Chakra UI 構建現代用戶界面,后端使用 FastAPI 提供 API,并集成 Ollama 進行本地 LLM 和嵌入。Local Chat RAG 具有模塊化、可擴展的代碼結構和完善的文檔。
在這里插入圖片描述

AI News

1、ChatGPT 推出 PDF 導出功能,優化深度研究報告分享
ChatGPT 新增了將深度研究報告直接導出為 PDF 格式的功能,解決了以往復制內容時格式丟失的問題,方便用戶分享研究成果。ChatGPT 的深度研究功能能夠自動進行復雜的多步驟研究,整合網絡信息生成詳盡報告。用戶現在可以通過新增的“下載為 PDF”選項,輕松保存高質量的報告文件。此外,OpenAI 還為團隊訂閱用戶推出了新的 GitHub 連接器,旨在增強 ChatGPT 在代碼管理和團隊協作方面的能力,進一步提升用戶體驗和團隊合作效率。

2、蘋果發布 FastVLM 模型:iPhone 上極速運行的高分辨率視覺語言模型
蘋果發布 FastVLM,一款專為 iPhone 等移動設備優化的高效視覺語言模型。其核心創新在于 FastViTHD 混合視覺編碼器,實現了高達 85 倍的編碼速度提升,并通過動態分辨率調整、層次化令牌壓縮和硬件優化,在保持性能的同時顯著降低計算和內存需求。FastVLM 在 SeedBench、MMMU 等基準測試中表現出色,并支持 CoreML 集成,可在 iPhone 上實現實時多模態推理,應用于 AR、圖像編輯和醫療影像分析等場景。蘋果已開源 FastVLM 的代碼和模型,標志著其在移動端 AI 戰略上的重要一步。

3、字節跳動開源 8B 參數代碼模型 Seed-Coder,引領智能編程新風潮
字節跳動 Seed 團隊發布了開源代碼模型 Seed-Coder,包含 Base、Instruct 和 Reasoning 三個變體,參數規模 8B,上下文長度 32K,并采用 MIT 協議。Seed-Coder 的核心創新在于“模型為中心”的數據處理方式,利用小型 LLM 自動策劃和過濾代碼數據,顯著提升了數據質量和模型性能。在 SWE-bench、Multi-SWE-bench 和 IOI 等基準測試中,Seed-Coder 均超越同級別競品,展現出強大的代碼生成、補全、編輯和推理能力,堪稱輕量級代碼模型的佼佼者。字節跳動此次開源進一步推動了 AI 在軟件工程領域的應用。

4、NVIDIA AI 發布 Audio-SDS:SDS 技術賦能音頻擴散模型,革新音效生成與多任務處理
NVIDIA AI 研究團隊推出了 Audio-SDS,通過將 Score Distillation Sampling (SDS) 技術擴展到文本條件音頻擴散模型,實現了音效生成、音源分離及多任務音頻處理能力的顯著提升。Audio-SDS 無需重新訓練即可將預訓練音頻擴散模型轉化為多功能工具,支持文本條件控制的高效推理。該技術在音源分離、音效合成、FM 合成和語音增強等任務中表現卓越,降低了開發成本,并為娛樂、智能設備和教育創作等領域帶來廣泛的應用前景。NVIDIA 已開源相關論文和音頻樣本,推動 AI 音頻創新。

5、Fellou 發布全球首款 AI 智能瀏覽器,效率提升 5 倍
Fellou 號稱全球首款 Agentic 瀏覽器,利用 AI 自動化實現深度研究和跨平臺工作流一鍵完成。其深度研究模式通過并行搜索多個平臺,數分鐘內生成完整報告;深度工作流模式則支持自然語言指令觸發跨平臺任務自動化,如社交媒體發帖和郵件發送。Fellou 基于 Claude3.5 和 OpenAI 等先進 AI 系統,注重用戶隱私,數據本地處理并端到端加密。官方數據表明,Fellou 完成復雜任務的速度比手動操作快 5.2 倍。該瀏覽器提供免費版本,高級功能需訂閱,項目已開源。

6、騰訊開源多模態視頻生成框架 HunyuanCustom,強調高一致性與強控制力
騰訊開源了全新的多模態定制視頻生成框架 HunyuanCustom,該框架基于 HunyuanVideo 打造,核心特點是“主體一致性”和“多模態靈活輸入”。HunyuanCustom 支持文本、單/多圖、參考音頻甚至已有視頻片段作為輸入,生成定制化視頻,并著重保證視頻中人物或物體身份的一致性。該框架在虛擬人物廣告、虛擬試穿、唱歌頭像生成和智能視頻編輯等領域展現出巨大潛力,旨在降低多模態視頻創作門檻,為開發者和內容創作者提供高質量、高一致性的視頻生產能力。

7、騰訊發布 PrimitiveAnything 框架,革新 3D 形狀生成方式
騰訊 AIPD 與清華大學聯合推出了 PrimitiveAnything 框架,將 3D 形狀抽象重新定義為原始組件生成任務。該框架采用解碼器式變換器,通過統一的參數化方案和自動回歸生成方式,高效捕捉復雜形狀的分解模式。PrimitiveAnything 支持多種原始形狀類型,并利用級聯解碼器建模屬性依賴關系。研究團隊構建了包含人工標注的 HumanPrim 數據集進行評估,結果表明該框架在重構準確性和與人類抽象模式的一致性上表現優異,并支持從文本或圖像生成可編輯的 3D 內容,實現高建模質量和存儲節省,適用于高效互動 3D 應用。

8、谷歌 Gemini 2.5 Pro 突破視頻理解極限,支持 6 小時分析與 YouTube 鏈接解析
谷歌 Gemini 2.5 Pro 在視頻理解能力上實現重大升級,不僅能分析長達 6 小時的視頻,還具備 200 萬 Token 的超大上下文窗口,并首次支持通過 API 直接解析 YouTube 鏈接。該模型在 VideoMME 基準測試中準確率高達 84.7%。Gemini 2.5 Pro 能夠一次性處理長視頻內容,精準定位關鍵時刻,并進行復雜的跨時間分析。這項技術基于 3D-JEPA 和多模態融合技術,為教育、創意產業和商業分析等領域帶來創新應用,并通過低分辨率處理模式降低了長視頻分析成本。

9、Anthropic Claude API 新增網頁搜索功能,直指谷歌搜索
Anthropic 于 5 月 8 日宣布為其 Claude API 引入網頁搜索功能,允許開發者構建能夠訪問最新網絡信息的智能應用程序。通過啟用該功能,Claude 在接收需要最新信息的請求時,將利用推理能力判斷是否需要進行網絡搜索,并能進行漸進式搜索以生成更全面的答案,且附帶來源引用。該功能在金融服務、法律研究和開發者工具等領域具有廣泛的應用潛力,使得 Claude 能夠提供更準確和及時的信息服務,直接挑戰以谷歌為首的傳統搜索引擎。

10、QwenChat 上線網頁開發功能,一句指令生成精美網頁
QwenChat 近日推出了全新的網頁開發(Web Dev)功能,用戶只需輸入一句自然語言指令,例如“創建一個水果電商網站”,系統即可自動生成結構清晰、風格美觀的網頁代碼并支持預覽和調整。該功能不僅限于電商網站,還能用于制作音樂播放器、單詞記憶卡片等多種網頁應用,為不具備編程技能的用戶提供了便捷的網頁創建方式。目前,該功能已集成至 QwenChat 平臺(chat.qwen.ai)。

11、騰訊混元 T1-Vision 上線元寶,深度理解圖片內容
騰訊混元 T1-Vision 模型已上線元寶 App,具備深度理解圖片內容的能力,能夠精確捕捉圖片背后的關鍵信息。用戶上傳圖片后,無論是不常見的植物、外文游戲界面還是復雜決策場景,元寶都能快速給出詳細解答和分析。其“深度思考 T1”功能支持圖文之間的多模態原生思維鏈,反應速度更快,完答速度提升 1.5 倍。元寶旨在幫助用戶更高效準確地獲取和理解信息,已在學習、工作和日常生活中展現出多方面優勢,用戶可通過騰訊元寶官方網站下載使用。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80546.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80546.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80546.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

[git]如何關聯本地分支和遠程分支

主題 本文總結如何關聯git本地分支和遠程分支的相關知識點。 詳情 查看本地分支 git branch 查看遠程分支 git branch -r 查看所有分支(本地遠程) git branch -a 查看本地分支及其關聯的遠程分支(如有) git branch -vv 關聯本地分支到遠程分支: git branch …

CC53.【C++ Cont】二分查找的普通模版

目錄 1.知識回顧 2.關鍵點 特點 三個模版 普通的模版(有局限) 以LeetCode上的一道題為例:704. 二分查找 分析 引入二段性:分兩段,舍一段,操作另一段(這個是二分查找的本質!) 代碼 提交結果 當然也可以使用隨機數來分兩段 普通模版總結 1.知識回顧 之前在C語言專欄…

lua腳本+Redission實現分布式鎖

實現分布式鎖最簡單的一種方式:基于Redis 不論是本地鎖還是分布式鎖,核心都在于“互斥”。 在 Redis 中, SETNX 命令是可以幫助我們實現互斥。SETNX 即 set if not exists (對應 Java 中的 setIfAbsent 方法),如果 key 不存在的…

設計模式之工廠模式(二):實際案例

設計模式之工廠模式(一) 在閱讀Qt網絡部分源碼時候,發現在某處運用了工廠模式,而且編程技巧也用的好,于是就想分享出來,供大家參考,理解的不對的地方請多多指點。 以下是我整理出來的類圖: 關鍵說明&#x…

MultiTTS 1.7.6 | 最強離線語音引擎,提供多音色無障礙朗讀功能,附帶語音包

MultiTTS是一款免費且支持離線使用的文本轉語音(TTS)工具,旨在為用戶提供豐富的語音包選項,實現多音色無障礙朗讀功能。這款應用程序特別適合用于閱讀軟件中的離線聽書體驗,提供了多樣化的語音選擇,使得聽書…

歌曲《忘塵谷》基于C語言的歌曲調性檢測技術解析

引言 在音樂分析與數字信號處理領域,自動檢測歌曲調性是一項基礎且關鍵的任務。本文以C語言為核心,結合音頻處理庫(libsndfile)和快速傅里葉變換庫(FFTW),探討如何實現調性檢測,并通…

大某麥演唱會門票如何自動搶

引言 僅供學習研究,歡迎交流 搶票難,難于上青天!無論是演唱會、話劇還是體育賽事,大麥網的票總是秒光。大麥網是國內知名的票務平臺,熱門演出票往往一票難求。手動搶票不僅耗時,還容易錯過機會。作為一名…

1.3.3 tinyalsa詳細介紹

一、TinyALSA 的背景與設計目標 1. 誕生背景 Android 音頻需求的演變:早期 Android 系統使用標準 ALSA(Advanced Linux Sound Architecture)的用戶空間庫 alsa-lib,但因其復雜性(代碼龐大、依賴較多)和資…

超越合并速度(merge speed):AI如何重塑開發者協作

李升偉 編譯 AI 關于現代開發的討論通常圍繞著單一指標:合并速度(merge speed)。但在這一表面測量之下,隱藏著開發團隊工作方式的一種更深刻的變革。讓我們探討開發者協作的微妙演變方式以及為什么傳統生產力指標只講述了一部分故…

如何找正常運行虛擬機

1.新建虛擬機。Linux centos7,給虛擬機改個名字不要放在c盤 2.安裝操作系統。cd/dvd->2009.iso 啟動虛擬機

深度學習:系統性學習策略(二)

深度學習的系統性學習策略 基于《認知覺醒》與《認知驅動》的核心方法論,結合深度學習的研究實踐,從認知與技能雙重維度總結以下系統性學習策略: 一、認知覺醒:構建深度學習的思維操作系統 三重腦區協同法則 遵循**本能腦(舒適區)-情緒腦(拉伸區)-理智腦(困難區)**的…

如何使用CSS解決一行有三個元素,前兩個元素靠左排列,第三個元素靠右排列的問題

如圖所示,我要把左邊的場館和區域信息靠左排列,價格信息靠右排列。如何使用CSS實現這種效果? 在這里,我使用了flexbox彈性布局,以下是我的實現代碼 .name-info {display: flex;gap: 2px;justify-content: space-betwee…

USB傳輸模式

USB有四種傳輸模式: 控制傳輸, 中斷傳輸, 同步傳輸, 批量傳輸 1. 中斷傳輸 中斷傳輸一般用于小批量, 非連續的傳輸. 對實時性要求較高. 常見的使用此傳輸模式的設備有: 鼠標, 鍵盤等. 要注意的是, 這里的 “中斷” 和我們常見的中斷概念有差異. Linux中的中斷是設備主動發起的…

【Python 變量類型】

Python 是一種動態類型語言,變量類型在運行時自動確定,無需顯式聲明。以下是 Python 中核心變量類型的分類與用法詳解: 一、基本數據類型 1. 數值類型 整數 (int) 支持正負數、零和二進制/八進制/十六進制表示: a 42 b 0o52 #…

Python基礎:類的深拷貝與淺拷貝-->with語句的使用及三個庫:matplotlib基本畫圖-->pandas之Series創建

一.類的深拷貝與淺拷貝 class CPU():pass class Disk():passclass Computer():#計算機由CPU和硬盤組成def __init__(self):self.cpu CPU()self.disk Disk()cpu CPU()#創建一個CPU對象 disk Disk()#創建一個硬盤對象#創建一個計算機對象 com Computer(cpu,disk) #變量&…

【SSM-SpringMVC(二)】Spring接入Web環境!本篇開始研究SpringMVC的使用!SpringMVC數據響應和獲取請求數據

SpringMVC的數據響應方式 頁面跳轉 直接返回字符串通過ModelAndView對象返回 回寫數據 直接返回字符串返回對象或集合 頁面跳轉: 返回字符串方式 直接返回字符串:此種方式會將返回的字符串與視圖解析器的前后綴拼接后跳轉 RequestMapping("/con&…

閱文集團C++面試題及參考答案

目錄 能否不使用鎖保證多線程安全? 面向對象的三個特性是什么?請分別解釋。 構造函數和析構函數能否被繼承? C++ 中函數重載是如何實現的? C 語言中是否支持函數重載? 什么是左值和右值?請舉例說明。 C++ 中子類的構造和析構順序是怎樣的? C++ 中虛函數表的變化過…

【親測有效】如何清空但不刪除GitHub倉庫中的所有文件(main分支)

如何清空但不刪除GitHub倉庫中的所有文件(main分支) 在項目開發過程中,有時我們需要清空GitHub倉庫中的所有文件,同時保留倉庫本身。這種情況常見于項目重構、代碼重寫或者需要重新開始一個項目時。本文將介紹一種有效的方法來清…

前端EXCEL插件,智表ZCELL產品V3.0 版本發布,底層采用canvas全部重構,功能大幅擴展,性能極致提升,滿足千萬級單元格加載

本次更新是底層全部重構,按照現代瀏覽器要求,采用canvas方式進行了重構,預留了將來擴展空間,特別是在大數據量性能提升方面有了較大提升,可以滿足千萬級單元格加載,歡迎大家體驗使用。 體驗地址&#xff1…

3DGS-to-PC:3DGS模型一鍵絲滑轉 點云 or Mesh 【Ubuntu 20.04】【2025最新版!!】

一、引言 3D高斯潑濺(3DGS)是一種新興的三維場景表示方法,可以生成高質量的場景重建結果。然而,要查看這些重建場景,需要特殊的高斯渲染器。大多數3D處理軟件并不兼容3D高斯分布模型,但它們通常都兼容點云文件。 3DGS-to-PC項目提…