【AI News | 20250623】每日AI進展

AI Repos

1、tools
Strands Agents Tools提供了一個強大的模型驅動方法,通過少量代碼即可構建AI Agent。它提供了一系列即用型工具,彌合了大型語言模型與實際應用之間的鴻溝,涵蓋文件操作、Shell集成、內存管理(支持Mem0和Amazon Bedrock知識庫)、HTTP客戶端、Slack客戶端、Python執行、數學工具、AWS集成、圖像/視頻處理、音頻輸出、環境管理、日志記錄、任務調度、高級推理以及群體智能(Swarm Intelligence)等。這些功能旨在為AI Agent提供全面的能力支持,簡化開發流程,并支持并行調用多個工具,極大提升了Agent的實用性和效率。

2、watercrawl
WaterCrawl是一款功能強大的開源Web應用,它整合了Python、Django、Scrapy和Celery,用于高效的網頁抓取和數據提取。該平臺提供高度可定制的爬取選項、強大的多語言搜索功能、實時異步處理以及全面的REST API。WaterCrawl支持Dify、N8N等AI/自動化平臺集成,并提供多種客戶端SDK。它可進行本地Docker部署,并強調在生產環境部署前需更新MinIO配置和環境變量,確保數據安全和功能正常。

3、RAG-Anything
RAG-Anything是基于LightRAG構建的一體化多模態文檔處理RAG系統,旨在解決傳統RAG系統無法有效處理現代文檔中多模態內容(如圖像、表格、公式、圖表和多媒體)的挑戰。該系統提供端到端的多模態管道,從文檔攝取、解析到智能多模態查詢應答,并支持PDF、Office文檔、圖像等多種文件格式。RAG-Anything通過MinerU進行高保真文檔結構提取,并通過專業內容分析器、多模態知識圖譜和混合智能檢索,實現對文本、視覺、結構化數據和數學表達式的無縫處理和查詢,特別適用于需要統一處理混合內容文檔的學術研究和企業知識管理等場景。

4、CreatiDesign
CreatiDesign是復旦大學與字節跳動智能創作團隊推出的一款統一多條件擴散Transformer模型,旨在解決自動化平面設計中對圖像、次要視覺元素和文本等異構元素的精確控制難題。其核心在于通過最小的架構修改實現多設計元素的靈活和諧集成。模型具備多條件圖像生成、借助多模態注意力掩碼機制實現精準元素控制、以及支持零樣本編輯等關鍵特性。研究團隊還構建了包含40萬平面設計樣本的多條件標注數據集,并進行了全面的基準評估。

5、magenta-realtime
Magenta RealTime(Magenta RT)是谷歌推出的一款Python開源庫,專為在本地設備上流式生成音樂音頻而設計。作為MusicFX DJ Mode和Lyria RealTime API的本地伴侶,它允許用戶通過簡潔的代碼指令生成短音頻片段,并支持利用MusicCoCa模型融合文本與音頻風格,以及使用SpectroStream進行音頻分詞。該項目旨在降低音樂創作門檻,提供GPU/TPU支持,并計劃發布技術報告及更多功能,目前已開放Colab演示和本地安裝,鼓勵開發者參與貢獻。

6、agents
Agents framework是一個開源平臺,專為構建能夠實時看、聽、說的AI語音Agent而設計。該框架提供靈活的集成能力,支持多種STT、LLM、TTS和實時API的組合,并內置作業調度和分發功能。它與LiveKit的WebRTC客戶端和電話系統無縫協作,支持數據交換和語義輪次檢測。Agents框架具備MCP原生支持,允許在自有服務器上運行整個堆棧,包括LiveKit媒體服務器,為開發者提供高度可定制和開放的AI Agent構建環境,適用于開發交互式語音應用。

AI News

1、文心快碼發布Comate AI IDE:首個多模態、多智能體協同AI開發環境
百度智能代碼助手文心快碼近日在百度AI開放日發布了其獨立AI原生開發環境工具——Comate AI IDE。這款行業首個多模態、多智能體協同的AI IDE,通過首創的設計稿一鍵轉代碼功能,為開發者提供了高效、智能且安全的編程體驗。Comate AI IDE在智能、拓展、協同、靈感四方面全面提升,具備AI輔助編碼、多智能體協同以及多模態能力增強(如設計稿、圖片、自然語言轉代碼)等核心功能,大幅提高了前端開發效率。此外,它還內置了多項開發工具,并支持MCP對接外部工具與數據,覆蓋開發全流程。同時,“Comate Next計劃”也已啟動,旨在推動人機協同研發范式落地,并向全球開發者與企業開放共建通道。

2、網易有道開源“子曰3”數學模型:低成本高性能賦能教育公平
網易有道于6月23日正式開源其最新數學教育推理模型“子曰3”(Confucius3-Math),旨在通過低成本、高性能的AI工具助力教育公平。該模型能在消費級GPU上高效運行,訓練成本僅為2.6萬美元,推理性能達到DeepSeek R1的15倍,在高考數學題評測中取得98.5高分。其極低的服務成本(每百萬token僅0.15美元)顯著降低了AI在教育場景的應用門檻,有望緩解中小學教育資源不均和個性化輔導不足等問題。網易有道希望通過“子曰3”的開源,吸引更多開發者共同探索AI在教育領域的應用潛力,強調AI是推動教育公平的重要杠桿而非替代教師。

3、字節跳動內測美食AI產品“探飯”:豆包大模型賦能生活服務
字節跳動用戶增長團隊近期推出一款名為“探飯”的AI產品,該應用搭載豆包大模型,旨在為用戶提供智能美食向導服務。據透露,“探飯”已支持購買團購套餐、點外賣及AI點菜等功能,目前通過抖音小程序進行小范圍測試。此舉顯示出字節跳動正積極將AI技術融入本地生活服務領域,以期提升用戶的美食體驗。去年9月,“探飯”商標的申請也進一步印證了字節跳動對該產品的戰略部署和未來發展規劃。

4、阿里云發布PAI-TurboX:自動駕駛模型訓練提速50%
近日,阿里云正式推出PAI-TurboX,這是一個面向自動駕駛領域模型的訓練與推理加速框架,旨在提升感知、規劃控制及世界模型的訓推效率。該框架通過優化系統和數據處理,可將訓練時間縮短高達50%,并在多模態數據預處理、大規模模型訓練和實時智駕推理等多個環節提供全面解決方案。目前,PAI-TurboX已成功應用于多家車企,顯著提升了自動駕駛技術的研發效率,例如在BEVFusion模型訓練中提速58.5%,在MapTR中提速53%。此舉將進一步推動自動駕駛領域的技術創新和應用落地。

5、MiniMax推出Voice Design音色設計功能:自由組合語言、口音、音色
MiniMax近日推出創新功能Voice Design音色設計,標志著語音合成技術的重大突破。此功能與Speech-02語音模型緊密結合,用戶通過自然語言描述即可實現對語音的多維度精準控制,生成前所未有的音色。它支持“任意語言 × 任意口音 × 任意音色”的無限自定義組合,解決了現有音色庫難以滿足細分需求及復刻音色需大量素材和版權風險等挑戰。用戶只需簡單描述,即可像“抽卡”般輕松獲得并存儲專屬音色,極大地降低了AI語音技術的使用門檻。

6、月之暗面發布首款自主智能體Kimi-Researcher:HLE測試超越谷歌和OpenAI
月之暗面(Moonshot AI)近日推出了其首款自主智能體產品——Kimi-Researcher,正式進入AI智能體競爭領域。這款擅長多輪搜索與推理的智能體,在“人類終極考驗”(HLE)測試中表現卓越,以26.9%的Pass@1得分率登頂,超越谷歌和OpenAI的同類產品。Kimi-Researcher基于Kimi k-系列模型內部版本構建,并通過**端到端強化學習(RL)**訓練,展現了強大的信息處理和分析能力,平均執行23個推理步驟并瀏覽200多個網址。月之暗面已開放內測申請,并計劃未來幾個月內開源其基礎預訓練模型及強化學習訓練后的模型。

7、月之暗面開源Kimi-2506:多模態智能體視覺理解能力重大升級
近日,月之暗面正式發布并開源了其多模態模型Kimi-VL-A3B-Thinking的最新版本——Kimi-2506,標志著智能體和視覺理解技術的重大進步。該版本在多模態推理基準測試中表現出色,尤其在MathVision和MathVista上分數顯著提升,同時平均思考長度減少20%,大幅提升了推理效率。Kimi-2506的視覺理解能力也顯著增強,支持高達320萬像素的圖像處理,并在圖像理解、圖表推理、數學計算、長PDF理解和視頻分析等多個應用領域展現了出色性能。

8、螞蟻開源輕量級MoE推理模型Ring-lite:實現SOTA效果并全面透明化
螞蟻技術團隊近日正式開源其輕量級MoE推理模型Ring-lite,該模型總參數16.8B,激活參數僅2.75B,卻在AIME24/25、LiveCodeBench等多項推理榜單上取得了SOTA(State-of-the-Art)效果,比肩3倍激活參數大小的Dense模型。Ring-lite憑借獨創的C3PO強化學習訓練方法、優化長CoT SFT與RL的訓練比重,并成功解決多領域數據聯合訓練難題,在數學、代碼、科學領域實現協同增益。值得一提的是,其高考數學全國一卷測試成績可達130分左右。此次開源不僅包含模型權重和代碼,還將逐步公開所有訓練數據集、超參配置及實驗記錄,實現了全鏈路透明化。

9、MiniMax重磅發布視頻Agent工具:一句話生成高清視頻,人臉ID完美一致!
MiniMax近日推出創新視頻Agent工具,實現了通過簡單文本指令生成高清視頻(720p,25幀/秒,最長6秒),極大地提升了視頻創作效率。該工具還支持上傳人臉圖片,并能確保生成視頻中人物的人臉ID高度一致,為虛擬主播、品牌代言等個性化定制場景提供了可能。這款工具依托MiniMax強大的多模態AI技術,并提供API接口供開發者集成。盡管面臨Sora等強大競爭對手,MiniMax憑借其易用性和人臉一致性功能,在細分市場找到突破口,預示著AI視頻生成技術進入新紀元。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/84905.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/84905.shtml
英文地址,請注明出處:http://en.pswp.cn/web/84905.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python裝飾器decorators和pytest夾具fixture詳解和使用

此前一直認為fixture就叫python中的裝飾器,學習后才發現decorators才是裝飾器,fixture是pytest框架的夾具,只是通過裝飾器去定義和使用。所以要了解fixture就得先了解python裝飾器。 一、裝飾器(decorators) 1.定義 裝飾器(dec…

目標檢測之YOLOv5到YOLOv11——從架構設計和損失函數的變化分析

YOLO(You Only Look Once)系列作為實時目標檢測領域的標桿性框架,自2016年YOLOv1問世以來,已歷經十余年迭代。本文將聚焦YOLOv5(2020年發布)到YOLOv11(2024年前后)的核心技術演進&am…

leetcode:面試題 08.06. 漢諾塔問題

題目鏈接 面試題 08.06. 漢諾塔問題 題目描述 題目解析 當只有一個盤子時:直接從A柱放到C柱即可。當有兩個盤子時:將A柱第一個盤子先放到B柱,再將A柱第二個盤子放到C柱,最后將B柱上的盤子放到C柱子。當有3個盤子時:先…

mybatis-plus一對多關聯查詢

MyBatis-Plus 本身主要關注單表操作&#xff0c;但可以通過幾種方式實現一對多關聯查詢&#xff1a; 1. 使用 XML 映射文件實現 這是最傳統的方式&#xff0c;通過編寫 SQL 和 ResultMap 實現&#xff1a; <!-- UserMapper.xml --> <resultMap id"userWithOrd…

一些想法。。。

1.for里面的局部變量這種還是在for里面定義比較好 比如 for(int i 0;i<n;i){ int num; cin>>num; } 實不相瞞&#xff0c;有一次直接cin了i怎么都沒看出來哪里錯了。。。 2.關于long long 如果發現中間結果大約是10^9&#xff0c;就要考慮int 溢出 即用 long …

遷移科技拆垛工業相機:驅動智能拆碼垛革命,賦能工業自動化新紀元

——將復雜技術轉化為可感知價值&#xff0c;引領行業標桿級解決方案 作為工業自動化領域的品牌策略專家&#xff0c;我深知企業面臨的痛點&#xff1a;拆垛環節效率低下、人工成本高、安全隱患頻發。遷移科技憑借其領先的3D視覺技術&#xff0c;通過拆垛工業相機將抽象參數轉…

Linux筆記---線程控制

1. 線程創建&#xff1a;pthread_create() pthread_create() 是 POSIX 線程庫&#xff08;pthread&#xff09;中用于創建新線程的函數。調用該函數后系統就會啟動一個與主線程并發的線程&#xff0c;并使其跳轉到入口函數處執行。 #include <pthread.h>int pthread_cr…

Ragflow 源碼:ragflow_server.py

目錄 介紹1. 初始化和配置2. 數據庫管理3. 核心功能4. HTTP 服務5. 信號處理6. 調試支持 流程圖系統架構 代碼解釋1. **初始化系統**2. **運行時控制**3. **核心服務** 介紹 ragflow_server.py 是 RAGFlow 項目的主服務器程序&#xff0c;負責啟動和管理 RAGFlow 的核心服務。…

springboot企業級項目開發之項目測試——單元測試!

項目測試 項目測試是對項目的需求和功能進行測試&#xff0c;由測試人員寫出完整的測試用例&#xff0c;再按照測試用例執行測試。項目測試是項目質量的保證&#xff0c;項目測試質量直接決定了當前項目的交付質量。 測試人員在開展測試之前&#xff0c;首先需要進行測試的需…

Linux kdump遠程轉存儲配置手冊教程

一、前言 kdump是一個Linux內核崩潰轉儲機制,當系統崩潰時,它可以捕獲內核的內存轉儲信息,幫助分析崩潰原因。將轉儲文件存儲到遠程位置,便于集中管理和分析。本教程將詳細介紹如何配置kdump將轉儲文件遠程轉存儲。 二、安裝kdump 在大多數Linux發行版中,kdump相關的工…

c++bind和forward完美轉化

前言 1. std::bind概述 std::bind是C11引入的功能模板&#xff0c;位于<functional>頭文件中&#xff0c;用于將函數、成員函數或函數對象與特定參數綁定&#xff0c;生成一個新的可調用對象。 1.1 基本用法 #include <iostream> #include <functional>v…

【Dify精講】第14章:部署架構與DevOps實踐【知識卡片】

第14章&#xff1a;部署架構與DevOps實踐http://www.airinto.com/share/49997bb7 一、Docker 容器化方案&#xff1a;從開發到生產的統一 二、Kubernetes 部署&#xff1a;走向云原生 三、CI/CD 流程設計&#xff1a;自動化的藝術 四、高可用架構&#xff1a;讓 AI 服務永不停歇…

el-cascader 設置可以手動輸入也可以下拉選擇

el-cascader 設置可以手動輸入也可以下拉選擇 稍微修改一下就可食用 <template slot"stationId" slot-scope""><div style"position: relative;"><!-- 可輸入也可顯示選項 --><el-input:value"stationNameInput"…

Unity Shader開發-著色器變體(1)-著色器變體概述

有時我們希望一份 Shader 源代碼可能滿足多種功能&#xff08;如處理法線貼圖、自發光、不同光照模式、陰影&#xff0c;支持GPUInstacing等多種功能&#xff09;。所以我們需要能夠實現Shader分支的方法。 一.Shader分支實現 主要有三種手段實現Shader分支&#xff1a; 1.靜…

ECK 簡化:在 GCP GKE Autopilot 上部署 Elasticsearch

作者&#xff1a;來自 Elastic Eduard Martin 學習如何使用 GKE Autopilot 和 ECK 在 GCP 上部署 Elasticsearch 集群。 想要獲得 Elastic 認證&#xff1f;了解下一次 Elasticsearch Engineer 培訓的時間&#xff01; Elasticsearch 擁有豐富的新功能&#xff0c;可以幫助你為…

測試一個軟件的性能有哪些指標?

在測試軟件性能時,通常會關注多個維度的指標,以評估系統在不同負載下的表現。以下是關鍵的性能測試指標分類和詳細說明: ?? 核心性能指標分類 1. 響應時間(Response Time) 定義:從發送請求到接收到響應所花費的時間 細分: 平均響應時間:所有請求的平均耗時 *P90/P95…

淺析std::atomic<T>::compare_exchange_weak和std::atomic<T>::compare_exchange_strong

目錄 std::atomic ::compare_exchange_weak 和 std::atomic ::compare_exchange_strong 核心原理 函數簽名 核心區別 典型用法 1. compare_exchange_weak&#xff08;循環內重試&#xff09; 2. compare_exchange_strong&#xff08;單次嘗試&#xff09; 底層機制 總…

舉出一個異步接口測試的例子

以下是一個完整的 ?異步接口測試? 實際案例&#xff0c;包含問題場景、解決方案、代碼實現和面試回答技巧&#xff0c;適合在面試中展示技術深度&#xff1a; ?案例背景? ?業務場景?&#xff1a; 測試一個AI圖片生成平臺的異步接口&#xff0c;用戶提交生成請求后&#…

更新麒麟連不上外網

問題&#xff1a;更新麒麟連不上外網 處理&#xff1a;本地建個下載地址 建立文件夾/root/x86.rpm&#xff0c;子文件夾&#xff1a;Packages、repodata&#xff0c;和在線站點建的一樣&#xff1a;Index of /NS/V10/V10SP1.1/os/adv/lic/base/x86_64/&#xff0c;然后就下載…

TensorFlow深度學習實戰——使用Hugging Face構建Transformer模型

TensorFlow深度學習實戰——使用Hugging Face構建Transformer模型 0. 前言1. 安裝 Hugging Face2. 文本生成3. 自動模型選擇和自動分詞4. 命名實體識別5. 摘要生成6. 模型微調相關鏈接 0. 前言 除了需要實現特定的自定義結構&#xff0c;或者想要了解 Transformer 工作原理外&…