AI Repos
1、All-Model-Chat
All Model Chat 是一款為Google Gemini API家族設計的網頁聊天應用,支持多模態輸入(圖片、音頻、PDF等)和多種模型(如Gemini Flash、Imagen)。它提供了豐富的自定義功能,包括高級AI參數控制、思維過程展示、語音轉文本/文本轉語音、Google搜索增強等。應用將聊天歷史自動保存在瀏覽器本地,確保數據隱私。用戶無需安裝,僅需輸入API密鑰即可在線體驗,也可在本地進行開發部署。
AI News
1、Liquid AI開源LFM2模型:邊緣計算領域的新里程碑
Liquid AI宣布開源其下一代Liquid Foundation Models(LFM2),這一高效混合模型專為邊緣設備優化,在速度、能效和性能上樹立了新標準。LFM2系列包括350M、700M和1.2B三個參數規模的模型,采用創新的結構化自適應算子架構,顯著提升訓練效率和推理速度。此外,LFM2在指令跟隨和函數調用等關鍵任務上表現優異,成為本地化和邊緣AI應用的理想選擇。通過開源LFM2,Liquid AI不僅展現了技術自信,也為全球開發者提供了探索新型AI架構的機會。
2、智源研究院發布RoboBrain2.0與RoboOS2.0
智源研究院最新發布的RoboBrain2.032B版本和RoboOS2.0單機版,標志著具身智能技術的重大突破。RoboBrain2.0作為一種通用具身大腦,結合了感知、推理和規劃的能力,在多項權威基準測試中取得突破性成績。RoboOS2.0作為全球首個具身智能SaaS開源框架,支持多智能體協作,推動機器人從單機智能向群體智能發展。這兩項技術的開源將極大促進具身智能的應用和發展。
3、拍我AI重磅升級:多關鍵幀生成功能開啟AI視頻創作新紀元
7月11日,全球用戶量突破6000萬的AI視頻創作平臺拍我AI(PixVerse)宣布重大功能升級,新增「多關鍵幀生成」功能,標志著AI視頻創作進入“故事性表達”新階段。用戶現可上傳最多7張圖片作為關鍵幀,AI將智能構建流暢的動作與場景轉換路徑,適用于短劇分鏡、產品演示等場景。此技術突破由愛詩科技創始人兼CEO王長虎博士介紹,旨在提升電影預告、廣告劇情短片等高敘事需求領域的創作效率。拍我AI國內版已支持多國語言,此次升級將進一步推動AI視頻生成技術的普及。
4、IndexTTS2:開啟文本轉語音技術的影視級時代
IndexTTS2作為一款即將發布的文本轉語音大模型,以其影視級的生成效果、零樣本語音克隆、全球首創的情緒與時長控制功能,標志著TTS技術的新高度。完全本地化部署和開放模型權重的策略,為開發者提供了極大的靈活性和低成本的使用門檻。支持英語和中文,未來有望擴展更多語言,展現出在影視制作、虛擬角色開發等領域的巨大潛力。
5、Meta與伯克利聯手推出StreamDiT
Meta與加州大學伯克利分校的研究團隊開發了StreamDiT,一款能夠以每秒16幀速度實時生成512p分辨率視頻的AI模型。該模型擁有40億個參數,支持即時生成和編輯視頻,展現了前所未有的實時視頻流生成能力。通過優化架構和加速技術,StreamDiT在動態視頻生成方面優于現有方法,預示著實時交互式視頻內容創作的廣闊前景。
6、月之暗面重磅推出開源大語言模型Kimi K2
中國人工智能企業月之暗面近日發布了其最新的開源大語言模型Kimi K2,該模型采用混合專家架構,總參數量達到1萬億,激活參數為320億,展現出強大的智能體能力,包括自主調用工具和執行代碼的能力。通過MuonClip優化器,Kimi K2的訓練過程更加迅速和精準。月之暗面還宣布了基礎模型的開源和API服務策略,推動多場景應用的發展。Kimi K2的發布標志著開源模型在通用智能領域與閉源系統形成實質性競爭,顯示出廣泛的市場潛力。
文章內容引用自:jungleBlog