? 1: 谷歌 I/O 2024
谷歌 I/O 2024 發布了眾多新技術,包括 Gemini AI、大語言模型和通用 AI 智能體等,全面顛覆搜索體驗。
谷歌 I/O 2024發布會帶來許多令人興奮的新功能和技術創新:
-
Gemini 1.5 Pro:一個極其強大的語言模型,具備多模態支持和超長上下文(長達200萬token)。它可以處理視頻、音頻和大量文本,讓用戶能方便地進行各種復雜任務,如總結會議要點、處理電子郵件等。
-
Project Astra:一個多功能的通用AI智能體,具備視覺識別和語音交互功能,不僅能識別并分析環境,還能執行各種任務,比如幫助用戶填寫退貨單、找城市服務等。
-
搜索重塑:在Gemini加持下,谷歌搜索發生了重大變化,可以提供個性化的AI總結和多步驟推理功能,讓用戶查詢信息更加高效。
-
Veo:一個新的視頻生成模型,可以生成高質量、長達1分多鐘的1080p視頻,為創作者提供更多的創作空間。
-
AI媒體工具:包括生成圖像的Imagen 3、音樂創作的Music AI Sandbox等,幫助用戶更好地進行跨媒體創作。
-
Astra項目和AR眼鏡:結合AR和AI技術,為用戶提供更為自然和高效的交互體驗。
-
Gemini App和Gemini Advanced:提供個性化的AI助理和專家服務,讓用戶能夠高效處理日常事務和專項需求。
-
Ask Photos:一個新的功能,可以幫助用戶更快地找到和處理大量照片中的特定信息。
-
TPU第六代Trillium:提供強大的硬件支持,大幅提升性能和效率,為AI的訓練和運行提供保障。
和昨天的OpenAI的發布會進行對比,你覺得如何?各有各的優勢,谷歌的優勢在于技術能力還很強,而且基本盤很穩,比如把AI加到搜索,手機等,這是OpenAI沒辦法做到的,
而OpenAI的技術和創新力可以算行內第一,可以很快的做出許多新穎的產品。這波你怎么看?
地址:https://io.google/2024/intl/zh/
? 2: Hunyuan-DiT
具備中英雙語理解和多輪對話能力的多分辨率擴散式文本生成圖像模型
騰訊宣布旗下的混元文生圖大模型升級并對外開源Hunyuan-DiT,Hunyuan-DiT是一款多分辨率擴散Transformer 模型,專門用于中文和英文文本到圖像的生成。它可以從輸入的文本描述生成高質量的圖像,并能夠處理多輪對話的文生圖任務(即根據用戶的多個連續輸入生成圖像)。
國內互聯網BAT巨頭,就只有B沒有開源了,哦,B在國內可能是2家公司。
地址:https://github.com/Tencent/HunyuanDiT
? 3: FunClip
基于阿里語音庫的開源、精準、適用于本地部署的視頻剪輯工具。
FunClip
FunClip 是一款開源、精準、方便的視頻剪輯工具。它主要通過語音識別技術來幫助用戶剪輯視頻,并且用戶可以輕松選擇視頻中的某些片段或說話人進行裁剪。FunClip集成了阿里巴巴通義實驗室的 FunASR Paraformer 系列模型,能夠準確地識別視頻中的語音內容,生成時間戳,使得視頻剪輯更加方便。
通過FunClip,用戶無需了解復雜的視頻編輯技術,即可實現精準、快捷的視頻剪輯,非常適合需要頻繁處理視頻內容的工作場景。
地址:https://github.com/alibaba-damo-academy/FunClip
? 4: LLaVA-NeXT
一個強大的多模態大語言模型,支持圖像和視頻任務的零樣本推理
LLaVA-NeXT 是一種開源的大型多模態模型,旨在提供強大的圖像和視頻理解能力。對于希望在實際應用中利用大型多模態模型的開發者和研究人員來說,LLaVA-NeXT 是一個非常有吸引力的選擇。
地址:https://github.com/LLaVA-VL/LLaVA-NeXT
? 5: Devon
更高效地編程和管理代碼庫
Devon是一個開源的編程助手,旨在幫助開發者更高效地編程和管理代碼庫。使用Devon可以在很多情況下幫助你,比如當你需要編寫代碼、探索代碼庫、編寫配置文件、編寫測試、修復BUG或者探索軟件架構的時候。Devon能夠編輯多個文件,從而在整個代碼庫中提供幫助。然而,它主要針對Python語言,對于非Python語言的支持則有限。
無論你是在尋找幫助編寫代碼、優化你的工作流程還是想要加入一個開源項目并為之貢獻力量,Devon都可能是一個值得嘗試的工具。
地址:https://github.com/entropy-research/Devon
更多AI工具,參考國內AiBard123,Github-AiBard123