每周AI新聞（2024年第9周）微軟與Mistral AI達成合作 | 谷歌發11B基礎世界模型

這里是陌小北，一個正在研究硅基生命的碳基生命。正在努力成為寫代碼的里面背詩最多的，背詩的里面最會寫段子的，寫段子的里面代碼寫得最好的…廚子。

每周日解讀每周AI大事件。

大廠動向

【1】微軟與Mistral AI達成合作

微軟官宣與法國生成式AI獨角獸Mistral AI建立長期合作伙伴關系。這一合作將重點關注三個核心領域：微軟將通過Azure AI超級計算基礎設施支持Mistral AI的大模型訓練和推理工作；微軟和Mistral AI將通過Azure AI Studio和Azure機器學習模型目錄中的模型即服務（MaaS）向客戶提供Mistral AI的高級模型；微軟和Mistral AI將探索圍繞為特定客戶培訓特定目的模型的合作。此外，據英國《金融時報》報道，微軟對Mistral AI進行了小額投資，但不持有該公司任何股權。

【2】英偉達推出RTX 500、1000 Ada AI顯卡

英偉達推出RTX 500和RTX 1000系列全新一代筆記本電腦顯卡，主要適用于筆記本電腦和移動工作站，配備RTX 500和1000 GPU等新一代行動工作站將包括神經處理單元NPU、CPU組件和英偉達RTX GPU，其中包括用于AI處理的Tensor Core。 NPU可用于小型AI任務，GPU可額外提供682TOPS的AI效能。

【3】谷歌發11B基礎世界模型生成交互虛擬世界

谷歌發布根據互聯網視頻訓練的基礎世界模型Genie，該模型參數規模為11B，可以從合成圖像、照片甚至草圖生成無數種動作可控的交互式環境。Genie可以用它以前從未見過的圖像提示，例如現實世界的照片或草圖，使人們能夠與他們想象的虛擬世界進行交互。

項目地址：https://sites.google.com/view/genie-2024/home

論文地址：https://arxiv.org/abs/2402.15391

【4】阿里發布肖像視頻生成框架EMO

阿里巴巴團隊發布了音頻驅動的肖像視頻生成框架EMO（Emote Portrait Alive），相關論文同步發表于arXiv。輸入一張參考圖像和聲音音頻，該框架能夠生成具有豐富面部表情和頭部姿勢的聲音肖像視頻。

論文地址：https://arxiv.org/pdf/2402.17485.pdf

項目主頁：https://humanaigc.github.io/emote-portrait-alive/

【5】傳蘋果放棄電動汽車制造轉向生成式AI

據彭博社援引知情人士消息報道，蘋果在當地時間周二于公司內部宣布取消長達十年的電動汽車項目，從事該項目的近2000名員工中的許多人將被轉到由約翰·詹南德雷亞（John Giannandrea）領導的AI部門，專注于生成式人工智能項目。

【6】字節推出MegaScale 將LLM訓練擴展到1萬個GPU

字節和北大的團隊在arXiv上發表論文，提出大模型生產系統MegaScale。MegaScale將大型語言模型訓練擴展到超過10000個GPU，在12288個GPU上訓練175B LLM模型時，MegaScale實現了55.2%的模型FLOP利用率（MFU），與層內模型并行技術Megatron-LM相比，MFU提高了1.34倍。

論文地址：https://arxiv.org/abs/2402.15627

【7】微軟研究員發首個Sora“逆向工程”報告

理海大學和微軟研究員2月27日發布40頁綜述文章，對Sora模型的背景、相關技術、應用、剩余的挑戰以及文本到視頻AI模型的未來發展方向進行了全面的回顧，這是首個公布Sora“逆向工程”的報告，該報告提出，Sora面臨物理現實主義挑戰、時空復雜性、人機交互局限性、使用限制等幾大挑戰。

論文地址：https://arxiv.org/abs/2402.17177

GitHub地址：https://github.com/lichao-sun/SoraReview

【8】OpenAI將關閉ChatGPT插件，聚焦GPTs

OpenAI宣布將于3月19日起關閉ChatGPT插件測試版，專注于GPT。自3月19日起，用戶將不能使用插件建立新的對話，但既有對話最晚將會被保留到4月9日。根據官方信息，在插件測試期間，插件商店中已有1000多個可用插件。GPT商店中已經有成千上萬個GPT，涉及寫作、生產力、編程、教育等領域。OpenAI稱GPTs已經與插件具有完全對等的特性，這也是關閉的主要原因之一。

創業 & 投融資

【1】AI視頻生成創企Genmo將獲3000萬美元融資

據The Information援引知情人士報道，AI視頻生成創企Genmo將從NEA籌集至少3000萬美元的資金。Genmo由伯克利AI博士和谷歌研究人員帕拉斯·杰恩（Paras Jain）和阿賈伊·杰恩（Ajay Jain）于2022年底創立。用戶向Genmo提供簡短的文本描述，然后使用其內部AI模型就可生成圖像、動畫或四秒長的視頻。

【2】Pika推出“對口型”功能

AI視頻生成平臺Pika宣布推出為生成視頻中的人物配音，并同時“對口型”的唇形同步功能LipSync，目前僅支持Pro用戶體驗。其中，音頻生成部分由AI語音克隆創企ElevenLabs提供技術支持。

【3】法AI圖像編輯器創企Photoroom獲4300萬美元融資

據TechCrunch報道，法國AI圖像編輯器創企Photoroom近期以5億美元估值完成了4300萬美元融資，Balderton Capital領投此輪融資，新投資者Aglaé和之前的投資者Y Combinator參投。Photoroom目前擁有約50名員工，計劃利用這筆融資雇用更多員工，并投資于研發和基礎設施。

【4】AI圖像生成創企Idegram首輪融資8000萬美元

據彭博社報道，加拿大AI創企Idegram于周三宣布其首輪融資計劃，融資金額為8000萬美元，該公司成立不到兩年，主要致力于開發AI圖像生成技術。

產品 & 模型

【1】Mistral AI新旗艦大語言模型發布

法國生成式AI獨角獸Mistral AI發布全新旗艦模型Mistral Large，該模型上下文窗口為32K tokens，支持英語、法語、西班牙語、德語和意大利語。在衡量多語言理解任務基準MMLU上，Mistral Large的表現僅次于GPT-4；在多語言能力的基準測評對比中，Mistral Large的表現優于70B參數規模的Llama 2。此外，Mistral AI還發布了會話助手le Chat。

【2】零一萬物發布Yi大模型API，啟動公測

國內大模型獨角獸零一萬物發布Yi大模型API并啟動公測，此次API邀測提供Yi-34B-Chat（0205）、Yi-34B-Chat-200K。其中，Yi-34B-Chat-200K 上下文長度達到200K tokens，可支持處理約20～30萬個中英文字符。

申請地址：https://01ai.feishu.cn/share/base/form/shrcn6cLrvS0jQKMgPMwmMdd06o

【3】華為發布首個通信大模型

華為在2024年世界移動通信大會MWC上發布通信行業首個大模型，華為通信大模型將提供基于角色的Copilots和基于場景的Agents的兩類應用能力，最終將全面提升網絡生產力。

【4】Adobe發布AIGC音樂創作工具

Adobe于2月28日發布了用于制作和編輯自定義音頻的最新生成式AI工具Project Music GenAI Control。借助該工具，用戶可以通過文本提示生成音樂，并進行細粒度音頻編輯。該技術發明者Nicholas Bryan稱其相當于音頻領域的Photoshop。

【5】Lightrick官宣AIGC電影制作平臺LTX Studio

Lightrick官宣第一代生成式AI電影制作平臺LTX Studio，用戶可以借助AI生成短片，并對腳本、角色、鏡頭、風格、對話、情節等內容進行詳細編輯。該公司將在3月27日正式發布該平臺，現在已開放預約。

【6】AI電影制作平臺Morph正式發布

AI創企Morph Studio剛剛聯合Stability AI推出了AI電影制作平臺Morph，該平臺基于文本到視頻模型，用戶可以通過過輸入不同場景的文本提示來創建和編輯鏡頭，并將它們組合成一個連貫的故事。

【7】Hugging Face發布StarCoder 2系列模型

Hugging Face與云計算公司ServiceNow合作創建的開源代碼生成模型系列StarCoder 2于28日發布，包括由ServiceNow訓練的30億參數模型、Hugging Face訓練的70億參數模型、英偉達訓練的150億參數模型，前兩個模型可在大多數消費級GPU上運行。

【8】微軟發布金融版Copilot

微軟發布金融版Copilot（Copilot for Finance）的公開預覽版，其可以在工作流程中提供基于AI的工作流自動化、推薦和指導操作，顯著提升相關領域人士工作效率。金融版Copilot可以幫助財務分析師在Excel中使用自然語言提示快速進行方差分析、通過自動數據結構化比較排除故障簡化Excel數據核對過程、在Outlook中提供相關客戶帳戶詳細信息的完整摘要、將Excel中的原始數據轉換為可隨時顯示的可視化圖形和報表。

如果覺得不錯，隨手點個贊、評論、轉發吧。我是陌小北，一個正在研究硅基生命的、有趣的碳基生命。如果你想第一時間看到我的文章，歡迎關注。