這里是陌小北,一個正在研究硅基生命的碳基生命。正在努力成為寫代碼的里面背詩最多的,背詩的里面最會寫段子的,寫段子的里面代碼寫得最好的…廚子。
每周日解讀每周AI大事件。
大廠動向
【1】微軟與Mistral AI達成合作
微軟官宣與法國生成式AI獨角獸Mistral AI建立長期合作伙伴關系。這一合作將重點關注三個核心領域:微軟將通過Azure AI超級計算基礎設施支持Mistral AI的大模型訓練和推理工作;微軟和Mistral AI將通過Azure AI Studio和Azure機器學習模型目錄中的模型即服務(MaaS)向客戶提供Mistral AI的高級模型;微軟和Mistral AI將探索圍繞為特定客戶培訓特定目的模型的合作。此外,據英國《金融時報》報道,微軟對Mistral AI進行了小額投資,但不持有該公司任何股權。
【2】英偉達推出RTX 500、1000 Ada AI顯卡
英偉達推出RTX 500和RTX 1000系列全新一代筆記本電腦顯卡,主要適用于筆記本電腦和移動工作站,配備RTX 500和1000 GPU等新一代行動工作站將包括神經處理單元NPU、CPU組件和英偉達RTX GPU,其中包括用于AI處理的Tensor Core。 NPU可用于小型AI任務,GPU可額外提供682TOPS的AI效能。
【3】谷歌發11B基礎世界模型 生成交互虛擬世界
谷歌發布根據互聯網視頻訓練的基礎世界模型Genie,該模型參數規模為11B,可以從合成圖像、照片甚至草圖生成無數種動作可控的交互式環境。Genie可以用它以前從未見過的圖像提示,例如現實世界的照片或草圖,使人們能夠與他們想象的虛擬世界進行交互。
項目地址:https://sites.google.com/view/genie-2024/home
論文地址:https://arxiv.org/abs/2402.15391
【4】阿里發布肖像視頻生成框架EMO
阿里巴巴團隊發布了音頻驅動的肖像視頻生成框架EMO(Emote Portrait Alive),相關論文同步發表于arXiv。輸入一張參考圖像和聲音音頻,該框架能夠生成具有豐富面部表情和頭部姿勢的聲音肖像視頻。
論文地址:https://arxiv.org/pdf/2402.17485.pdf
項目主頁:https://humanaigc.github.io/emote-portrait-alive/
【5】傳蘋果放棄電動汽車制造轉向生成式AI
據彭博社援引知情人士消息報道,蘋果在當地時間周二于公司內部宣布取消長達十年的電動汽車項目,從事該項目的近2000名員工中的許多人將被轉到由約翰·詹南德雷亞(John Giannandrea)領導的AI部門,專注于生成式人工智能項目。
【6】字節推出MegaScale 將LLM訓練擴展到1萬個GPU
字節和北大的團隊在arXiv上發表論文,提出大模型生產系統MegaScale。MegaScale將大型語言模型訓練擴展到超過10000個GPU,在12288個GPU上訓練175B LLM模型時,MegaScale實現了55.2%的模型FLOP利用率(MFU),與層內模型并行技術Megatron-LM相比,MFU提高了1.34倍。
論文地址:https://arxiv.org/abs/2402.15627
【7】微軟研究員發首個Sora“逆向工程”報告
理海大學和微軟研究員2月27日發布40頁綜述文章,對Sora模型的背景、相關技術、應用、剩余的挑戰以及文本到視頻AI模型的未來發展方向進行了全面的回顧,這是首個公布Sora“逆向工程”的報告,該報告提出,Sora面臨物理現實主義挑戰、時空復雜性、人機交互局限性、使用限制等幾大挑戰。
論文地址:https://arxiv.org/abs/2402.17177
GitHub地址:https://github.com/lichao-sun/SoraReview
【8】OpenAI將關閉ChatGPT插件,聚焦GPTs
OpenAI宣布將于3月19日起關閉ChatGPT插件測試版,專注于GPT。自3月19日起,用戶將不能使用插件建立新的對話,但既有對話最晚將會被保留到4月9日。根據官方信息,在插件測試期間,插件商店中已有1000多個可用插件。GPT商店中已經有成千上萬個GPT,涉及寫作、生產力、編程、教育等領域。OpenAI稱GPTs已經與插件具有完全對等的特性,這也是關閉的主要原因之一。
創業 & 投融資
【1】AI視頻生成創企Genmo將獲3000萬美元融資
據The Information援引知情人士報道,AI視頻生成創企Genmo將從NEA籌集至少3000萬美元的資金。Genmo由伯克利AI博士和谷歌研究人員帕拉斯·杰恩(Paras Jain)和阿賈伊·杰恩(Ajay Jain)于2022年底創立。用戶向Genmo提供簡短的文本描述,然后使用其內部AI模型就可生成圖像、動畫或四秒長的視頻。
【2】Pika推出“對口型”功能
AI視頻生成平臺Pika宣布推出為生成視頻中的人物配音,并同時“對口型”的唇形同步功能LipSync,目前僅支持Pro用戶體驗。其中,音頻生成部分由AI語音克隆創企ElevenLabs提供技術支持。
【3】法AI圖像編輯器創企Photoroom獲4300萬美元融資
據TechCrunch報道,法國AI圖像編輯器創企Photoroom近期以5億美元估值完成了4300萬美元融資,Balderton Capital領投此輪融資,新投資者Aglaé和之前的投資者Y Combinator參投。Photoroom目前擁有約50名員工,計劃利用這筆融資雇用更多員工,并投資于研發和基礎設施。
【4】AI圖像生成創企Idegram首輪融資8000萬美元
據彭博社報道,加拿大AI創企Idegram于周三宣布其首輪融資計劃,融資金額為8000萬美元,該公司成立不到兩年,主要致力于開發AI圖像生成技術。
產品 & 模型
【1】Mistral AI新旗艦大語言模型發布
法國生成式AI獨角獸Mistral AI發布全新旗艦模型Mistral Large,該模型上下文窗口為32K tokens,支持英語、法語、西班牙語、德語和意大利語。在衡量多語言理解任務基準MMLU上,Mistral Large的表現僅次于GPT-4;在多語言能力的基準測評對比中,Mistral Large的表現優于70B參數規模的Llama 2。此外,Mistral AI還發布了會話助手le Chat。
【2】零一萬物發布Yi大模型API,啟動公測
國內大模型獨角獸零一萬物發布Yi大模型API并啟動公測,此次API邀測提供Yi-34B-Chat(0205)、Yi-34B-Chat-200K。其中,Yi-34B-Chat-200K 上下文長度達到200K tokens,可支持處理約20~30萬個中英文字符。
申請地址:https://01ai.feishu.cn/share/base/form/shrcn6cLrvS0jQKMgPMwmMdd06o
【3】華為發布首個通信大模型
華為在2024年世界移動通信大會MWC上發布通信行業首個大模型,華為通信大模型將提供基于角色的Copilots和基于場景的Agents的兩類應用能力,最終將全面提升網絡生產力。
【4】Adobe發布AIGC音樂創作工具
Adobe于2月28日發布了用于制作和編輯自定義音頻的最新生成式AI工具Project Music GenAI Control。借助該工具,用戶可以通過文本提示生成音樂,并進行細粒度音頻編輯。該技術發明者Nicholas Bryan稱其相當于音頻領域的Photoshop。
【5】Lightrick官宣AIGC電影制作平臺LTX Studio
Lightrick官宣第一代生成式AI電影制作平臺LTX Studio,用戶可以借助AI生成短片,并對腳本、角色、鏡頭、風格、對話、情節等內容進行詳細編輯。該公司將在3月27日正式發布該平臺,現在已開放預約。
【6】AI電影制作平臺Morph正式發布
AI創企Morph Studio剛剛聯合Stability AI推出了AI電影制作平臺Morph,該平臺基于文本到視頻模型,用戶可以通過過輸入不同場景的文本提示來創建和編輯鏡頭,并將它們組合成一個連貫的故事。
【7】Hugging Face發布StarCoder 2系列模型
Hugging Face與云計算公司ServiceNow合作創建的開源代碼生成模型系列StarCoder 2于28日發布,包括由ServiceNow訓練的30億參數模型、Hugging Face訓練的70億參數模型、英偉達訓練的150億參數模型,前兩個模型可在大多數消費級GPU上運行。
【8】微軟發布金融版Copilot
微軟發布金融版Copilot(Copilot for Finance)的公開預覽版,其可以在工作流程中提供基于AI的工作流自動化、推薦和指導操作,顯著提升相關領域人士工作效率。金融版Copilot可以幫助財務分析師在Excel中使用自然語言提示快速進行方差分析、通過自動數據結構化比較排除故障簡化Excel數據核對過程、在Outlook中提供相關客戶帳戶詳細信息的完整摘要、將Excel中的原始數據轉換為可隨時顯示的可視化圖形和報表。
如果覺得不錯,隨手點個贊、評論、轉發吧。我是陌小北,一個正在研究硅基生命的、有趣的碳基生命。如果你想第一時間看到我的文章,歡迎關注。