音視頻技術開發周刊

每周一期，縱覽音視頻技術領域的干貨。

新聞投稿：contribute@livevideostack.com。

Meta牽頭組建開源「AI復仇者聯盟」，AMD等盟友800億美元力戰OpenAI英偉達

超過50家科技大廠名校和機構，共同成立了全新的人工智能聯盟。以開源為旗號，誓于OpenAI和英偉達一決高下。?

深度學習大牛權威預測2024年AI行業熱點，盤點開源AI趨勢！

AI社區大佬Sebastian總結了2023年全年AI行業的熱點和問題，針對開源社區和AI研究的熱點問題給出了自己讀到的解讀和發展建議，精彩內容千萬不能錯過。

跨語種「AI同傳」震撼登場！Meta谷歌連發重大突破，顛覆語音翻譯

Meta谷歌接連放出重磅成果！Meta開源無縫交流語音翻譯模型，谷歌放出無監督語音翻譯重大突破Translation 3。

AI顛覆材料學！DeepMind重磅研究登Nature，預測220萬晶體結構贏人類800年

繼AlphaFold系列改變了生物學領域之后，谷歌DeepMind今日再發Nature，全新AI工具GNoME，成功預測220萬種晶體結構，顛覆了材料學領域。

Gemini：我們規模最大、能力最強的 AI 模型?

每一次技術的變革都是推進科學發現、加快人類進步和改善人們生活的機會。我相信我們此時正在見證的 AI 轉變將是我們一生中影響最為深遠的轉變，其影響力遠超過移動技術或互聯網的轉變。AI 有著為世界各地的人們創造機會的潛力，無論是在日常生活中還是在鑄就非凡成就方面。它將帶來新一輪的創新和經濟進步，并以前所未有的規模推動知識、學習、創造力和生產力的發展。?

橫掃13個視覺語言任務！哈工深發布多模態大模型「九天」，性能直升5%

哈工深發布全新多模態大語言模型九天（JiuTian-LION），融合細粒度空間感知和高層語義視覺知識，在13個評測任務上實現了sota性能。

腦機接口重要突破！國內團隊成功實現「全譜漢語解碼」：Top 3準確率接近100%

國內團隊實現對腦機接口漢語解碼「零的突破」，系統覆蓋了全部407個漢語拼音音節以及漢語發音特點，句子完全正確率高達30%！

全球首個開源多模態醫療基礎模型：人工打分平均超越GPT-4V、支持2D/3D放射影像

本文中，上海交大 & 上海 AI Lab 發布 Radiology Foundation Model (RadFM)，開源 14B 多模態醫療基礎模型，首次支持 2D/3D 放射影像輸入。

手機上0.2秒出圖、當前速度之最，谷歌打造超快擴散模型MobileDiffusion

近日，來自谷歌的一篇論文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」，提出了手機端最快文生圖，在 iPhone 15 Pro 上只要 0.2 秒。論文出自 UFOGen 同一團隊，在打造超小擴散模型的同時，采用當前大火的 Diffusion GAN 技術路線做采樣加速。

3D Gaussian Splatting的福音！快速提取精確且可編輯的3D網格來啦！

本文介紹了一種從3D Gaussian Splatting表示中快速提取精確且可編輯的網格的方法。該方法利用Gaussian Splatting的渲染速度快、訓練速度慢的特點，通過引入正則化項鼓勵Gaussian Splatting表示與場景表面對齊，并使用Poisson重建方法從Gaussian Splatting表示中提取網格。此外，該方法還引入了一種優化策略，將Gaussian Splatting表示與網格一起優化，通過Gaussian Splatting渲染實現高效的編輯、雕塑、動畫和重新光照。這種方法能夠在幾分鐘內檢索到具有更好渲染質量的可編輯網格，相比于從SDF中提取網格的方法需要幾個小時。

使用庫普曼線性化以及數據驅動的批量定位和SLAM?

本文提出了一個無模型批量定位和SLAM的框架。我們使用提升函數將控制仿射系統映射到高維空間，其中過程模型和測量模型都被渲染為雙線性。在訓練過程中，使用真實數據求解一個最小二乘問題，以純粹從數據中計算與提升系統相關的高維模型矩陣。在推理時，通過一個優化問題來解決未知的機器人軌跡和路標，其中引入了約束，以保持解在提升函數的流形上。使用序列二次規劃( SQP )有效地解決了該問題，其中SQP迭代的復雜度與時間步數呈線性比例關系。

UWB雷達SLAM：一種在視覺拒止的室內環境中的無錨點方法

激光雷達和相機常被用作同步定位與地圖構建( SLAM )的傳感器。然而，這些傳感器在低能見度(例如煙霧)或具有反射面(例如反射鏡)的地方容易失效。另一方面，電磁波在波長增加時表現出更好的穿透特性，因此不受低能見度的影響。因此，本文提出了超寬帶( UWB )雷達作為現有傳感器的替代方案。UWB通常被用于錨點-標簽SLAM系統。在環境中安裝一個或多個錨點，并將標簽附著在機器人上。

https://ieeexplore.ieee.org/document/10175555/

iPhone 15 Pro+三方軟件，開拓“空間視頻”平民時代

2023 蘋果秋季發布會上，iPhone 15 Pro 系列帶來了一個彩蛋功能——空間視頻拍攝。該功能將 iPhone 與 Vision Pro 進行了生態聯動，不僅增強了 Vision Pro 的用戶生活場景，更能為明年 Vision Pro 的銷售埋下伏筆。

評測丨一鍵成為虛擬偶像？索尼mocopi會是新的動捕黑科技嗎？

此前，一名游戲動捕演員“曦曦魚SAKANA”走出幕后，在b站發布了多條關于不同風格游戲角色的動作捕捉視頻，因其傳神的動作與表情獲得了觀眾的高度認可，不少觀眾紛紛表示“仿佛看到了xx角色本人”。

Varjo最新VR/MR頭顯XR-4開始面向專業消費者提供

在過去，Varjo的設備主要面向企業市場，定價高昂，而且購買需要咨詢問價。對于這家公司剛剛發布的全新XR-4系列頭顯，這是一款無需支付高額年費且直接向專業消費者銷售的旗艦設備。

亞馬遜AI芯片，深度解讀

亞馬遜網絡服務可能不是第一家創建自己的定制計算引擎的超大規模提供商和云構建商，但它緊隨谷歌之后發布了自研的AI芯片——谷歌于 2015 年開始使用其自主研發的 TPU 加速器來處理人工智能工作負載。

GPU，巨變前夜

在3D圖像學中，對于真實場景和物體的高精度建模/渲染一直是整個學界夢寐以求的目標之一。在過去幾十年中，3D場景和物體建模的主流方式是基于多邊形（ploygon mesh）的建模，即把一個3D建模的物體表面近似為由大量多邊形組成，而多邊形數量越多，則3D建模和真實物體/場景越接近。??

3D封裝，成本最優的選擇？

當 2.5D 和 3D 封裝最初被構想出來時，普遍的共識是只有最大的半導體公司才能負擔得起，但開發成本很快就得到了控制。在某些情況下，這些先進的封裝實際上可能是成本最低的選擇。

蘋果芯片實驗室首次對外公開！

美國 CNBC 發布新聞報道，稱于今年 11 月訪問了蘋果位于加州庫比蒂諾的園區，首次獲批公開了蘋果芯片實驗室內部場景。

空間音頻體驗與評價方案

區別于傳統單通道和立體聲音頻，3D音頻是一種帶來三維沉浸式音頻體驗的新范式，其在制作、傳輸分發、端側渲染端到端全鏈條都引入了更復雜的音頻數據存儲格式、編解碼策略以及音效算法，繼而為消費者帶來了更身臨其境的音頻體驗感以及空氣感（eg：戴上耳機聽音頻，感覺就像沒戴耳機且聽到身邊真實三維世界的聲音一樣），極有潛力成為未來交互式社交、沉浸式多媒體創作&娛樂、XR等產業的技術底座。

任意文本、視覺、音頻混合生成，多模態有了強大的基礎引擎CoDi-2

今年 5 月，北卡羅來納大學教堂山分校、微軟提出一種可組合擴散（Composable Diffusion，簡稱 CoDi）模型，讓一種模型統一多種模態成為可能。CoDi 不僅支持從單模態到單模態的生成，還能接收多個條件輸入以及多模態聯合生成。

https://arxiv.org/pdf/2311.18775.pdf

如何優化智能揚聲器的語音和音頻測試？

智能揚聲器已經風靡千家萬戶，消費者滿意度與其智能揚聲器對語音命令的理解程度密切相關。語音清晰度和音質對于領先的平臺提供商至關重要。那么，如何確保您的產品能夠滿足消費者的嚴格要求？

超聲波可實現侵入性較小的腦機接口

腦機接口（BMI）是可以讀取大腦活動并將該活動轉換為控制假肢或計算機光標等電子設備的設備。科學家們希望能借用BMI使癱瘓的人能夠用自己的思想移動假肢裝置。許多BMI需要侵入性手術將電極植入大腦以讀取神經活動。然而，在2021年，加州理工學院的研究人員開發了一種使用功能性超聲（fUS）讀取大腦活動的方法，這是一種侵入性小得多的技術。

音視頻編解碼--隨機訪問Random Access

在理想情況下，視頻編碼器可以發送視頻第一幀的關鍵幀，然后每個后續幀都將表示為差異，直到視頻結束。?

NeurIPS2023 | ResShift：通過殘差位移實現的用于圖像超分辨率的高效擴散模型?

基于擴散的圖像超分辨率（SR）方法主要因需要進行數百甚至數千次采樣步驟，導致推理速度較慢而受到限制。現有的加速采樣技術不可避免地在一定程度上犧牲性能，導致超模糊的SR結果。為了解決這個問題，本文提出了一種新穎高效的擴散模型用于SR，顯著減少了擴散步驟的數量，從而在推理過程中消除了后加速的需求及其相關的性能下降。

ICCV 2023 | 基于不規則群解耦的語義結構圖像壓縮?

圖像壓縮技術通常側重于壓縮圖像以供人類消費，這導致為下游應用傳輸冗余內容。為了解決這一問題，一些先前的工作提出對比特流進行語義結構劃分，通過選擇性的傳輸和重構可以滿足特定的應用需求。它們根據語義將輸入圖像劃分為多個矩形區域，但忽略了區域之間的交互信息，導致比特率的浪費和區域邊界的重建失真。本文提出了基于定制的組掩碼將圖像解耦為多個具有不規則形狀的組，并對其進行獨立壓縮。組掩碼以更精細的粒度描述圖像，減少冗余內容的傳輸。

年終王炸！Amazon Q重磅登場，云巨頭開創企業級生成式AI新賽道

就在剛剛，亞馬遜云科技祭出了全新AI「大殺器」Amazon Q。不僅只用兩天時間就升級了上千款Java應用，更是將企業的數據屏障一舉擊穿。

蘋果選擇視涯和京東方供應Vision Pro微顯示器；復旦科創母基金首期十億元啟動

蘋果首款 AR 硬件 Apple Vision Pro 將采用雙 1.3 英寸 4K Micro-OLED 微顯示器。蘋果一直在與生產首款 Micro-OLED 微顯示器的索尼合作，但后來的報道表明，蘋果正在尋求用視涯和京東方的合作，以取代索尼作為其供應商，降低成本（并且也可能增加潛在供應，因為索尼產能有限）。????

SteamVR官方串流工具上線Quest Store；中興通訊發布5G VR大空間沉浸劇場解決方案頭條

近日，Valve所發布的官方免費串流工具Steam Link正式上線Quest Store。借助該工具，用戶可以基于無線WiFi網絡暢玩《Half-Life: Alyx》等SteamVR知名游戲，此外，用戶還可以通過VR頭顯體驗傳統的平面游戲。

重磅首發｜2024音視頻技術發展報告（文末附下載）

11月24日，在LiveVideoStackCon 2023深圳站大會上，我們與騰訊云音視頻聯合首發《2024音視頻技術發展報告》。報告通過300+音視頻開發者調研，40+專家一線訪談，下沉8大細分技術領域進行全面解讀，涵蓋音視頻編解碼/AI編碼/多媒體處理框架/媒體傳輸協議/超低延遲技術/虛擬現實/AIGC/出海等領域，深入洞察音視頻技術現狀和未來發展趨勢。??

▲點擊“閱讀原文”▲

跳轉報告下載鏈接