音視頻技術開發周刊 | 323

每周一期,縱覽音視頻技術領域的干貨。

新聞投稿:contribute@livevideostack.com。

844745d62465f582cdfcd92dfff636e1.png

Meta牽頭組建開源「AI復仇者聯盟」,AMD等盟友800億美元力戰OpenAI英偉達

超過50家科技大廠名校和機構,共同成立了全新的人工智能聯盟。以開源為旗號,誓于OpenAI和英偉達一決高下。?

深度學習大牛權威預測2024年AI行業熱點,盤點開源AI趨勢!

AI社區大佬Sebastian總結了2023年全年AI行業的熱點和問題,針對開源社區和AI研究的熱點問題給出了自己讀到的解讀和發展建議,精彩內容千萬不能錯過。

跨語種「AI同傳」震撼登場!Meta谷歌連發重大突破,顛覆語音翻譯

Meta谷歌接連放出重磅成果!Meta開源無縫交流語音翻譯模型,谷歌放出無監督語音翻譯重大突破Translation 3。

AI顛覆材料學!DeepMind重磅研究登Nature,預測220萬晶體結構贏人類800年

繼AlphaFold系列改變了生物學領域之后,谷歌DeepMind今日再發Nature,全新AI工具GNoME,成功預測220萬種晶體結構,顛覆了材料學領域。

Gemini:我們規模最大、能力最強的 AI 模型?

每一次技術的變革都是推進科學發現、加快人類進步和改善人們生活的機會。我相信我們此時正在見證的 AI 轉變將是我們一生中影響最為深遠的轉變,其影響力遠超過移動技術或互聯網的轉變。AI 有著為世界各地的人們創造機會的潛力,無論是在日常生活中還是在鑄就非凡成就方面。它將帶來新一輪的創新和經濟進步,并以前所未有的規模推動知識、學習、創造力和生產力的發展。?

1c09c0e149d780139b2cd2fc5445c182.png

橫掃13個視覺語言任務!哈工深發布多模態大模型「九天」,性能直升5%

哈工深發布全新多模態大語言模型九天(JiuTian-LION),融合細粒度空間感知和高層語義視覺知識,在13個評測任務上實現了sota性能。

腦機接口重要突破!國內團隊成功實現「全譜漢語解碼」:Top 3準確率接近100%

國內團隊實現對腦機接口漢語解碼「零的突破」,系統覆蓋了全部407個漢語拼音音節以及漢語發音特點,句子完全正確率高達30%!

全球首個開源多模態醫療基礎模型:人工打分平均超越GPT-4V、支持2D/3D放射影像

本文中,上海交大 & 上海 AI Lab 發布 Radiology Foundation Model (RadFM),開源 14B 多模態醫療基礎模型,首次支持 2D/3D 放射影像輸入。

手機上0.2秒出圖、當前速度之最,谷歌打造超快擴散模型MobileDiffusion

近日,來自谷歌的一篇論文「MobileDiffusion: Subsecond Text-to-Image Generation on Mobile Devices」,提出了手機端最快文生圖,在 iPhone 15 Pro 上只要 0.2 秒。論文出自 UFOGen 同一團隊,在打造超小擴散模型的同時, 采用當前大火的 Diffusion GAN 技術路線做采樣加速。

9fe3a161549b3b2807bd40d563fe0b6f.png

3D Gaussian Splatting的福音!快速提取精確且可編輯的3D網格來啦!

本文介紹了一種從3D Gaussian Splatting表示中快速提取精確且可編輯的網格的方法。該方法利用Gaussian Splatting的渲染速度快、訓練速度慢的特點,通過引入正則化項鼓勵Gaussian Splatting表示與場景表面對齊,并使用Poisson重建方法從Gaussian Splatting表示中提取網格。此外,該方法還引入了一種優化策略,將Gaussian Splatting表示與網格一起優化,通過Gaussian Splatting渲染實現高效的編輯、雕塑、動畫和重新光照。這種方法能夠在幾分鐘內檢索到具有更好渲染質量的可編輯網格,相比于從SDF中提取網格的方法需要幾個小時。

使用庫普曼線性化以及數據驅動的批量定位和SLAM?

本文提出了一個無模型批量定位和SLAM的框架。我們使用提升函數將控制仿射系統映射到高維空間,其中過程模型和測量模型都被渲染為雙線性。在訓練過程中,使用真實數據求解一個最小二乘問題,以純粹從數據中計算與提升系統相關的高維模型矩陣。在推理時,通過一個優化問題來解決未知的機器人軌跡和路標,其中引入了約束,以保持解在提升函數的流形上。使用序列二次規劃( SQP )有效地解決了該問題,其中SQP迭代的復雜度與時間步數呈線性比例關系。

UWB雷達SLAM:一種在視覺拒止的室內環境中的無錨點方法

激光雷達和相機常被用作同步定位與地圖構建( SLAM )的傳感器。然而,這些傳感器在低能見度(例如煙霧)或具有反射面(例如反射鏡)的地方容易失效。另一方面,電磁波在波長增加時表現出更好的穿透特性,因此不受低能見度的影響。因此,本文提出了超寬帶( UWB )雷達作為現有傳感器的替代方案。UWB通常被用于錨點-標簽SLAM系統。在環境中安裝一個或多個錨點,并將標簽附著在機器人上。

https://ieeexplore.ieee.org/document/10175555/

4f5dbc9ad940b78fb283237f852c0eea.png

iPhone 15 Pro+三方軟件,開拓“空間視頻”平民時代

2023 蘋果秋季發布會上,iPhone 15 Pro 系列帶來了一個彩蛋功能——空間視頻拍攝。該功能將 iPhone 與 Vision Pro 進行了生態聯動,不僅增強了 Vision Pro 的用戶生活場景,更能為明年 Vision Pro 的銷售埋下伏筆。

評測丨一鍵成為虛擬偶像?索尼mocopi會是新的動捕黑科技嗎?

此前,一名游戲動捕演員“曦曦魚SAKANA”走出幕后,在b站發布了多條關于不同風格游戲角色的動作捕捉視頻,因其傳神的動作與表情獲得了觀眾的高度認可,不少觀眾紛紛表示“仿佛看到了xx角色本人”。

Varjo最新VR/MR頭顯XR-4開始面向專業消費者提供

在過去,Varjo的設備主要面向企業市場,定價高昂,而且購買需要咨詢問價。對于這家公司剛剛發布的全新XR-4系列頭顯,這是一款無需支付高額年費且直接向專業消費者銷售的旗艦設備。

ba6220b8cd2a8fa82d2f25fcac673f83.png

亞馬遜AI芯片,深度解讀

亞馬遜網絡服務可能不是第一家創建自己的定制計算引擎的超大規模提供商和云構建商,但它緊隨谷歌之后發布了自研的AI芯片——谷歌于 2015 年開始使用其自主研發的 TPU 加速器來處理人工智能工作負載。

GPU,巨變前夜

在3D圖像學中,對于真實場景和物體的高精度建模/渲染一直是整個學界夢寐以求的目標之一。在過去幾十年中,3D場景和物體建模的主流方式是基于多邊形(ploygon mesh)的建模,即把一個3D建模的物體表面近似為由大量多邊形組成,而多邊形數量越多,則3D建模和真實物體/場景越接近。??

3D封裝,成本最優的選擇?

當 2.5D 和 3D 封裝最初被構想出來時,普遍的共識是只有最大的半導體公司才能負擔得起,但開發成本很快就得到了控制。在某些情況下,這些先進的封裝實際上可能是成本最低的選擇。

蘋果芯片實驗室首次對外公開!

美國 CNBC 發布新聞報道,稱于今年 11 月訪問了蘋果位于加州庫比蒂諾的園區,首次獲批公開了蘋果芯片實驗室內部場景。

b2f7c0313c45e10eb58775e70164029e.png

空間音頻體驗與評價方案

區別于傳統單通道和立體聲音頻,3D音頻是一種帶來三維沉浸式音頻體驗的新范式,其在制作、傳輸分發、端側渲染端到端全鏈條都引入了更復雜的音頻數據存儲格式、編解碼策略以及音效算法,繼而為消費者帶來了更身臨其境的音頻體驗感以及空氣感(eg:戴上耳機聽音頻,感覺就像沒戴耳機且聽到身邊真實三維世界的聲音一樣),極有潛力成為未來交互式社交、沉浸式多媒體創作&娛樂、XR等產業的技術底座。

任意文本、視覺、音頻混合生成,多模態有了強大的基礎引擎CoDi-2

今年 5 月,北卡羅來納大學教堂山分校、微軟提出一種可組合擴散(Composable Diffusion,簡稱 CoDi)模型,讓一種模型統一多種模態成為可能。CoDi 不僅支持從單模態到單模態的生成,還能接收多個條件輸入以及多模態聯合生成。

https://arxiv.org/pdf/2311.18775.pdf

如何優化智能揚聲器的語音和音頻測試?

智能揚聲器已經風靡千家萬戶,消費者滿意度與其智能揚聲器對語音命令的理解程度密切相關。語音清晰度和音質對于領先的平臺提供商至關重要。那么,如何確保您的產品能夠滿足消費者的嚴格要求?

超聲波可實現侵入性較小的腦機接口

腦機接口(BMI)是可以讀取大腦活動并將該活動轉換為控制假肢或計算機光標等電子設備的設備。科學家們希望能借用BMI使癱瘓的人能夠用自己的思想移動假肢裝置。許多BMI需要侵入性手術將電極植入大腦以讀取神經活動。然而,在2021年,加州理工學院的研究人員開發了一種使用功能性超聲(fUS) 讀取大腦活動的方法,這是一種侵入性小得多的技術。

23121341d8496c8c9a4e103cfd257af2.png

音視頻編解碼--隨機訪問Random Access

在理想情況下,視頻編碼器可以發送視頻第一幀的關鍵幀,然后每個后續幀都將表示為差異,直到視頻結束。?

92e9c0cc7fbc36e84b36f5489ec8a2e7.png

NeurIPS2023 | ResShift:通過殘差位移實現的用于圖像超分辨率的高效擴散模型?

基于擴散的圖像超分辨率(SR)方法主要因需要進行數百甚至數千次采樣步驟,導致推理速度較慢而受到限制。現有的加速采樣技術不可避免地在一定程度上犧牲性能,導致超模糊的SR結果。為了解決這個問題,本文提出了一種新穎高效的擴散模型用于SR,顯著減少了擴散步驟的數量,從而在推理過程中消除了后加速的需求及其相關的性能下降。

ICCV 2023 | 基于不規則群解耦的語義結構圖像壓縮?

圖像壓縮技術通常側重于壓縮圖像以供人類消費,這導致為下游應用傳輸冗余內容。為了解決這一問題,一些先前的工作提出對比特流進行語義結構劃分,通過選擇性的傳輸和重構可以滿足特定的應用需求。它們根據語義將輸入圖像劃分為多個矩形區域,但忽略了區域之間的交互信息,導致比特率的浪費和區域邊界的重建失真。本文提出了基于定制的組掩碼將圖像解耦為多個具有不規則形狀的組,并對其進行獨立壓縮。組掩碼以更精細的粒度描述圖像,減少冗余內容的傳輸。

385f4cb58f5d230e9f5c28637191b5a7.png

年終王炸!Amazon Q重磅登場,云巨頭開創企業級生成式AI新賽道

就在剛剛,亞馬遜云科技祭出了全新AI「大殺器」Amazon Q。不僅只用兩天時間就升級了上千款Java應用,更是將企業的數據屏障一舉擊穿。

蘋果選擇視涯和京東方供應Vision Pro微顯示器;復旦科創母基金首期十億元啟動

蘋果首款 AR 硬件 Apple Vision Pro 將采用雙 1.3 英寸 4K Micro-OLED 微顯示器。蘋果一直在與生產首款 Micro-OLED 微顯示器的索尼合作,但后來的報道表明,蘋果正在尋求用視涯和京東方的合作,以取代索尼作為其供應商,降低成本(并且也可能增加潛在供應,因為索尼產能有限)。????

SteamVR官方串流工具上線Quest Store;中興通訊發布5G VR大空間沉浸劇場解決方案頭條

近日,Valve所發布的官方免費串流工具Steam Link正式上線Quest Store。借助該工具,用戶可以基于無線WiFi網絡暢玩《Half-Life: Alyx》等SteamVR知名游戲,此外,用戶還可以通過VR頭顯體驗傳統的平面游戲。

7570e034fd467b5566c687b91f96c7e0.png

重磅首發|2024音視頻技術發展報告(文末附下載)

11月24日,在LiveVideoStackCon 2023深圳站大會上,我們與騰訊云音視頻聯合首發《2024音視頻技術發展報告》。報告通過300+音視頻開發者調研,40+專家一線訪談,下沉8大細分技術領域進行全面解讀,涵蓋音視頻編解碼/AI編碼/多媒體處理框架/媒體傳輸協議/超低延遲技術/虛擬現實/AIGC/出海等領域,深入洞察音視頻技術現狀和未來發展趨勢。??

點擊閱讀原文

跳轉報告下載鏈接

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/215225.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/215225.shtml
英文地址,請注明出處:http://en.pswp.cn/news/215225.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

RocketMQ的架構是什么樣的?

RocketMQ,作為一款強大的分布式消息中間件,廣泛應用于各種大規模分布式系統中,為異步消息通信提供了可靠的解決方案。本文將深入探討RocketMQ的核心組件,包括Producer、Broker、Consumer和NameServer,以及它們在整個架…

高中物理電學總結之穩恒電流篇

高中物理電學總結之穩恒電流篇 電流電流的定義對電流的微觀分析 電阻歐姆定律電阻的串并聯電阻定律 電源的電動勢電源電動勢 閉合電路歐姆定律閉合電路閉合電路歐姆定律 電流做功與焦耳定律電流做功電功率焦耳定律電源效率 電表改裝 電流 電流的定義 電解質溶液中的自由電荷是…

ACwing算法備戰藍橋杯——Day30——樹狀數組

定義: 樹狀數組是一種數據結構,能將對一個區間內數據進行修改和求前綴和的這兩種操作的最壞時間復雜度降低到O(logn); 實現所需變量 變量名變量數據類型作用數組a[]int存儲一段區間數組tr[]int表示樹狀數組 主要操作 函數名函數參數組要作用lowbit()int…

Linux-RedHat系統-安裝 中間件 Tuxedo

安裝步聚 一、中間件安裝包: tuxedo121300_64_Linux_01_x86 Tuxedo下載地址: Oracle Tuxedo Downloads 二、新建用戶: (創建Oracle用戶時,需要root權限操作) 創建用戶: # useradd oracle …

es6從url中獲取想要的參數

第一種方法 很古老,通過 split 方法慢慢截取,可行是可行但是這個方法有一個弊端,因為 split 是分割成數組了,只能按照下標的位置獲取值,所以就是參數位置一旦發生變化,那么獲取到的值也就錯位了 let user…

利用python將data:image/jpg; base64,格式數據轉化下載為圖片

在做爬蟲爬取圖片時,發現有的圖片url是用“data:image/jpg;base64” 開頭的,例如下圖 部分開頭樣式如下: 1、data:image/jpg; base64, 2、data:image/png; base64, 3、data:image/webp;base64, 利用python進行代碼進行圖片下載,…

面向對象設計與分析40講(22)罪惡的單例模式?

單例模式曾經被認為是一種重要的設計模式,但現在已經失去了很多開發者的青睞。雖然單例模式可能仍然適用于某些場景,但它的使用已經不再像過去那樣普遍了。 單例模式是創建型設計模式的一種,它限制了一個類的實例化只能為一個實例&#xff0…

先進的Web3.0實戰熱門領域NFT項目幾個總結分享

非同質化代幣(NFT)的崛起為游戲開發者提供了全新的機會,將游戲內物品和資產轉化為真正的可擁有和交易的數字資產。本文將介紹幾個基于最先進的Web3.0技術實踐的NFT游戲項目,并分享一些相關代碼。 Axie Infinity(亞龍無…

智能優化算法應用:基于貓群算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼

智能優化算法應用:基于貓群算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼 文章目錄 智能優化算法應用:基于貓群算法3D無線傳感器網絡(WSN)覆蓋優化 - 附代碼1.無線傳感網絡節點模型2.覆蓋數學模型及分析3.貓群算法4.實驗參數設定5.算法結果6.參考文獻7.MA…

C++ extern “C“ 用法

extern “C” 由于c中需要支持函數重載,所以c和c中對同一個函數經過編譯后生成的函數名是不相同的 extern “C” 的主要作用就是為了實現c代碼能夠調用其他 c 語言代碼。 1(不常用) //告訴編譯器 show() 函數按c語言的方式進行編譯和鏈接 extern "C" voi…

MySQL數據庫概念與實踐

MySQL數據庫概念與實踐 1. 概念 MySQL是一種常用的關系型數據庫管理系統,具有豐富的功能和廣泛的應用。在本篇博客中,我們將介紹MySQL數據庫的一些重要概念和相關知識。 存儲引擎 存儲引擎是MySQL數據庫用于存儲、更新和查詢數據的技術實現方法。MyS…

Python安裝第三方庫出錯

Python 程序包鏡像的國內源如下: 清華大學: https://pypi.tuna.tsinghua.edu.cn/simple/豆瓣(douban): https://pypi.douban.com/simple/阿里云: https://mirrors.aliyun.com/pypi/simple/中國科技大學: https://pypi.mirrors.ustc.edu.cn/simple/ 使用方法&#xf…

件夾和文件比較軟件VisualDiffer mac功能介紹

VisualDiffer mac是一款運行在MacOS上的文件夾和文件快速比較工具。VisualDiffer可以對不同文件夾中文件或文檔做出比較或者比較兩個文件的路徑。還可以通過UNIS diff命令快速、標準和可靠的比較出各類不同的文件夾和文件結果,使用不同的顏色直觀地顯示。 VisualDif…

酷滴科技出席浦發銀行第七屆國際金融科技創新大賽

12月7日,浦發銀行全球金融科技創新大賽在上海展開決賽。本屆大會以“科技金融,激發創新力量”為主題,聚焦金融行業數字化轉型過程中的痛點與難點,旨在探討新時代下金融科技的新角色、新機遇以及新挑戰。酷滴科技CEO張沈分享了酷滴…

12.11

1.q&#xff0c;w&#xff0c;e亮led1&#xff0c;2&#xff0c;3&#xff1b; a&#xff0c;s&#xff0c;d滅led1&#xff0c;2&#xff0c;3&#xff1b; main.c #include "uar1.h"#include "led.h"void delay(int ms){int i,j;for(i0;i<ms;i){for…

「CocoaPods」Podfile文件模板

前言&#xff1a;在iOS項目中&#xff0c;通常會使用到CocoaPods作為一個第三方庫的依賴管理工具&#xff0c;可以簡化對組件的依賴、更新的過程&#xff0c;本文將介紹在iOS項目中多Target企業級項目的Podfile文件編寫格式 一、podfile介紹 先簡單介紹一下podfile文件&#…

基于mdadm創建與管理軟raid

環境 VMware workstation 17pro CentOS Linux release 7.9.2009 (Core) ——內存8G&#xff0c;16core ——硬盤系統盤100G ——四塊20G硬盤 注意事項 1、在沒有操作系統的情況下&#xff0c;可以在裝系統時將磁盤做軟raid&#xff0c;然后使用軟raid作為系統盤 2、在重構時&a…

虛幻商城 道具匯總

文章目錄 載具Vehicle Variety Pack(車輛品種包)Vehicle Variety Pack Volume 2(車輛品種包第 2 卷)家具Free Furniture Pack(免費家具包)Old West - VOL 1 - Interior Furniture(舊西部 - 第1卷 - 家具包)Old West VOL.3 - Travel Supplies and Goods(舊西部 - 第3卷…

容器及容器調度(云)

在云計算中&#xff0c;容器是一種輕量級、可執行的軟件包&#xff0c;它包含應用程序及其全部依賴項&#xff0c;包括庫、二進制文件、配置文件等。容器與虛擬機不同&#xff0c;因為它們不需要包含完整的操作系統&#xff1b;相反&#xff0c;所有容器都共享主機操作系統的內…

SQL中的三值邏輯:TRUE、FALSE 和 UNKNOWN。

在SQL中&#xff0c;通常采用三值邏輯處理條件表達式的真值。這種邏輯是基于三種可能的真值狀態&#xff1a;TRUE、FALSE 和 UNKNOWN。 TRUE&#xff08;真&#xff09;&#xff1a; 表示條件為真或成立。 FALSE&#xff08;假&#xff09;&#xff1a; 表示條件為假或不成立。…