多鏡頭視頻生成、機器人抓取、擴散模型個性化 | Big Model weekly第58期

點擊藍字

a76fa8ea6eea932147f1307513542c1a.jpeg

關注我們

AI TIME歡迎每一位AI愛好者的加入!

01

GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot

本文介紹了一種名為GLM-4-Voice的智能且類人化的端到端語音聊天機器人。它支持中文和英文,能夠進行實時語音對話,并根據用戶指令靈活調整語音的細微特征,如情感、語調、語速和方言。GLM-4-Voice采用了一種超低比特率(175bps)的單碼本語音分詞器,其幀率為12.5Hz,是通過在自動語音識別(ASR)模型的編碼器中嵌入矢量量化瓶頸而開發的。為了高效地將知識從文本模態轉移到語音模態,本利用研究文本到分詞模型,從現有的文本預訓練語料庫中合成語音-文本交錯數據。作者從預訓練文本語言模型GLM-4-9B出發,結合無監督語音數據、交錯語音-文本數據以及監督語音-文本數據,進一步進行預訓練,擴展至1萬億個標記,實現了語音語言建模和口語問答的最新水平。最后,本研究使用高質量的對話語音數據對預訓練模型進行微調,在對話能力和語音質量方面均優于現有基線模型。

015524165a38b62ceed66926e5f4bb31.png

4cf8bf16449eb0654f1b08c041cd9370.png

c3cce525323cf502fdf87cc165782b92.png

6d52ad8b5e4477602fbbcc485361ecf9.png

587b4c66253d3029b56e69d426ebf96d.png

文章鏈接:

https://arxiv.org/pdf/2412.02612

02

Let's Think Var-by-Var: Large Language Models Enable Ad Hoc Probabilistic Reasoning

本文提出了一種從大型語言模型(LLMs)中提取“常識”的方法,并將其轉化為可用于概率推理的形式。這種能力被認為是智能的一個重要標志,即能夠用“常識”來補充未明確說明的情況。本研究專注于估算類問題,例如“新澤西州紐瓦克市的Airbnb房源價格是多少?”在沒有數據的情況下,合理回答此類問題需要調用并整合關于價格與地理位置可能與其他變量(如房屋類型)相關的常識片段。本文提出的框架通過合成一個臨時的概率模型來回答這類問題。首先,提示LLM提出與問題相關的隨機變量集合,然后對它們的聯合分布施加矩約束。接著,在對數線性族內優化聯合分布p,以最大化滿足所有約束條件。實驗表明,LLM能夠成功地被提示提出合理的變量,盡管所提出的數值約束可能存在噪聲,但通過聯合優化以滿足這些約束可以協調它們。在從三個真實世界表格數據集中衍生的概率問題上進行評估時,本文的方法在與數據集分布的總變差距離方面與直接提示的基線方法表現相當,并且對噪聲具有類似的魯棒性。

5f9d0eea68cc495dd5f42f3cd5ced8c7.png

ac3fe29e140c5ed1250e3b5ea39b7bfa.png

6985a85842b45534926cbffe76c7b5b5.png

文章鏈接:

https://arxiv.org/pdf/2412.02081

03

VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation

當前的視頻生成模型在生成短視頻片段方面表現出色,但在創建多鏡頭、類似電影的視頻方面仍面臨挑戰。現有的模型在大規模數據和豐富的計算資源支持下進行訓練,由于通常以單鏡頭為目標進行訓練,因此在維持連貫劇本的多個鏡頭之間的邏輯故事線和視覺一致性方面表現不足。為此,本文提出了VideoGen-of-Thought(VGoT),這是一種專為多鏡頭視頻生成設計的協作式且無需訓練的架構。VGoT的設計目標如下:

多鏡頭視頻生成:本文將視頻生成過程劃分為一個結構化、模塊化的序列,包括:(1)劇本生成,將簡短的故事轉化為每個鏡頭的詳細提示;(2)關鍵幀生成,負責創建與角色表現一致且視覺上連貫的關鍵幀;(3)鏡頭級視頻生成,將劇本和關鍵幀的信息轉化為鏡頭;(4)平滑機制,確保多鏡頭輸出的一致性。

合理的敘事設計:受電影劇本創作的啟發,本文的提示生成方法涵蓋五個關鍵領域,確保整個視頻的邏輯連貫性、角色發展和敘事流暢性。

跨鏡頭一致性:通過利用跨鏡頭的身份保持(IP)嵌入來確保時間和身份一致性,這些嵌入是自動從敘事中生成的。此外,本文還引入了一種跨鏡頭平滑機制,整合了重置邊界,有效結合相鄰鏡頭的潛在特征,從而實現平滑過渡并保持視頻的視覺連貫性。

實驗表明,VGoT在生成高質量、連貫的多鏡頭視頻方面優于現有的視頻生成方法。

b59f10e6f41c70e5294cd62438725c19.png

17718573028be844d4b1517918c06179.png

87f620fb94d7794a6318d66af4b2ddcb.png

31152e1bd542e2df7d0835e5086b348a.png

00d3dd79392d3a4b80d57d0715d836c9.png

3951b3b3a89509f43496dea470d87821.png

文章鏈接:

https://arxiv.org/pdf/2412.02259

04

AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction

從單張圖像生成可動畫化的人類虛擬形象對于各種數字人類建模應用至關重要。現有的3D重建方法通常難以捕捉可動畫化模型中的細節,而用于可控動畫的生成方法雖然避免了顯式的3D建模,但在極端姿態下存在視角不一致和計算效率低下的問題。本文通過利用生成模型的強大能力來生成詳細的多視角標準姿態圖像,從而幫助解決可動畫化人類重建中的歧義問題。隨后,本文提出了一種用于不一致圖像的魯棒3D重建方法,能夠在推理階段實現實時渲染。具體而言,本文將基于Transformer的視頻生成模型適應性地調整為生成多視角標準姿態圖像和法線圖,并在大規模視頻數據集上進行預訓練以提高泛化能力。為了解決視角不一致的問題,本文將重建問題重新定義為一個4D任務,并引入了一種基于4D高斯點繪制的高效3D建模方法。實驗表明,本文的方法能夠從野外圖像中實現逼真且實時的3D人類虛擬形象動畫化,展示了其有效性和泛化能力。

f8a8121c9dfa2811dfaac1049cda4dd7.png

8962726d22c4af223450baf607c9f3f2.png

c70e7f11c5da3ae898ed51534d2c5d25.png

11bf441da297e60ed03eaad6dcd3e001.png

c83d43a9286faef8d43787346b9058cf.png

文章鏈接:

https://arxiv.org/pdf/2412.02684

05

Motion Prompting: Controlling Video Generation with Motion Trajectories

運動控制對于生成富有表現力和吸引力的視頻內容至關重要;然而,大多數現有的視頻生成模型主要依賴于文本提示進行控制,這在捕捉動態動作的細微差別和時間構圖方面存在困難。為此,本文訓練了一種基于時空稀疏或密集運動軌跡的條件視頻生成模型。與以往的運動條件工作相比,這種靈活的表示方法可以編碼任意數量的軌跡,包括特定對象的運動或全局場景運動,以及時間上稀疏的運動。由于其靈活性,本文將其稱為運動提示(motion prompts)。雖然用戶可以直接指定稀疏軌跡,但本文還展示了如何將用戶的高級請求轉化為詳細且半密集的運動提示,這一過程被稱為運動提示擴展(motion prompt expansion)。通過多種應用,包括相機和對象運動控制、與圖像“交互”、運動遷移以及圖像編輯,本文展示了該方法的多功能性。實驗結果展示了模型的新興行為,例如逼真的物理效果,這表明運動提示在探索視頻模型和與未來生成式世界模型交互方面的潛力。最后,本文通過定量評估、人類研究以及實驗結果,展示了該方法的出色性能。

34ac77cea435c045dcf51cbcc2d6f6fd.png

cb2b25b3f66c9dd29fd59914a80f0ec8.png

604b16ad7ab798f68bb4a9b166bf3bb7.png

959825bd0b14218d146b699d214af454.png

文章鏈接:

https://arxiv.org/pdf/2412.02700

06

UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping

本文介紹了UniGraspTransformer,這是一種基于Transformer的通用網絡,用于靈巧的機器人抓取,旨在簡化訓練過程,同時提升可擴展性和性能。與以往的方法(例如UniDexGrasp++)不同,UniGraspTransformer采用了一種簡化的流程:首先,為單個物體訓練專用的策略網絡,通過強化學習生成成功的抓取軌跡;然后,將這些軌跡提煉到一個單一的通用網絡中。這種方法使得UniGraspTransformer能夠有效地擴展,通過多達12個自注意力模塊來處理成千上萬種具有不同姿態的物體。此外,它在理想化和現實世界的輸入上均表現出良好的泛化能力,并在基于狀態和基于視覺的設置中進行了評估。值得注意的是,UniGraspTransformer能夠為各種形狀和方向的物體生成更廣泛的抓取姿態,從而實現更多樣化的抓取策略。實驗結果表明,在基于視覺的設置中,UniGraspTransformer在各種物體類別上相較于最先進的UniDexGrasp++實現了顯著的性能提升,分別在已見物體、已見類別中的未見物體以及完全未見物體上獲得了3.5%、7.7%和10.1%的成功率提升。

b475bbe5e89fb15121f0afdbe0f0a4fb.png

ffe4b9305efd57c633bfd68eeefdc525.png

652672f142fc98640a802573b077c49b.png

508570aa1a8913db8d2287d9a0ad09e9.png

d5669ca750cc94f6024661a363bbb334.png

文章鏈接:

https://arxiv.org/pdf/2412.02699

07

LoRA Diffusion: Zero-Shot LoRA Synthesis for Diffusion Model Personalization

低秩適應(LoRA)和其他參數高效的微調(PEFT)方法為個性化文本到圖像模型提供了低內存、存儲高效的解決方案。然而,與全模型微調相比,這些方法在實際訓練時間或收斂所需的步數方面幾乎沒有改進。盡管PEFT方法假設生成分布的變化(從基礎模型到微調模型)可以通過低秩子空間中的權重變化有效建模,但它們未能利用對常見用例的知識,而這些用例通常專注于捕捉特定的風格或身份。觀察到期望的輸出通常只是LoRA訓練所涵蓋的可能域的一個小子集,本文提出通過引入對感興趣區域的先驗來減少搜索空間。實驗表明,訓練一個超網絡模型以生成LoRA權重,可以在特定領域實現競爭性的質量,同時允許近乎即時地根據用戶輸入進行條件化,這與傳統訓練方法(需要數千步)形成了鮮明對比。

e20f9f055364b71e347712b01bc03f79.png

fb3eb86a9b2050c9e5e71010abc0d619.png

28208fc062897a01f2c39022bd7eb8f3.png

97adc57660e09edd68b4099913b3bc39.png

文章鏈接:

https://arxiv.org/pdf/2412.02352

本期文章由陳研整理

往期精彩文章推薦

dc992a6d32c7ec7c47fc288547ff80b6.jpeg

?關于AI TIME?

AI TIME源起于2019年,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法和場景應用的本質問題進行探索,加強思想碰撞,鏈接全球AI學者、行業專家和愛好者,希望以辯論的形式,探討人工智能和人類未來之間的矛盾,探索人工智能領域的未來。

迄今為止,AI TIME已經邀請了2000多位海內外講者,舉辦了逾700場活動,超800萬人次觀看。

49bb469d144c51cdd5f3611089eec739.png

我知道你?

在看

提出觀點,表達想法,歡迎?

留言

54a00b237652910da5026f0767a859ce.gif

點擊?閱讀原文?查看更多!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896881.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896881.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896881.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

基于 Rust 與 GBT32960 規范的編解碼層

根據架構設計,實現編解碼層的代碼設計 Cargo.toml 加入二進制序列化支持 # 序列化支持 ... bincode "1.3" # 添加二進制序列化支持 bytes-utils "0.1" # 添加字節處理工具 開始編碼 錯誤處理(error.rs&#x…

MOM成功實施分享(七)電力電容制造MOM工藝分析與解決方案(第一部分)

聲明:文章僅用于交流學習,不用于商業項目實施,圖片來源于網絡,如有侵犯權利,請聯系作者及時刪除。 本方案旨在對電力電容(PEC和PQM型號)制造工藝深度分析,結合管理要求設計MOM相關功…

FPGA開發,使用Deepseek V3還是R1(1):應用場景

以下都是Deepseek生成的答案 FPGA開發,使用Deepseek V3還是R1(1):應用場景 FPGA開發,使用Deepseek V3還是R1(2):V3和R1的區別 FPGA開發,使用Deepseek V3還是R1&#x…

JavaWeb后端基礎(3)

原打算把Mysql操作數據庫的一些知識寫進去,但是感覺沒必要,要是現在會的都是簡單的增刪改查,所以,這一篇,我直接從java操作數據庫開始寫,所以這一篇大致就是記一下JDBC、MyBatis、以及SpringBoot的配置文件…

Pytorch實現之SRGAN+CBAM的結構設計

簡介 簡介:在SRGAN的殘差連接中加入了CBAM注意力機制,同時設計了四類損失來訓練。 論文題目:Super-resolution Generative Adversarial Networks Based on Attention Model(基于注意力模型的超分辨率生成對抗網絡) 會議:2020 IEEE第六屆計算機與通信國際會議 摘要:基…

移動端國際化翻譯同步解決方案-V3

1.前言 因為軟件出海,從在上上家公司就開始做翻譯系統,到目前為止已經出了兩個比較大的版本了,各個版本解決的痛點如下: V1版本: 主要針對的是AndroidiOS翻譯不一致和翻譯內容管理麻煩的問題,通過這個工具…

2.css簡介

什么是css: CSS (Cascading Style Sheets,層疊樣式表),是一種用來為結構化文檔(如 HTML 文檔或 XML 應用)添加樣式(字體、間距和顏色等)的計算機語言,CSS 文件擴展名為 .…

機器人學習模擬框架 robosuite (3) 機器人控制代碼示例

Robosuite框架是一個用于機器人模擬和控制的強大工具,支持多種類型的機器人。 官方文檔:Overview — robosuite 1.5 documentation 開源地址:https://github.com/ARISE-Initiative/robosuite 目錄 1、通過鍵盤或SpaceMouse遠程控制機器人…

可終身授權的外國工具,不限次數使用!PDF轉CAD的軟件

最近有不少朋友問我有沒有好用的CAD轉換工具,今天就來給大家分享兩款超實用的小軟件,希望能幫到大家。 第一款軟件是一款國外開發的,它專門用來把PDF文件轉換成CAD格式,特別方便。 這款軟件的操作非常簡單,打開后無需安…

Ubuntu系統上部署Node.js項目的完整流程

以下是在Ubuntu系統上部署Node.js項目的完整流程,分為系統初始化、環境配置、項目部署三個部分: 一、系統初始化 & 環境準備 bash # 1. 更新系統軟件包 sudo apt update && sudo apt upgrade -y# 2. 安裝基礎工具 sudo apt install -y buil…

Android內存優化指南:從數據結構到5R法則的全面策略

目錄 一、APP 內存限制 二、內存的三大問題 2.1、內存抖動(Memory Churn) 2.1.1 頻繁創建短生命周期對象 2.1.2 系統API或第三方庫的不合理使用 2.1.3 Handler使用不當 2.2、內存泄漏(Memory Leak) 2.2.1 靜態變量持有Activity或Context引用 2.2.2 未取消的回調或…

ffmpeg源碼編譯支持cuda

1.安裝cuda CUDA Toolkit 11.3 Downloads | NVIDIA Developer 在選擇組件的時候,將CUDA中的Nsight VSE和Visual Studio Integration取消勾選 不然會安裝失敗 2.編譯ffmpeg 把cuda編譯宏定義開啟,再編譯avcodec 3.編譯livavutil報錯struct "Cuda…

Git強制覆蓋分支:將任意分支完全恢復為main分支內容

Git強制覆蓋分支:將任意分支完全恢復為main分支內容 場景背景完整操作步驟一、前置準備二、操作流程步驟 1:更新本地 main 分支步驟 2:強制重置目標分支步驟 3:強制推送至遠程倉庫 三、操作示意圖 關鍵風險提示(必讀&a…

【Java反序列化測試】

Java反序列化測試 1. 識別反序列化入口點2. 構造探測Payload3. 發送Payload并觀察結果4. 繞過可能的防護5. 自動化工具注意事項總結 Java反序列化測試: 1. 識別反序列化入口點 常見入口: HTTP請求參數(如POST數據、Cookie、Headers&#xff…

golang的io

https://www.bilibili.com/list/BV1gx4y1r7xb 1. 原生io包 io包是Go語言標準庫中底層的I/O接口層,定義了通用的讀寫規則和錯誤處理邏輯。每次讀寫都是直接調用底層系統 I/O,每次讀取1字節,系統調用次數多。適用于小數據量、實時性要求高。io…

【北京迅為】iTOP-RK3568OpenHarmony系統南向驅動開發-第4章 UART基礎知識

瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工藝,搭載一顆四核Cortex-A55處理器和Mali G52 2EE 圖形處理器。RK3568 支持4K 解碼和 1080P 編碼,支持SATA/PCIE/USB3.0 外圍接口。RK3568內置獨立NPU,可用于輕量級人工…

【計算機網絡入門】初學計算機網絡(十)(重要)

目錄 1. 網絡層的作用 2. IPV4 2.1 IP 數據報格式 2.2 IP地址分類方案 2.3 數據的轉發 2.4 特殊用途的IP地址 3. 子網劃分和子網掩碼 3.1 子網劃分 3.2 子網掩碼 1. 網絡層的作用 按照教學五層模型,應用層、傳輸層、網絡層、數據鏈路層、物理層&#xff…

機器學習(五)

一,多類(Multiclass) 多類是指輸出不止有兩個輸出標簽,想要對多個種類進行分類。 Softmax回歸算法: Softmax回歸算法是Logistic回歸在多類問題上的推廣,和線性回歸一樣,將輸入的特征與權重進行…

基于 Vue 和 SSM 的前后端分離項目實戰:登錄與注冊功能實現

文章目錄 前言項目概述前端部分(Vue)1. 項目初始化2. 頁面布局Login.vueRegister.vue 3. 路由配置4. 主組件 后端部分(SSM)1. 項目結構2. 數據庫設計3. MyBatis 配置4. DAO 層5. Service 層6. Controller 層7. 配置文件8. Spring …

Windows安裝nvm【超詳細圖解】

目錄 前言 一、NVM下載 方式一:官網下載 方式二:GitHub 下載 二、NVM安裝 鏡像源配置 三、Node安裝 四、環境變量配置 前言 NVM(Node Version Manager)是一個命令行工具,用于在一臺計算機上輕松管理和切換多…