點擊藍字
關注我們
AI TIME歡迎每一位AI愛好者的加入!
01
GLM-4-Voice: Towards Intelligent and Human-Like End-to-End Spoken Chatbot
本文介紹了一種名為GLM-4-Voice的智能且類人化的端到端語音聊天機器人。它支持中文和英文,能夠進行實時語音對話,并根據用戶指令靈活調整語音的細微特征,如情感、語調、語速和方言。GLM-4-Voice采用了一種超低比特率(175bps)的單碼本語音分詞器,其幀率為12.5Hz,是通過在自動語音識別(ASR)模型的編碼器中嵌入矢量量化瓶頸而開發的。為了高效地將知識從文本模態轉移到語音模態,本利用研究文本到分詞模型,從現有的文本預訓練語料庫中合成語音-文本交錯數據。作者從預訓練文本語言模型GLM-4-9B出發,結合無監督語音數據、交錯語音-文本數據以及監督語音-文本數據,進一步進行預訓練,擴展至1萬億個標記,實現了語音語言建模和口語問答的最新水平。最后,本研究使用高質量的對話語音數據對預訓練模型進行微調,在對話能力和語音質量方面均優于現有基線模型。
文章鏈接:
https://arxiv.org/pdf/2412.02612
02
Let's Think Var-by-Var: Large Language Models Enable Ad Hoc Probabilistic Reasoning
本文提出了一種從大型語言模型(LLMs)中提取“常識”的方法,并將其轉化為可用于概率推理的形式。這種能力被認為是智能的一個重要標志,即能夠用“常識”來補充未明確說明的情況。本研究專注于估算類問題,例如“新澤西州紐瓦克市的Airbnb房源價格是多少?”在沒有數據的情況下,合理回答此類問題需要調用并整合關于價格與地理位置可能與其他變量(如房屋類型)相關的常識片段。本文提出的框架通過合成一個臨時的概率模型來回答這類問題。首先,提示LLM提出與問題相關的隨機變量集合,然后對它們的聯合分布施加矩約束。接著,在對數線性族內優化聯合分布p,以最大化滿足所有約束條件。實驗表明,LLM能夠成功地被提示提出合理的變量,盡管所提出的數值約束可能存在噪聲,但通過聯合優化以滿足這些約束可以協調它們。在從三個真實世界表格數據集中衍生的概率問題上進行評估時,本文的方法在與數據集分布的總變差距離方面與直接提示的基線方法表現相當,并且對噪聲具有類似的魯棒性。
文章鏈接:
https://arxiv.org/pdf/2412.02081
03
VideoGen-of-Thought: A Collaborative Framework for Multi-Shot Video Generation
當前的視頻生成模型在生成短視頻片段方面表現出色,但在創建多鏡頭、類似電影的視頻方面仍面臨挑戰。現有的模型在大規模數據和豐富的計算資源支持下進行訓練,由于通常以單鏡頭為目標進行訓練,因此在維持連貫劇本的多個鏡頭之間的邏輯故事線和視覺一致性方面表現不足。為此,本文提出了VideoGen-of-Thought(VGoT),這是一種專為多鏡頭視頻生成設計的協作式且無需訓練的架構。VGoT的設計目標如下:
多鏡頭視頻生成:本文將視頻生成過程劃分為一個結構化、模塊化的序列,包括:(1)劇本生成,將簡短的故事轉化為每個鏡頭的詳細提示;(2)關鍵幀生成,負責創建與角色表現一致且視覺上連貫的關鍵幀;(3)鏡頭級視頻生成,將劇本和關鍵幀的信息轉化為鏡頭;(4)平滑機制,確保多鏡頭輸出的一致性。
合理的敘事設計:受電影劇本創作的啟發,本文的提示生成方法涵蓋五個關鍵領域,確保整個視頻的邏輯連貫性、角色發展和敘事流暢性。
跨鏡頭一致性:通過利用跨鏡頭的身份保持(IP)嵌入來確保時間和身份一致性,這些嵌入是自動從敘事中生成的。此外,本文還引入了一種跨鏡頭平滑機制,整合了重置邊界,有效結合相鄰鏡頭的潛在特征,從而實現平滑過渡并保持視頻的視覺連貫性。
實驗表明,VGoT在生成高質量、連貫的多鏡頭視頻方面優于現有的視頻生成方法。
文章鏈接:
https://arxiv.org/pdf/2412.02259
04
AniGS: Animatable Gaussian Avatar from a Single Image with Inconsistent Gaussian Reconstruction
從單張圖像生成可動畫化的人類虛擬形象對于各種數字人類建模應用至關重要。現有的3D重建方法通常難以捕捉可動畫化模型中的細節,而用于可控動畫的生成方法雖然避免了顯式的3D建模,但在極端姿態下存在視角不一致和計算效率低下的問題。本文通過利用生成模型的強大能力來生成詳細的多視角標準姿態圖像,從而幫助解決可動畫化人類重建中的歧義問題。隨后,本文提出了一種用于不一致圖像的魯棒3D重建方法,能夠在推理階段實現實時渲染。具體而言,本文將基于Transformer的視頻生成模型適應性地調整為生成多視角標準姿態圖像和法線圖,并在大規模視頻數據集上進行預訓練以提高泛化能力。為了解決視角不一致的問題,本文將重建問題重新定義為一個4D任務,并引入了一種基于4D高斯點繪制的高效3D建模方法。實驗表明,本文的方法能夠從野外圖像中實現逼真且實時的3D人類虛擬形象動畫化,展示了其有效性和泛化能力。
文章鏈接:
https://arxiv.org/pdf/2412.02684
05
Motion Prompting: Controlling Video Generation with Motion Trajectories
運動控制對于生成富有表現力和吸引力的視頻內容至關重要;然而,大多數現有的視頻生成模型主要依賴于文本提示進行控制,這在捕捉動態動作的細微差別和時間構圖方面存在困難。為此,本文訓練了一種基于時空稀疏或密集運動軌跡的條件視頻生成模型。與以往的運動條件工作相比,這種靈活的表示方法可以編碼任意數量的軌跡,包括特定對象的運動或全局場景運動,以及時間上稀疏的運動。由于其靈活性,本文將其稱為運動提示(motion prompts)。雖然用戶可以直接指定稀疏軌跡,但本文還展示了如何將用戶的高級請求轉化為詳細且半密集的運動提示,這一過程被稱為運動提示擴展(motion prompt expansion)。通過多種應用,包括相機和對象運動控制、與圖像“交互”、運動遷移以及圖像編輯,本文展示了該方法的多功能性。實驗結果展示了模型的新興行為,例如逼真的物理效果,這表明運動提示在探索視頻模型和與未來生成式世界模型交互方面的潛力。最后,本文通過定量評估、人類研究以及實驗結果,展示了該方法的出色性能。
文章鏈接:
https://arxiv.org/pdf/2412.02700
06
UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping
本文介紹了UniGraspTransformer,這是一種基于Transformer的通用網絡,用于靈巧的機器人抓取,旨在簡化訓練過程,同時提升可擴展性和性能。與以往的方法(例如UniDexGrasp++)不同,UniGraspTransformer采用了一種簡化的流程:首先,為單個物體訓練專用的策略網絡,通過強化學習生成成功的抓取軌跡;然后,將這些軌跡提煉到一個單一的通用網絡中。這種方法使得UniGraspTransformer能夠有效地擴展,通過多達12個自注意力模塊來處理成千上萬種具有不同姿態的物體。此外,它在理想化和現實世界的輸入上均表現出良好的泛化能力,并在基于狀態和基于視覺的設置中進行了評估。值得注意的是,UniGraspTransformer能夠為各種形狀和方向的物體生成更廣泛的抓取姿態,從而實現更多樣化的抓取策略。實驗結果表明,在基于視覺的設置中,UniGraspTransformer在各種物體類別上相較于最先進的UniDexGrasp++實現了顯著的性能提升,分別在已見物體、已見類別中的未見物體以及完全未見物體上獲得了3.5%、7.7%和10.1%的成功率提升。
文章鏈接:
https://arxiv.org/pdf/2412.02699
07
LoRA Diffusion: Zero-Shot LoRA Synthesis for Diffusion Model Personalization
低秩適應(LoRA)和其他參數高效的微調(PEFT)方法為個性化文本到圖像模型提供了低內存、存儲高效的解決方案。然而,與全模型微調相比,這些方法在實際訓練時間或收斂所需的步數方面幾乎沒有改進。盡管PEFT方法假設生成分布的變化(從基礎模型到微調模型)可以通過低秩子空間中的權重變化有效建模,但它們未能利用對常見用例的知識,而這些用例通常專注于捕捉特定的風格或身份。觀察到期望的輸出通常只是LoRA訓練所涵蓋的可能域的一個小子集,本文提出通過引入對感興趣區域的先驗來減少搜索空間。實驗表明,訓練一個超網絡模型以生成LoRA權重,可以在特定領域實現競爭性的質量,同時允許近乎即時地根據用戶輸入進行條件化,這與傳統訓練方法(需要數千步)形成了鮮明對比。
文章鏈接:
https://arxiv.org/pdf/2412.02352
本期文章由陳研整理
往期精彩文章推薦
?關于AI TIME?
AI TIME源起于2019年,旨在發揚科學思辨精神,邀請各界人士對人工智能理論、算法和場景應用的本質問題進行探索,加強思想碰撞,鏈接全球AI學者、行業專家和愛好者,希望以辯論的形式,探討人工智能和人類未來之間的矛盾,探索人工智能領域的未來。
迄今為止,AI TIME已經邀請了2000多位海內外講者,舉辦了逾700場活動,超800萬人次觀看。
我知道你?
在看
提出觀點,表達想法,歡迎?
留言
點擊?閱讀原文?查看更多!