大家好,今日必讀的大模型論文來啦!
1.MIT新研究:并非所有語言模型特征都是線性的
最近的研究提出了線性表征假說:語言模型通過操作激活空間中概念(“特征”)的一維表征來執行計算。與此相反,來自麻省理工學院(MIT)的研究團隊探討了某些語言模型表征是否可能本質上是多維的。
他們首先為不可還原的多維特征下了一個嚴格的定義,該定義基于這些特征是否可以分解為獨立或不共存的低維特征。受這些定義的啟發,他們設計了一種可擴展的方法,利用稀疏自動編碼器自動發現 GPT-2 和 Mistral 7B 中的多維特征。這些自動發現的特征包括可解釋示例,例如代表星期和月份的 circular 特征。他們確定了一些任務,在這些任務中,這些精確的 circular 被用來解決涉及一周中的天數和一年中的月份的模塊運算問題。最后,通過對 Mistral 7B 和 Llama 3 8B 的干預實驗,他們證明這些 circular 特征確實是這些任務中的基本計算單元。
論文鏈接:
https://arxiv.org/abs/2405.14860
GitHub 地址:
https://github.com/JoshEngels/MultiDimensionalFeatures
2.Google DeepMind 推出圖像條件擴散模型 Semantica
Google DeepMind 團隊研究了在不進行微調的情況下將圖像生成模型適應不同數據集的任務。為此,他們提出了一種圖像條件擴散模型——Semantica,其能夠根據條件圖像的語義生成圖像。Semantica 完全是在網絡規模的圖像對上進行訓練的,也就是說,它接收網頁中的隨機圖像作為條件輸入,并對同一網頁中的另一張隨機圖像進行建模。他們的實驗凸顯了預訓練圖像編碼器的表現力,以及基于語義的數據過濾對實現高質量圖像生成的必要性。一旦經過訓練,只需使用數據集中的圖像作為輸入,它就能自適應地從該數據集中生成新圖像。
論文鏈接:
https://arxiv.org/abs/2405.14857
3.Visual Echoes:用于音頻-視覺生成的簡單統一 Transformer
近年來,隨著逼真的生成結果和廣泛的個性化應用,基于擴散的生成模型在視覺和音頻生成領域都獲得了極大的關注。與文本-圖像生成或文本-音頻生成的巨大進步相比,音頻-視覺生成或視覺-音頻生成的研究相對緩慢。近期的音頻-視覺生成方法通常采用大型語言模型或可組合擴散模型。
在這項工作中,來自索尼的研究團隊沒有為音頻-視覺生成設計另一個大型模型,而是退后一步,展示了一個在多模態生成中尚未得到充分研究的簡單輕量級生成 Transformer,可以在圖像-音頻生成中取得優異的效果。Transformer 在離散的音頻和視覺矢量量化 GAN 空間中運行,并以掩碼去噪方式進行訓練。訓練完成后,無需額外的訓練或修改,即可部署現成的無分類器引導,從而獲得更好的性能。由于 Transformer 模型是模態對稱的,因此也可直接用于音頻-圖像生成和協同生成。在實驗中,他們發現這一簡單方法超越了最近的圖像-音頻生成方法。
論文鏈接:
https://arxiv.org/abs/2405.14598
4.大型語言模型的分布式推測
加速大型語言模型(LLM)的推理是人工智能領域的一項重要挑戰。
來自魏茨曼科學研究所、英特爾和麻省理工學院(MIT)的研究團隊提出了一種新穎的分布式推理算法——分布式推測推理(DSI),與推測推理(SI)和傳統的自回歸推理(non-SI)相比,其推理速度更快。與其他自回歸推理算法一樣,DSI 在凍結的 LLM 上工作,不需要訓練或架構修改,并能保留目標分布。
之前關于 SI 的研究表明,與 non-SI 相比,DSI 算法的經驗速度有所提高,但這需要快速、準確的起草 LLM。在實踐中,現成的 LLM 通常不具備足夠快速和準確的匹配起草器。他們發現:當使用速度較慢或準確度較低的起草員時,SI 的速度會比非 SI 慢。他們通過證明 DSI 在使用任何起草器的情況下都比 SI 和 non-SI 更快,彌補了這一差距。通過協調目標和起草器的多個實例,DSI 不僅比 SI 更快,而且還支持 SI 無法加速的 LLM。
仿真顯示,在現實環境中,現成的 LLMs 的速度都有所提高:DSI 比 SI 快 1.29-1.92 倍。
論文鏈接:
https://arxiv.org/abs/2405.14105
5.改進分布匹配蒸餾,實現快速圖像合成
最近的一些方法表明,將擴散模型提煉成高效的一步生成器大有可為。其中,分布匹配蒸餾法(DMD)可以生成在分布上與其“教師”模型相匹配的一步生成器,而無需強制與“教師”的采樣軌跡一一對應。然而,為了確保穩定的訓練,DMD 需要額外的回歸損耗,該損耗是使用由“教師”通過多步確定性采樣器生成的大量噪聲圖像對計算得出的。這對于大規模文本到圖像的合成來說成本很高,而且限制了“學生”模型的質量,使其與“教師”的原始采樣路徑過于緊密地聯系在一起。
來自麻省理工學院(MIT)和 Adobe 的研究團隊提出了一套能解除這一限制并改進 DMD 訓練的技術——DMD2。首先,他們消除了回歸損失和昂貴的數據集構建需求。他們證明了由此產生的不穩定性是由于假批評家沒有準確估計生成樣本的分布,并提出了一種雙時間尺度更新規則作為補救措施。其次,他們將 GAN 損失集成到蒸餾過程中,以區分生成樣本和真實圖像。這樣,他們就能在真實數據上訓練“學生”模型,減輕“教師”模型對真實分數估計的不完美,提高質量。最后,他們修改了訓練程序,以實現多步采樣。在這種情況下,他們通過在訓練期間模擬推理時間生成器采樣,發現并解決了訓練-推理輸入不匹配的問題。
綜合來看,他們的改進為一步圖像生成設定了新的基準,在 ImageNet-64x64 上的 FID 分數為 1.28,在零樣本 COCO 2014 上的 FID 分數為 8.35,盡管推理成本降低了 500 倍,但仍超過了原來的“教師”。此外,他們還展示了這一方法可以通過提煉 SDXL 生成百萬像素圖像,在幾步法中展示了卓越的視覺質量。
論文鏈接:
https://arxiv.org/abs/2405.14867
項目地址:
https://tianweiy.github.io/dmd/
6.ReVideo:通過運動和內容控制重塑視頻
盡管在利用擴散模型生成和編輯視頻方面取得了重大進展,但實現精確的本地化視頻編輯仍是一項巨大挑戰。此外,現有的大多數視頻編輯方法主要集中在改變視覺內容上,對動作編輯的研究十分有限。
在這項研究中,來自北京大學和騰訊的研究團隊及其合作者,提出了一種新穎的“重塑視頻”(ReVideo)嘗試,通過指定內容和動作,在特定區域進行精確的視頻編輯。內容編輯通過修改第一幀來實現,而基于軌跡的運動控制則提供了直觀的用戶交互體驗。ReVideo 解決了內容和運動控制之間的耦合和訓練不平衡問題。為了解決這個問題,他們開發了一種三階段訓練策略,從粗到細逐步解耦這兩個方面。此外,他們還提出了一個時空自適應融合模塊,以整合不同采樣步驟和空間位置的內容和運動控制。
廣泛的實驗證明,ReVideo 在幾種精確的視頻編輯應用中具有良好的性能,即:1)局部改變視頻內容,同時保持運動不變;2)保持內容不變,同時定制新的運動軌跡;3)同時修改內容和運動軌跡。該方法還可以無縫地將這些應用擴展到多區域編輯,而無需特定的訓練,這證明了它的靈活性和魯棒性。
論文鏈接:
https://arxiv.org/abs/2405.13865
項目地址:
https://mc-e.github.io/project/ReVideo/
7.360智腦技術報告
360智腦團隊提出的 360Zhinao 模型具有 7B 參數大小和包括 4K、32K 和 360K 的上下文長度。為了實現預訓練的快速發展,他們建立了一個穩定而靈敏的消融環境,以最小的模型規模對實驗運行進行評估和比較。在這樣的指導下,他們完善了數據清洗和合成策略,在 3.4T token 上對 360Zhinao-7B-Base 進行預訓練。他們還主要強調對齊過程中的數據,通過過濾和重新格式化,努力平衡數量和質量。有了量身定制的數據,360Zhinao-7B 的上下文窗口很容易擴展到 32K 和 360K。RM 和 RLHF 根據 SFT 進行訓練,并可靠地應用于特定任務。所有這些貢獻使得 360Zhinao-7B 的性能在類似規模的模型中具有競爭力。
論文鏈接:
https://arxiv.org/abs/2405.13386
GitHub 地址:
https://github.com/Qihoo360/360zhinao
8.GameVLM:基于視覺語言模型和零和博弈的機器人任務規劃決策框架
GPT-4V 等預訓練視覺語言模型(VLM)具有突出的場景理解和推理能力,因此在機器人任務規劃中受到越來越多的關注。與傳統的任務規劃策略相比,視覺語言模型在多模態信息解析和代碼生成方面具有很強的優勢,并顯示出顯著的效率。雖然 VLM 在機器人任務規劃中展現出巨大潛力,但它也面臨著幻覺、語義復雜性和上下文有限等挑戰。
為了解決這些問題,來自復旦大學的研究團隊提出了一種多智能體框架——GameVLM,從而增強機器人任務規劃中的決策過程。該研究提出了基于 VLM 的決策智能體和專家智能體來執行任務規劃。具體來說,決策智能體用于規劃任務,專家智能體用于評估這些任務計劃。研究引入了零和博弈理論來解決不同智能體之間的不一致性,并確定最佳解決方案。在真實機器人上進行的實驗結果表明,所提出的框架非常有效,平均成功率高達 83.3%。
論文鏈接:
https://arxiv.org/abs/2405.13751
9.AlignGPT:具有自適應對齊功能的多模態大型語言模型
多模態大型語言模型(MLLM)被廣泛認為是探索通用人工智能(AGI)的關鍵。MLLM 的核心在于其實現跨模態對齊的能力。為了實現這一目標,目前的 MLLM 通常采用兩階段訓練模式:預訓練階段和指令微調階段。
盡管這些模型取得了成功,但在對齊能力建模方面仍存在不足。首先,在預訓練階段,模型通常假定所有圖像-文本對都是統一對齊的,但實際上不同圖像-文本對之間的對齊程度并不一致。其次,目前用于微調的指令包含多種任務,不同任務的指令通常需要不同程度的對齊能力,但以往的 MLLM 忽視了這些差異化的對齊需求。
為了解決這些問題,來自南京大學的研究團隊提出了一種新的多模態大型語言模型——AlignGPT。在預訓練階段,他們并不是對所有圖像-文本對一視同仁,而是為不同的圖像-文本對分配不同級別的對齊能力。然后,在指令微調階段,他們自適應地組合這些不同級別的對齊能力,以滿足不同指令的動態對齊需求。廣泛的實驗結果表明,AlignGPT 在 12 個基準測試中取得了具有競爭力的性能。
論文鏈接:
https://arxiv.org/abs/2405.14129
項目地址:
https://aligngpt-vl.github.io/
10.JiuZhang3.0:通過訓練小型數據合成模型有效提高數學推理能力
數學推理是大型語言模型(LLMs)在實際應用中的一項重要能力。為了增強這一能力,現有的工作要么是收集大規模數學相關文本進行預訓練,要么是依靠更強大的 LLM(如 GPT-4)來合成大規模數學問題。這兩類工作通常都會導致訓練或合成方面的巨大成本。
為了降低成本,來自中國人民大學的研究團隊及其合作者,提出了一種基于開源文本的高效方法,即訓練一個小型 LLM 來合成數學問題,從而有效地生成足夠的高質量預訓練數據。
為此,他們使用 GPT-4 創建了一個數據集,將其數據合成能力提煉到小型 LLM 中。具體來說,他們根據人類教育階段精心設計了一套提示語,引導 GPT-4 歸納出涵蓋不同數學知識和難度水平的問題。此外,讓他們還采用了基于梯度的影響估計方法來選擇最有價值的數學相關文本。這兩者都被輸入到 GPT-4 中,用于創建知識提煉數據集,訓練小型 LLM。他們利用它合成了 600 萬個數學問題,用于預訓練 JiuZhang3.0 模型,該模型只需調用 GPT-4 API 9.3k 次,并在 4.6B 數據上進行預訓練。實驗結果表明,在自然語言推理和工具操作設置下,JiuZhang3.0 在多個數學推理數據集上都取得了 SOTA。
論文鏈接:
https://arxiv.org/abs/2405.14365
11.DeepSeek-Prover:通過大規模合成數據推進 LLM 中的定理證明
Lean 等證明助手徹底改變了數學證明驗證,確保了高準確性和可靠性。盡管大型語言模型(LLM)在數學推理中大有可為,但由于缺乏訓練數據,它們在形式定理證明中的發展受到了阻礙。
為了解決這個問題,來自 DeepSeek 和中山大學的研究團隊及其合作者,提出了一種從高中和本科生水平的數學競賽題中生成大量 Lean 4 證明數據的方法。這種方法包括將自然語言問題轉化為形式化語句,過濾掉低質量語句,并生成證明以創建合成數據。
DeepSeekMath 7B 模型由 800 萬條帶有證明的形式化語句組成,在該合成數據集上對該模型進行微調后,模型在 Lean 4 miniF2F 測試中的整體證明生成準確率在 64 個樣本中達到了 46.3%,累計達到了 52%,超過了基線 GPT-4 在 64 個樣本中的 23.0%,以及樹搜索強化學習方法的 41.0%。此外,模型還成功證明了 Lean 4 形式化國際數學奧林匹克(FIMO)基準測試 148 個問題中的 5 個問題,而 GPT-4 則未能證明任何問題。
這些結果證明了利用大規模合成數據提高 LLM 中定理證明能力的潛力。
論文鏈接:
https://arxiv.org/abs/2405.14333
12.將具身多智能體協作與高效 LLM 結合
由于物理世界的復雜性,將大型語言模型(LLMs)的推理能力與具身任務相結合是具有挑戰性的。特別是多機器人協作的 LLM 規劃需要機器人之間的交流或信用分配作為反饋,從而重新調整所提出的計劃并實現有效協調。然而,現有方法過度依賴物理驗證或自我反思,導致對 LLM 的查詢過多且效率低下。
在這項工作中,來自清華大學、上海 AI Lab 和西北工業大學的研究團隊及其合作者,提出了一種新穎的多機器人協作框架,該框架結合了強化優勢反饋(ReAd)來實現計劃的高效自我完善。具體來說,他們通過批判回歸從 LLM 計劃的數據中學習順序優勢函數,然后將 LLM 計劃器視為優化器,生成優勢函數最大化的行動。它賦予了 LLM 判斷行動是否有助于完成最終任務的前瞻性。他們通過將強化學習中的優勢加權回歸擴展到多智能體系統,提供了理論分析。
在 Overcooked-AI 和 RoCoBench 的一個高難度變體上進行的實驗表明,ReAd 在成功率上超過了基線,而且還顯著減少了智能體的交互步驟和LLM的查詢輪數,證明了它在為LLM打基礎方面的高效率。
論文鏈接:
https://arxiv.org/abs/2405.14314
項目地址:
https://read-llm.github.io/
13.HippoRAG:神經生物學啟發的大型語言模型長期記憶法
為了在惡劣和不斷變化的自然環境中茁壯成長,哺乳動物的大腦在進化過程中存儲了大量有關世界的知識,并不斷整合新信息,同時避免災難性遺忘。盡管取得了令人矚目的成就,但大型語言模型(LLMs)即使采用了檢索增強生成(RAG)技術,仍難以在預訓練后高效地整合大量新經驗。
在這項工作中,來自俄亥俄州立大學和斯坦福大學的研究團隊提出了一種新穎的檢索框架——HippoRAG,其靈感來自于人類長期記憶的海馬索引理論,能夠對新經驗進行更深入、更高效的知識整合。HippoRAG 協同協調了 LLM、知識圖譜和個性化 PageRank 算法,從而模擬新皮層和海馬體在人類記憶中的不同作用。
他們將 HippoRAG 與現有的多跳問題解答 RAG 方法進行了比較,結果表明,這一方法明顯優于其他方法,最高可達 20%。與 IRCoT 等迭代檢索法相比,使用 HippoRAG 的單步檢索法取得了相當或更好的性能,同時成本降低了 10-30 倍,速度提高了 6-13 倍。最后,他們展示了這一方法可以解決現有方法無法解決的新型場景。
論文鏈接:
https://arxiv.org/abs/2405.14831
GitHub 地址:
https://github.com/OSU-NLP-Group/HippoRAG