文章目錄~
- 1.STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making
- 2. M 3 M^3 M3GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation
- 3.MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
- 4.Evolutionary Large Language Model for Automated Feature Transformation
- 5.Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection
- 6.C3LLM: Conditional Multimodal Content Generation Using Large Language Models
- 7.COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models
- 8.SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models
- 9.Streaming Long Video Understanding with Large Language Models
- 10.Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models
- 11.Certifiably Robust RAG against Retrieval Corruption
- 12.ChatGPT Code Detection: Techniques for Uncovering the Source of Code
- 13.Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search
- 14.Are Long-LLMs A Necessity For Long-Context Tasks?
- 15.Before Generation, Align it! A Novel and Effective Strategy for Mitigating Hallucinations in Text-to-SQL Generation
- 16. i i iREPO: i i implicit Reward Pairwise Difference based Empirical Preference Optimization
- 17.Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs
- 18.Cross-Task Defense: Instruction-Tuning LLMs for Content Safety
- 19.A Solution-based LLM API-using Methodology for Academic Information Seeking
- 20.Eliciting Informative Text Evaluations with Large Language Models
- 21.Extracting Prompts by Inverting LLM Outputs
- 22.PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression
- 23.SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models
- 24.Multi-turn Reinforcement Learning from Preference Human Feedback
- 25.Base of RoPE Bounds Context Length
- 26.Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study
- 27.RaFe: Ranking Feedback Improves Query Rewriting for RAG
- 28.Large Language Models for Explainable Decisions in Dynamic Digital Twins
- 29.MiniCache: KV Cache Compression in Depth Dimension for Large Language Models
- 30.JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models
- 31.Super Tiny Language Models
- 32.Large Language Models Can Self-Correct with Minimal Effort
- 33.TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment
- 34.Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning
- 35.Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction
- 36.Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting
- 37.ReALLM: A general framework for LLM compression and fine-tuning
- 38.Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents
- 39.Large Language Models Meet NLP: A Survey
- 40.SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling
- 41.Retrieval-Augmented Language Model for Extreme Multi-Label Knowledge Graph Link Prediction
- 42.Exploration of Masked and Causal Language Modelling for Text Generation
- 43.Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression
- 44.Question-Based Retrieval using Atomic Units for Enterprise RAG
- 45.CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models
- 46.Eliciting Problem Specifications via Large Language Models
- 47.MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning
- 48.KG-RAG: Bridging the Gap Between Knowledge and Creativity
- 49.A review on the use of large language models as virtual tutors
- 50.Unveiling and Manipulating Prompt Influence in Large Language Models
- 51.(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts
- 52.Large Language Models for Medicine: A Survey
- 53.OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
1.STRIDE: A Tool-Assisted LLM Agent Framework for Strategic and Interactive Decision-Making
標題:STRIDE:用于戰略和互動決策的工具輔助 LLM 代理框架
author:Chuanhao Li, Runhan Yang, Tiankai Li, Milad Bafarassat, Kourosh Sharifi, Dirk Bergemann, Zhuoran Yang
publish:39 pages, 4 figures
date Time:2024-05-25
paper pdf:http://arxiv.org/pdf/2405.16376v1
摘要:
像 GPT-4 這樣的大型語言模型(LLM)已經徹底改變了自然語言處理,顯示出卓越的語言能力和推理能力。然而,它們在多機器人戰略決策環境中的應用卻受到嚴重的限制,包括數學推理能力差、難以遵循指令以及容易生成錯誤信息。這些缺陷阻礙了它們在戰略和交互任務中的表現,因為這些任務要求遵守微妙的游戲規則、進行長期規劃、在未知環境中探索以及預測對手的行動。為了克服這些障礙,本文提出了一個新穎的 LLM 代理框架,該框架配備了記憶和專門工具,可增強代理的戰略決策能力。我們在一些重要的經濟環境中部署了這些工具,特別是雙邊談判、多代理和動態機制設計。我們采用量化指標來評估該框架在各種戰略決策問題中的表現。我們的研究結果表明,我們的增強型框架大大提高了 LLM 的戰略決策能力。雖然我們強調了當前 LLM 模型的固有局限性,但我們展示了通過有針對性的改進所取得的進步,這為互動環境中 LLM 應用的未來發展指明了方向。
2. M 3 M^3 M3GPT: An Advanced Multimodal, Multitask Framework for Motion Comprehension and Generation
標題: M 3 M^3 M3GPT:先進的多模態、多任務運動理解與生成框架
author:Mingshuang Luo, Ruibing Hou, Hong Chang, Zimo Liu, Yaowei Wang, Shiguang Shan
publish:18 pages, 6 figures
date Time:2024-05-25
paper pdf:http://arxiv.org/pdf/2405.16273v1
摘要:
本文介紹了 M 3 M^3 M3GPT,這是一種先進的用于文本理解和生成的多模態、多任務框架。 M 3 M^3 M3GPT 基于三個基本原則運行。第一個原則是為各種運動相關模態創建統一的表示空間。我們對文本、音樂和動作/舞蹈等多模態控制和生成信號采用離散矢量量化,從而實現了與具有單一詞匯的大型語言模型(LLM)的無縫集成。第二種方法是直接在原始運動空間中建模生成模型。這一策略避免了離散標記符帶來的信息損失,使模型生成更加詳細和全面。第三, M 3 M^3 M3GPT 學習對各種運動相關任務之間的聯系和協同作用進行建模。文本是 LLMs 最熟悉和最了解的模式,它被用作在不同運動任務之間建立聯系的橋梁,從而促進相互強化。據我們所知, M 3 M^3 M3GPT 是第一個能夠理解和生成基于多種信號的運動的模型。廣泛的實驗凸顯了 M 3 M^3 M3GPT 在各種運動相關任務中的卓越表現,以及它在極具挑戰性的任務中強大的零點泛化能力。
3.MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time
標題:MindStar:在推理時增強預訓練 LLM 的數學推理能力
author:Jikun Kang, Xin Zhe Li, Xi Chen, Amirreza Kazemi, Boxing Chen
date Time:2024-05-25
paper pdf:http://arxiv.org/pdf/2405.16265v1
摘要:
盡管大型語言模型(LLMs)在各種任務中都取得了不俗的表現,但在復雜的推理任務中,例如在回答數學問題時,它們往往會陷入困境。最近為解決這一問題所做的努力主要集中在通過監督微調或自我改進技術來利用數學數據集。然而,這些方法往往依賴于難以準備的高質量數據集,或者需要大量計算資源進行微調。有研究發現,LLM 知道如何得出正確答案,但卻難以選擇正確的推理路徑,受此啟發,我們提出了一種純粹基于推理的搜索方法,稱為 MindStar (M*),它將推理任務視為搜索問題。這種方法利用逐步推理的方式來瀏覽樹空間。為了提高搜索效率,我們提出了兩種樹形搜索思路,以確定最佳推理路徑。我們在 GSM8K 和 MATH 數據集上對 M* 框架進行了評估,并將其性能與現有的開放和閉源 LLM 進行了比較。我們的結果表明,M*大大增強了Llama-2-13B和Mistral-7B等開源模型的推理能力,并實現了與GPT-3.5和Grok-1相當的性能,但模型規模和計算成本卻大幅降低。
4.Evolutionary Large Language Model for Automated Feature Transformation
標題:用于自動特征轉換的進化大型語言模型
author:Nanxu Gong, Chandan K. Reddy, Wangyang Ying, Yanjie Fu
date Time:2024-05-25
paper pdf:http://arxiv.org/pdf/2405.16203v1
摘要:
特征轉換旨在重構原始特征的特征空間,以提高下游模型的性能。然而,特征和操作組合的指數級增長帶來了挑戰,使得現有方法難以有效探索廣闊的空間。此外,這些方法的優化僅僅受特定領域下游模型準確性的驅動,而忽略了對一般特征知識的獲取。為了填補這一研究空白,我們提出了一種用于自動特征轉換的進化 LLM 框架。該框架由兩部分組成:1)通過 RL 數據收集器構建一個多種群數據庫,同時利用進化算法策略進行數據庫維護;2)利用大語言模型(LLM)在序列理解方面的能力,我們采用少量提示來引導 LLM 根據特征轉換序列區分生成優質樣本。利用多種群數據庫,最初可以為發現優秀種群提供廣泛的搜索范圍。通過篩選和進化,優質種群將獲得更多機會,從而進一步追求最優個體。通過將 LLM 與進化算法相結合,我們實現了在廣闊空間內的高效探索,同時利用特征知識推動優化,從而實現了更具適應性的搜索范式。最后,我們通過實證證明了我們提出的方法的有效性和通用性。
5.Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection
標題:通過稀疏上下文選擇加速檢索增強生成推理
author:Yun Zhu, Jia-Chen Gu, Caitlin Sikora, Ho Ko, Yinxiao Liu, Chu-Cheng Lin, Lei Shu, Liangchen Luo, Lei Meng, Bang Liu, Jindong Chen
date Time:2024-05-25
paper pdf:http://arxiv.org/pdf/2405.16178v1
摘要:
大語言模型(LLMs)增強了檢索功能,通過結合外部語境,表現出強大的性能和廣泛的通用性。然而,輸入長度與檢索文檔數量呈線性增長,導致延遲急劇增加。在本文中,我們提出了一種名為 "稀疏 RAG "的新范式,旨在通過稀疏性降低計算成本。具體來說,稀疏 RAG 對檢索文檔進行并行編碼,從而消除了檢索文檔的長距離關注所帶來的延遲。然后,LLM 選擇性地解碼輸出,只關注高度相關的自動遞歸緩存,這些緩存是通過用特殊的控制標記提示 LLM 來選擇的。值得注意的是,稀疏 RAG 將對每個文檔的評估和生成響應合并為一個過程。在 RAG 系統中設計的稀疏機制有助于減少解碼過程中加載的文檔數量,從而加快 RAG 系統的推理速度。此外,過濾掉不需要的上下文還能增強模型對相關上下文的關注,從本質上提高生成質量。兩個數據集的評估結果表明,稀疏 RAG 可以在生成質量和計算效率之間達到最佳平衡,證明了它在長短格式生成任務中的通用性。
6.C3LLM: Conditional Multimodal Content Generation Using Large Language Models
標題:C3LLM:使用大型語言模型生成條件多模態內容
author:Zixuan Wang, Qinkai Duan, Yu-Wing Tai, Chi-Keung Tang
date Time:2024-05-25
paper pdf:http://arxiv.org/pdf/2405.16136v1
摘要:
我們介紹了 C3LLM(Conditioned-on-Three-Modalities Large Language Models,有條件的三模態大語言模型),這是一個將視頻到音頻、音頻到文本、文本到音頻三個任務結合在一起的新穎框架。C3LLM 采用大型語言模型(LLM)結構作為橋梁,用于調整不同模態、合成給定的條件信息,并以離散的方式生成多模態信息。我們的貢獻如下。首先,我們利用預先訓練好的音頻編碼本為音頻生成任務調整了分層結構。具體來說,我們訓練 LLM 從給定條件中生成音頻語義標記,并進一步使用非自回歸變換器分層生成不同層次的聲音標記,以更好地提高生成音頻的保真度。其次,基于 LLM 最初是為離散任務設計的下一單詞預測方法這一直覺,我們使用離散表示法生成音頻,并將其語義壓縮為聲學標記,類似于在 LLM 中添加 “聲學詞匯”。第三,我們的方法將之前的音頻理解、視頻到音頻生成和文本到音頻生成任務結合到一個統一的模型中,以端到端的方式提供了更多的通用性。通過各種自動評估指標,我們的 C3LLM 取得了更好的結果,與之前的方法相比提供了更好的語義一致性。
7.COLT: Towards Completeness-Oriented Tool Retrieval for Large Language Models
標題:COLT:為大型語言模型實現面向完整性的工具檢索
author:Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, Ji-Rong Wen
date Time:2024-05-25
paper pdf:http://arxiv.org/pdf/2405.16089v1
摘要:
最近,外部工具與大型語言模型(LLMs)的整合已成為一種很有前途的方法,可以克服預訓練數據的固有限制。然而,由于輸入長度和響應時間的限制,現實世界的應用往往涉及多種工具,因此將所有工具直接整合到 LLM 中是不可行的。因此,要充分挖掘工具增強 LLM 的潛力,開發有效的工具檢索系統至關重要。現有的工具檢索方法技術主要依賴于用戶查詢和工具描述之間的語義匹配,這往往會導致選擇多余的工具。因此,這些方法無法提供一套完整的多樣化工具,而這些工具是解決 LLM 所遇到的多方面問題所必需的。在本文中,我們提出了一種基于協作學習的工具檢索方法(COLT),它不僅能捕捉用戶查詢和工具描述之間的語義相似性,還能考慮到工具的協作信息。具體來說,我們首先對基于 PLM 的檢索模型進行微調,以便在語義學習階段捕捉查詢和工具之間的語義關系。隨后,我們在查詢、場景和工具之間構建了三個雙向圖,并引入了雙視圖協作學習框架,以便在協作學習階段捕捉工具之間錯綜復雜的協作關系。在開放基準和新引入的 ToolLens 數據集上進行的廣泛實驗表明,COLT 實現了卓越的性能。值得注意的是,采用我們提出的模型框架的 BERT-mini(11M)的性能優于參數多 30 倍的 BERT-large(340M)。此外,我們計劃公開發布 ToolLens 數據集,以支持工具檢索領域的進一步研究。
8.SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models
標題:SPP:大型語言模型的稀疏性保留參數高效微調
author:Xudong Lu, Aojun Zhou, Yuhui Xu, Renrui Zhang, Peng Gao, Hongsheng Li
date Time:2024-05-25
paper pdf:http://arxiv.org/pdf/2405.16057v1
摘要:
大型語言模型(LLM)已成為推動人工智能領域發展的關鍵,但其巨大的規模給微調和部署帶來了巨大挑戰。目前的訓練后剪枝方法雖然縮小了 LLM 的規模,但往往無法保持其原有性能。為了應對這些挑戰,本文介紹了一種具有稀疏性保留參數效率的微調方法 SPP。與現有的難以保持性能的訓練后剪枝方法不同,SPP 建議采用輕量級可學習列矩陣和行矩陣來優化稀疏 LLM 權重,從而保持剪枝后預訓練模型的結構和稀疏性不變。通過元素乘法和殘差加法,SPP 確保了模型稀疏性模式和比率在訓練和權重合并過程中的一致性。我們將 SPP 應用于 LLaMA 和 LLaMA-2 模型族,并采用最新的訓練后剪枝方法,證明了 SPP 的有效性。我們的研究結果表明,SPP 能顯著提高具有不同稀疏性模式(即非結構化和 N:M 稀疏性)的模型的性能,特別是對于那些具有高稀疏性比率(如 75%)的模型,使其成為有效微調稀疏 LLM 的一種有前途的解決方案。代碼將公布在 https://github.com/Lucky-Lance/SPP 網站上。
9.Streaming Long Video Understanding with Large Language Models
標題:利用大型語言模型理解流式長視頻
author:Rui Qian, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Shuangrui Ding, Dahua Lin, Jiaqi Wang
date Time:2024-05-25
paper pdf:http://arxiv.org/pdf/2405.16009v1
摘要:
本文介紹了用于視頻理解的高級視覺語言大型模型(VLLM)VideoStreaming,它能夠理解任意長度的視頻,并對視頻標記進行流式編碼和自適應選擇。在視覺語言領域,視頻理解的挑戰主要在于從長視頻中提取大量標記所帶來的巨大計算負擔。以往的研究依靠稀疏采樣或幀壓縮來減少標記。然而,這些方法要么忽略了長時間跨度中的時間信息,要么犧牲了空間細節,導致壓縮效果不佳。為了解決這些局限性,我們的 VideoStreaming 有兩個核心設計:內存傳播流編碼(Memory-Propagated Streaming Encoding)和自適應內存選擇(Adaptive Memory Selection)。內存傳播流編碼架構將長視頻分割成短片段,并依次用傳播內存對每個片段進行編碼。在每次迭代中,我們利用前一個片段的編碼結果作為歷史記憶,并將其與當前片段進行整合,從而提煉出一個濃縮的表示法,將截至當前時間戳的視頻內容封裝起來。編碼過程結束后,自適應記憶選擇策略會從所有歷史記憶中選擇一定數量的與問題相關的記憶,并將其輸入 LLM 以生成信息回復。與問題相關的選擇可減少記憶中的冗余,從而實現高效、精確的視頻理解。同時,分離式視頻提取和推理設計允許 LLM 通過直接選擇相應的記憶來回答有關視頻的不同問題,而無需為每個問題對整個視頻進行編碼。我們的模型在長視頻基準測試中取得了優異的性能和更高的效率,展示了用于詳細問題解答的精確時序理解能力。
10.Prompt-Aware Adapter: Towards Learning Adaptive Visual Tokens for Multimodal Large Language Models
標題:提示感知適配器:為多模態大語言模型學習自適應視覺標記
author:Yue Zhang, Hehe Fan, Yi Yang
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15684v1
摘要:
為了縮小視覺和語言模式之間的差距,多模態大語言模型(MLLM)通常會學習一種適配器,將視覺輸入轉換為大語言模型(LLM)可理解的標記。然而,大多數適配器生成的視覺標記都是一致的,與提示中提到的特定興趣對象無關。由于這些適配器對圖像中的每一個細節都給予同等關注,并專注于整個場景,因此可能會增加 LLM 的認知負荷,尤其是在處理復雜場景時。為了緩解這一問題,我們提出了提示感知適配器。這些適配器能夠根據提示的具體重點動態嵌入視覺輸入。具體來說,提示感知適配器利用全局和局部文本特征,從粗粒度和細粒度的提示中捕捉最相關的視覺線索。這種方法大大提高了 LLM 理解和解釋視覺內容的能力。各種視覺問題解答任務(如計數和位置推理)的實驗證明了提示感知適配器的有效性。
11.Certifiably Robust RAG against Retrieval Corruption
標題:可認證的穩健 RAG,防止檢索破壞
author:Chong Xiang, Tong Wu, Zexuan Zhong, David Wagner, Danqi Chen, Prateek Mittal
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15556v1
摘要:
檢索增強生成(RAG)已被證明容易受到檢索破壞攻擊:攻擊者可以在檢索結果中注入惡意段落,從而誘發不準確的響應。在本文中,我們提出了 RobustRAG 作為首個針對檢索破壞攻擊的防御框架。RobustRAG 的關鍵之處在于隔離–然后–聚合策略:我們從每個段落中孤立地獲取 LLM 響應,然后安全地聚合這些孤立的響應。為了實現 RobustRAG,我們設計了基于關鍵字和解碼的算法,用于安全地聚合非結構化文本響應。值得注意的是,RobustRAG 可以實現可認證的魯棒性:我們可以正式證明并認證,對于某些查詢,RobustRAG 始終可以返回準確的響應,即使攻擊者完全了解我們的防御,并可以任意注入少量惡意段落。我們在開放域質量保證和長文本生成數據集上對 RobustRAG 進行了評估,并證明了它在各種任務和數據集上的有效性和通用性。
12.ChatGPT Code Detection: Techniques for Uncovering the Source of Code
標題:ChatGPT 代碼檢測:揭示代碼源的技術
author:Marc Oedingen, Raphael C. Engelhardt, Robin Denz, Maximilian Hammer, Wolfgang Konen
publish:Submitted to AI journal of MDPI
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15512v1
摘要:
近來,大型語言模型(LLM)在生成計算機代碼方面取得了長足進步,模糊了人類創建的代碼與人工智能(AI)生成的代碼之間的界限。隨著這些技術的快速發展,探索它們如何影響代碼生成至關重要,特別是考慮到在高等教育等領域濫用的風險。本文通過使用先進的分類技術來區分人類編寫的代碼和由 ChatGPT(一種 LLM)生成的代碼,從而探討了這一問題。我們采用了一種新方法,將強大的嵌入特征(黑盒)與監督學習算法(包括深度神經網絡、隨機森林和極端梯度提升)相結合,實現了這種區分,準確率高達 98%,令人印象深刻。對于成功的組合,我們還檢查了它們的模型校準,結果表明其中一些模型的校準效果非常好。此外,我們還提出了白盒特征和可解釋貝葉斯分類器,以闡明代碼源之間的關鍵差異,從而提高我們方法的可解釋性和透明度。這兩種方法效果都很好,但準確率最多只有 85-88%。我們還表明,未經訓練的人類解決相同任務的效果并不比隨機猜測好。這項研究對于理解和降低在代碼生成中使用人工智能的潛在風險至關重要,尤其是在高等教育、軟件開發和競技編程方面。
13.Generating Code World Models with Large Language Models Guided by Monte Carlo Tree Search
標題:用蒙特卡洛樹搜索引導的大型語言模型生成代碼世界模型
author:Nicola Dainese, Matteo Merler, Minttu Alakuijala, Pekka Marttinen
publish:10 pages in main text, 24 pages including references and
supplementary materials. 2 figures and 3 tables in the main text, 9 figures
and 12 tables when including the supplementary materials
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15383v1
摘要:
在這項工作中,我們考慮了代碼世界模型(Code World Models),即大型語言模型(LLM)以 Python 代碼形式生成的世界模型,用于基于模型的強化學習(RL)。調用代碼而非 LLM 進行規劃具有精確、可靠、可解釋和極其高效的優點。然而,編寫合適的代碼世界模型需要理解復雜指令的能力、生成具有非簡單邏輯的精確代碼的能力,以及通過單元測試和環境軌跡反饋對長程序進行自我調試的能力。為了應對這些挑戰,我們提出了蒙特卡洛樹搜索生成、改進和修復(GIF-MCTS)這一新的 LLM 代碼生成策略。為了測試我們的方法,我們引入了代碼世界模型基準(CWMB),這是一套程序合成和規劃任務,由 18 種不同的 RL 環境以及相應的文本描述和策劃軌跡組成。在 CWMB 和其他兩個基準測試中,GIF-MCTS 超越了所有基準測試,我們還證明了用它合成的代碼世界模型可以成功地用于規劃,從而使基于模型的 RL 代理的采樣效率和推理速度大大提高。
14.Are Long-LLMs A Necessity For Long-Context Tasks?
標題:長 LLM 是長語境任務的必要條件嗎?
author:Hongjin Qian, Zheng Liu, Peitian Zhang, Kelong Mao, Yujia Zhou, Xu Chen, Zhicheng Dou
publish:18 pages
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15318v1
摘要:
盡管最近取得了一些進展,但長 LLM 的學習和部署仍然是一個具有挑戰性的問題。在這項工作中,我們認為長LLMs并不是解決長上下文任務的必要條件,因為常見的長上下文任務都是短上下文可解的,即它們可以通過純粹處理長上下文任務輸入中的甲骨文短上下文來解決。在此基礎上,我們提出了一個名為 LC-Boost(Long-Context Bootstrapper)的框架,它能讓短 LLM 以引導方式解決長語境任務。在我們的框架中,短 LLM 會提示自己對兩個關鍵決策進行推理:1)如何訪問輸入內容中適當的上下文部分;2)如何有效利用所訪問的上下文。通過根據提出的任務自適應地訪問和利用上下文,LC-Boost 可以作為一個通用框架來處理多樣化的長上下文處理問題。我們從流行的長語境基準中對不同類型的任務進行了全面評估,結果發現 LC-Boost 能夠以更少的資源消耗大幅提高性能。
15.Before Generation, Align it! A Novel and Effective Strategy for Mitigating Hallucinations in Text-to-SQL Generation
標題:生成前,先對齊!在文本到 SQL 生成過程中減少幻覺的有效新策略
author:Ge Qu, Jinyang Li, Bowen Li, Bowen Qin, Nan Huo, Chenhao Ma, Reynold Cheng
publish:Accepted to ACL Findings 2024
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15307v1
摘要:
由上下文學習(ICL)驅動的大型語言模型(LLM)大大提高了文本到 SQL 的性能。以前的方法一般采用兩階段推理框架,即 1)模式鏈接和 2)邏輯綜合,使框架不僅有效,而且可解釋。盡管取得了這些進步,但由于 LLMs 的概括性本身就很差,經常會產生幻覺,從而限制了 LLMs 潛力的充分發揮。在這項工作中,我們首先確定了文本到 SQL 各階段常見的幻覺類型,并對其進行了分類。然后,我們引入了一種新穎的策略–任務對齊(TA),旨在減輕每個階段的幻覺。TA 鼓勵 LLM 利用類似任務的經驗,而不是從頭開始任務。這可以幫助 LLM 減輕泛化的負擔,從而有效減輕幻覺。我們進一步提出了基于這一策略的文本到 SQL 框架 TA-SQL。實驗結果和綜合分析證明了我們框架的有效性和穩健性。具體來說,在 BIRD dev 上,它將 GPT-4 基準的性能相對提高了 21.23%,并在六個模型和四個主流復雜文本到 SQL 基準上取得了顯著的改進。
16. i i iREPO: i i implicit Reward Pairwise Difference based Empirical Preference Optimization
標題: i i iREPO:基于經驗偏好優化的 i i i隱性獎賞配對差分法
author:Long Tan Le, Han Shu, Tung-Anh Nguyen, Choong Seon Hong, Nguyen H. Tran
publish:Under Review
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15230v1
摘要:
大型語言模型(LLM)雖然能力驚人,但有時也會產生偏離人類期望的輸出結果。出現這種偏差時,就需要進行對齊階段,以防止傳播不真實、有毒或有偏見的信息。傳統的基于強化學習的配準方法往往難以應對已發現的不穩定性,而偏好優化方法則受限于對預先收集的硬標簽數據集的過度擬合。在本文中,我們提出了一種名為" i i iREPO "的新型 LLM 對齊框架,它利用隱式獎勵成對差異回歸進行經驗偏好優化。特別是, i i iREPO 利用根據人類(或人工智能注釋者)經驗偏好標記的自生成數據集,通過基于回歸的新型損失函數迭代完善對齊策略。此外,我們還引入了一種創新算法,該算法有理論保證,可在理想假設條件下實現最優結果,并在沒有此類假設條件的情況下提供實用的性能差距結果。使用 Phi-2 和 Mistral-7B 的實驗結果表明, i i iREPO 能有效地利用軟標簽、自我生成的響應和經驗人工智能注釋者的對數實現自我對齊。此外,在使用語言模型評估工具包(Language Model Evaluation Harness)和多轉向基準(Multi-turn benchmarks)進行的評估中,我們的方法超過了偏好優化基準。
17.Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs
標題:以思維的速度解碼:利用詞性單元的并行解碼實現 LLM
author:Chenxi Sun, Hongzhi Zhang, Zijia Lin, Jingyuan Zhang, Fuzheng Zhang, Zhongyuan Wang, Bin Chen, Chengru Song, Di Zhang, Kun Gai, Deyi Xiong
publish:Accepted for publication at LREC-COLING 2024
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15208v1
摘要:
大型語言模型在自然語言理解和生成方面表現出了卓越的能力。然而,它們的生成速度受限于其解碼過程固有的順序性,給實時應用帶來了挑戰。本文介紹了詞法單元解碼(LUD),這是一種以數據驅動方式實現的新型解碼方法,可在不犧牲輸出質量的情況下加快解碼過程。我們方法的核心是觀察到預先訓練好的語言模型可以有把握地預測多個連續的詞塊,從而形成一個文本單元(textit{lexical unit}),這些連續的詞塊可以并行解碼。廣泛的實驗驗證了我們的方法在保持生成質量的同時大幅縮短了解碼時間,即自然語言生成速度提高了 33%,而質量沒有下降;代碼生成速度提高了 30%,而質量下降了 3%,可以忽略不計。與眾不同的是,LUD 不需要輔助模型,也不需要改變現有架構。它還可以與其他解碼加速方法集成,從而實現更明顯的推理效率提升。我們認為,LUD 的基本原理可以為未來的語言模型定義一種新的解碼范式,從而提高它們在更廣泛應用中的適用性。所有代碼均可在 https://github.com/tjunlp-lab/Lexical-Unit-Decoding-LUD- 公開獲取。關鍵詞并行解碼、詞性單元解碼、大型語言模型
18.Cross-Task Defense: Instruction-Tuning LLMs for Content Safety
標題:跨任務防御:對 LLM 進行教學調整以確保內容安全
author:Yu Fu, Wen Xiao, Jia Chen, Jiachen Li, Evangelos Papalexakis, Aichi Chien, Yue Dong
publish:accepted to NAACL2024 TrustNLP workshop
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15202v1
摘要:
最近的研究表明,大型語言模型(LLM)在平衡安全性與實用性方面面臨挑戰,尤其是在處理摘要和翻譯等 NLP 任務的長文本時。盡管有針對惡意短問題的防御措施,但大型語言模型安全處理危險長篇內容(如教授非法活動的手冊)的能力仍不明確。我們的工作旨在為 LLM 開發強大的防御功能,以處理惡意文檔和良性 NLP 任務查詢。我們引入了一個由安全相關示例組成的防御數據集,并提出了用于指令調整的單一任務和混合任務損失。我們的實證結果表明,通過適當的指令調整,LLM 可以顯著提高其安全管理危險內容的能力。此外,加強最易被誤用的任務的防御能力,也能有效保護 LLM 處理有害信息。我們還觀察到,在防御策略中存在實用性和安全性之間的權衡,與 Llama1 相比,采用我們提出的方法的 Llama2 在這兩者之間表現出更好的平衡。
19.A Solution-based LLM API-using Methodology for Academic Information Seeking
標題:基于解決方案的 LLM API 學術信息查詢方法
author:Yuanchun Wang, Jifan Yu, Zijun Yao, Jing Zhang, Yuyang Xie, Shangqing Tu, Yiyang Fu, Youhe Feng, Jinkai Zhang, Jingyao Zhang, Bowen Huang, Yuanyao Li, Huihui Yuan, Lei Hou, Juanzi Li, Jie Tang
publish:22 pages, 13 figures
date Time:2024-05-24
paper pdf:http://arxiv.org/pdf/2405.15165v1
摘要:
將大型語言模型(LLM)應用于學術應用程序接口(API)的使用,有望減少研究人員的學術信息搜索工作量。然而,目前的 LLM API 使用方法難以應對學術查詢中常見的復雜 API 耦合。為了解決這個問題,我們引入了 SoAy,一種基于解決方案的學術信息搜索 LLM API 使用方法。它使用帶有解決方案的代碼作為推理方法,其中解決方案是預先構建的 API 調用序列。解決方案的加入降低了模型理解 API 之間復雜關系的難度。代碼提高了推理效率。 為了評估 SoAy,我們引入了 SoAyBench,這是一個評估基準,與 SoAyEval 配套,建立在 AMiner 的 API 克隆環境之上。實驗結果表明,與最先進的基于 LLM API 的基準相比,SoAy 的性能提高了 34.58-75.99%。所有數據集、代碼、調整后的模型和部署的在線服務均可在 https://github.com/RUCKBReasoning/SoAy 上公開訪問。
20.Eliciting Informative Text Evaluations with Large Language Models
標題:利用大型語言模型進行信息文本評估
author:Yuxuan Lu, Shengwei Xu, Yichi Zhang, Yuqing Kong, Grant Schoenebeck
publish:Accepted by the Twenty-Fifth ACM Conference on Economics and
Computation (EC’24)
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.15077v1
摘要:
同行預測機制激勵著高質量的反饋,并具有可證明的保證。然而,目前的方法只適用于比較簡單的報告,如多項選擇或標量數字。我們的目標是利用大型語言模型的最新發展,將這些技術擴展到基于文本的報告這一更大的領域。這大大提高了同行預測機制的適用性,因為文本反饋是各種反饋渠道的常態:同行評價、電子商務客戶評價和社交媒體上的評論。 我們介紹了兩種機制,即生成式同行預測機制(GPPM)和生成式提要同行預測機制(GSPPM)。這些機制利用 LLM 作為預測器,從一個代理的報告映射到對其同行報告的預測。從理論上講,我們證明了當 LLM 預測足夠準確時,我們的機制可以激勵人們付出更多努力,并以貝葉斯納什均衡(近似)的方式講真話。在經驗方面,我們通過在兩個真實數據集(Yelp 評論數據集和 ICLR OpenReview 數據集)上進行的實驗證實了我們機制的有效性。我們強調的結果是,在 ICLR 數據集上,我們的機制可以在預期分數方面區分三個質量等級–人工撰寫的評論、GPT-4 生成的評論和 GPT-3.5 生成的評論。此外,GSPPM 比 GPPM 更有效地懲罰了 LLM 生成的評論。
21.Extracting Prompts by Inverting LLM Outputs
標題:通過反轉 LLM 輸出提取提示信息
author:Collin Zhang, John X. Morris, Vitaly Shmatikov
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.15012v1
摘要:
我們考慮的是語言模型反轉問題:給定語言模型的輸出,我們試圖提取產生這些輸出的提示。我們開發了一種新的黑盒方法–output2prompt,它可以在不訪問模型日志、不進行對抗或越獄查詢的情況下學習提取提示。與之前的工作不同,output2prompt 只需要正常用戶查詢的輸出。為了提高內存效率,output2prompt 采用了一種新的稀疏編碼技術。我們對 output2prompt 在各種用戶和系統提示上的功效進行了測量,并證明了它在不同 LLM 之間的零點轉移能力。
22.PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression
標題:PV-Tuning:超越直通式估計,實現極限 LLM 壓縮
author:Vladimir Malinovskii, Denis Mazur, Ivan Ilin, Denis Kuznedelev, Konstantin Burlachenko, Kai Yi, Dan Alistarh, Peter Richtarik
publish:Preprint
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14852v1
摘要:
人們對大型語言模型(LLM)的 "極限 "壓縮(即每個參數壓縮到 1-2 比特)產生了濃厚的興趣,這使得此類模型可以在資源受限的設備上高效執行。現有的工作主要集中在改進的單次量化技術和權重表示上;然而,純粹的后訓練方法在準確性與比特寬度的權衡中收益越來越低。最先進的量化方法(如 QuIP# 和 AQLM)包括通過有限的校準數據對壓縮參數(部分)進行微調;然而,這種對壓縮權重的微調技術通常只使用直通估計器(STE),而直通估計器在這種情況下的性能還沒有得到很好的理解。在這項工作中,我們對使用直通估計器進行極端 LLM 壓縮的做法提出了質疑,證明它可能是次優的,并對 LLM 的量化感知微調策略進行了系統研究。我們提出了 PV-Tuning–一種與表示無關的框架,它概括并改進了現有的微調策略,并在受限情況下提供收斂保證。在實際應用中,當用于 1-2 位矢量量化時,對于 Llama 和 Mistral 等高性能模型,PV-Tuning 優于先前的技術。利用 PV-Tuning 技術,我們首次實現了 Llama 2 系列模型每個參數 2 比特的帕累托最優量化。
23.SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models
標題:SliM-LLM:針對大型語言模型的顯著性驅動混合精度量化技術
author:Wei Huang, Haotong Qin, Yangdong Liu, Yawei Li, Xianglong Liu, Luca Benini, Michele Magno, Xiaojuan Qi
publish:22 pages
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14917v1
摘要:
大型語言模型(LLM)在自然語言理解方面性能卓越,但需要大量的計算和內存資源。訓練后量化(PTQ)是一種強大的壓縮技術,在 LLM 中得到了廣泛研究。然而,現有的 PTQ 方法在精度和效率方面仍不理想,尤其是在低于 4 位寬的情況下。使用分組量化的標準 PTQ 方法很難將 LLM 精確量化到如此低的比特,而先進的方法在保持高精度權重的同時也很難實現其理論上的硬件效率。本文提出了一種針對 LLM 的顯著性驅動混合精度量化方案,即 SliM-LLM。該方案利用權重的顯著性分布來確定最佳位寬和量化器,以實現精確的 LLM 量化,同時將位寬分區與分組保持一致,以實現緊湊的內存使用和快速的整數推理。具體來說,所提出的 SliM-LLM 主要依賴于兩種新技術:(1)顯著性決定位分配(Salience-Determined Bit Allocation)利用顯著性分布的聚類特征來分配各組的位寬,從而提高了量化 LLM 的精度并保持了推理效率;(2)顯著性加權量化器校準(Salience-Weighted Quantizer Calibration)通過考慮組內元素的顯著性來優化量化器參數,平衡了顯著性信息的維護和誤差的最小化。綜合實驗表明,SliM-LLM 顯著提高了超低位 LLM 的精度,例如,在 NVIDIA A800 GPU 上,2 位 LLaMA-7B 比原始模型節省了 5.5 倍內存,與最先進的無梯度 PTQ 方法相比,迷惑性降低了 48%。此外,由基于梯度量化器的 SliM-LLM 擴展而來的 SliM-LLM+ 進一步將困惑度降低了 35.1%。
24.Multi-turn Reinforcement Learning from Preference Human Feedback
標題:從偏好人類反饋中進行多輪強化學習
author:Lior Shani, Aviv Rosenberg, Asaf Cassel, Oran Lang, Daniele Calandriello, Avital Zipori, Hila Noga, Orgad Keller, Bilal Piot, Idan Szpektor, Avinatan Hassidim, Yossi Matias, Rémi Munos
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14655v1
摘要:
從人類反饋中強化學習(RLHF)已成為將大型語言模型(LLM)與人類偏好相匹配的標準方法,使 LLM 在各種任務中展現出非凡的能力。現有的方法是在單個決策(轉彎)層面上模擬偏好,這限制了它們在需要規劃或多轉彎互動以實現長期目標的環境中的能力。在本文中,我們針對這一問題,通過兩個完整的多輪對話之間的偏好反饋,開發了強化學習(RL)的新方法。在表格設置中,我們針對基于偏好的一般多輪 RL 問題提出了一種新穎的基于鏡像后裔的策略優化算法,并證明了其向納什均衡的收斂性。為了評估性能,我們創建了一個新的環境–“教育對話”(Education Dialogue),在這個環境中,教師代理引導學生學習一個隨機主題,結果表明我們算法的深度 RL 變體優于 RLHF 基線。最后,我們證明,在有明確獎勵的環境中,我們的算法恢復了與基于獎勵的 RL 基線相同的性能,盡管僅僅依賴于較弱的偏好信號。
25.Base of RoPE Bounds Context Length
標題:RoPE 邊界基線 上下文長度
author:Xin Men, Mingyu Xu, Bingning Wang, Qingyu Zhang, Hongyu Lin, Xianpei Han, Weipeng Chen
publish:17 pages
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14591v1
摘要:
位置嵌入是當前大型語言模型(LLM)的核心組成部分。旋轉位置嵌入(RoPE)是一種用旋轉矩陣對位置信息進行編碼的技術,是許多 LLM(如 Llama 系列)中位置嵌入的實際選擇。RoPE 被進一步用于擴展長上下文能力,其大致原理是通過調整 RoPE 的 \textit{base} 參數來緩解位置嵌入中的分布外(OOD)問題。然而,在本文中,我們發現基于 OOD 理論,LLM 可能會獲得膚淺的長語境能力。我們重新審視了 RoPE 在 LLM 中的作用,并提出了一種新穎的長期衰減特性,我們得出了 \textit{RoPE的基值約束上下文長度}:要獲得一定的上下文長度能力,基值存在一個絕對下限。我們的研究從理論和實證兩方面揭示了上下文長度與 RoPE 基值之間的關系,這可能會對未來的長上下文訓練有所啟發。
26.Exploring the use of a Large Language Model for data extraction in systematic reviews: a rapid feasibility study
標題:探索在系統綜述中使用大語言模型提取數據:快速可行性研究
author:Lena Schmidt, Kaitlyn Hair, Sergio Graziozi, Fiona Campbell, Claudia Kapp, Alireza Khanteymoori, Dawn Craig, Mark Engelbert, James Thomas
publish:Conference proceedings, peer-reviewed and presented at the 3rd
Workshop on Augmented Intelligence for Technology-Assisted Reviews Systems,
Glasgow, 2024
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14445v1
摘要:
本文介紹了使用大型語言模型(LLM)GPT-4 進行系統綜述數據提取(半)自動化的快速可行性研究。盡管近來人們對 LLM 的興趣大增,但對于如何設計基于 LLM 的自動化工具以及如何穩健地評估其性能仍缺乏了解。在 2023 年證據合成黑客馬拉松期間,我們進行了兩項可行性研究。首先,從人類臨床、動物和社會科學領域的研究中自動提取研究特征。我們在每個類別中使用了兩項研究進行提示開發;使用了十項研究進行評估。其次,我們使用 LLM 預測 EBM-NLP 數據集中 100 篇摘要中標注的參與者、干預、對照和結果(PICOs)。總體而言,結果顯示準確率約為 80%,不同領域之間存在一定差異(人類臨床研究為 82%,動物研究為 80%,人類社會科學研究為 72%)。因果推理方法和研究設計是錯誤最多的數據提取項目。在 PICO 研究中,參與者和干預/對照顯示出較高的準確率(>80%),而結果則更具挑戰性。評估是人工完成的;BLEU 和 ROUGE 等評分方法的價值有限。我們觀察到 LLMs 預測的變化和響應質量的變化。本文為未來在系統綜述自動化數據提取方面對 LLMs 進行評估提供了一個模板。我們的結果表明,使用 LLMs(例如作為第二或第三審稿人)可能會有價值。不過,在將 GPT-4 等模型整合到工具中時,建議謹慎行事。對于 LLM 所處理的每種類型的數據,都有必要在實際環境中進一步研究其穩定性和可靠性。
27.RaFe: Ranking Feedback Improves Query Rewriting for RAG
標題:RaFe:排名反饋改進了 RAG 的查詢重寫
author:Shengyu Mao, Yong Jiang, Boli Chen, Xiao Li, Peng Wang, Xinyu Wang, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang
publish:16 pages
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14431v1
摘要:
隨著大型語言模型(LLM)和檢索增強生成(RAG)技術的發展,查詢重寫已被廣泛納入 RAG 系統,用于開放域質量保證等下游任務。許多研究都試圖利用具有強化學習功能的小型模型而不是昂貴的 LLM 來改進查詢重寫。然而,目前的方法需要注釋(如標注的相關文檔或下游答案)或預先設計的反饋獎勵,缺乏通用性,也無法利用為查詢改寫量身定制的信號。在本文中,我們提出了我們的框架,這是一個無需注釋即可訓練查詢重寫模型的框架。通過利用公開可用的重寫器,我們的系統能提供與重寫目標相一致的反饋。實驗結果表明,我們的方法可以獲得比基線更好的性能。
28.Large Language Models for Explainable Decisions in Dynamic Digital Twins
標題:動態數字孿生中可解釋決策的大型語言模型
author:Nan Zhang, Christian Vergara-Marcillo, Georgios Diamantopoulos, Jingran Shen, Nikos Tziritas, Rami Bahsoon, Georgios Theodoropoulos
publish:8 pages, 3 figures, under review
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14411v1
摘要:
動態數據驅動的數字孿生系統(DDTs)可實現知情決策,并為底層系統提供優化平臺。通過利用動態數據驅動應用系統(DDDAS)的原理,DDTs 可以為反饋回路、模型更新和決策(包括自主決策)制定計算模式。然而,理解自主決策往往需要技術和特定領域的知識。本文探討了如何利用大型語言模型(LLM)為 DDTs 提供可解釋性平臺,通過利用特定領域的知識庫為系統的決策生成自然語言解釋。本文介紹了一個來自智能農業的案例研究。
29.MiniCache: KV Cache Compression in Depth Dimension for Large Language Models
標題:MiniCache:大型語言模型深度維度的 KV 緩存壓縮
author:Akide Liu, Jing Liu, Zizheng Pan, Yefei He, Gholamreza Haffari, Bohan Zhuang
publish:Tech report
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14366v1
摘要:
高效部署計算要求高的大型語言模型(LLM)的關鍵方法是鍵值(KV)緩存。KV 緩存存儲了之前生成的標記的鍵值狀態,大大減少了重復計算的需要,從而降低了自回歸生成的延遲。然而,KV 緩存的大小與序列長度呈線性增長,這給需要長上下文輸入和大量序列生成的應用帶來了挑戰。在本文中,我們提出了一種名為 MiniCache 的簡單而有效的方法,從新穎的深度角度跨層壓縮 KV 緩存,從而顯著減少 LLM 推理的內存占用。我們的方法基于對 KV 緩存狀態的觀察,即在 LLM 的中深度部分,相鄰層之間表現出高度的相似性。為了便于合并,我們建議將狀態分解為幅度和方向兩個部分,對狀態向量的方向進行插值,同時保持其長度不變。此外,我們還引入了一種標記保留策略,以保持高度不同的狀態對不被合并,從而以最小的額外存儲開銷保存信息。我們的 MiniCache 無需訓練且具有通用性,是對量化和稀疏性等現有 KV 緩存壓縮策略的補充。我們利用各種模型(包括 LLaMA-2、LLaMA-3、Phi-3、Mistral 和 Mixtral)在多個基準測試中對 MiniCache 進行了全面評估,證明了它在實現出色的壓縮率和高吞吐量方面的卓越性能。在 ShareGPT 數據集上,采用 4 位 MiniCache 的 LLaMA-2-7B 實現了高達 5.02 倍的出色壓縮率,推理吞吐量提高了約 5 倍,與 FP16 全緩存基線相比,內存占用減少了 41%,同時保持了近乎無損的性能。
30.JiuZhang3.0: Efficiently Improving Mathematical Reasoning by Training Small Data Synthesis Models
標題:九章3.0:通過訓練小型數據合成模型有效提高數學推理能力
author:Kun Zhou, Beichen Zhang, Jiapeng Wang, Zhipeng Chen, Wayne Xin Zhao, Jing Sha, Zhichao Sheng, Shijin Wang, Ji-Rong Wen
publish:28 pages, SOTA math LLM using Well-trained Data Synthesis LLM
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14365v1
摘要:
數學推理是大型語言模型在實際應用中的一項重要能力。為了增強這一能力,現有的工作要么是收集大規模數學相關文本進行預訓練,要么是依靠更強大的 LLM((eg GPT-4)來合成大規模數學問題。這兩類工作通常都會導致訓練或合成的巨大成本。為了降低成本,我們提出了一種基于開源文本的高效方法,即訓練一個小型 LLM 來合成數學問題,從而有效地生成足夠的高質量預訓練數據。為此,我們使用 GPT-4 創建了一個數據集,將其數據合成能力提煉到小型 LLM 中。具體來說,我們根據人類教育階段精心設計了一套提示語,引導 GPT-4 歸納出涵蓋不同數學知識和難度水平的問題。此外,我們還采用了基于梯度的影響估計方法來選擇最有價值的數學相關文本。這兩者都被輸入到 GPT-4 中,用于創建知識提煉數據集,訓練小型 LLM。我們利用它合成了 600 萬個數學問題,用于預訓練我們的九章 3.0 模型,該模型只需調用 GPT-4 API 9.3k 次,并在 4.6B 數據上進行預訓練。實驗結果表明,在自然語言推理和工具操作設置下,九章 3.0 在多個數學推理數據集上都取得了一流的性能。我們的代碼和數據將在(url{https://github.com/RUCAIBox/JiuZhang3.0})公開發布。
31.Super Tiny Language Models
標題:超小型語言模型
author:Dylan Hillier, Leon Guertler, Cheston Tan, Palaash Agrawal, Chen Ruirui, Bobby Cheng
publish:11 pages, 4 figures
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14159v1
摘要:
大型語言模型(LLM)的飛速發展極大地改善了自然語言處理能力,但也因其對計算和能源的高要求而帶來了挑戰。本文介紹了一系列以超級微小語言模型(STLMs)為重點的研究工作,旨在以顯著減少的參數數量提供高性能。我們探索了一些創新技術,如具有池化機制的字節級標記化、權重綁定和高效訓練策略。與傳統模型相比,這些方法共同將參數數減少了 90% 到 95%,同時保持了極具競爭力的性能。本系列論文將探討各種子問題,包括無標記化模型、基于自播放的訓練和替代訓練目標,目標模型的參數數分別為 1 千萬、5 千萬和 1 億。我們的最終目標是使高性能語言模型在廣泛的應用中更加容易獲得和實用。
32.Large Language Models Can Self-Correct with Minimal Effort
標題:大型語言模型能以最小的代價進行自我修正
author:Zhenyu Wu, Qingkai Zeng, Zhihan Zhang, Zhaoxuan Tan, Chao Shen, Meng Jiang
publish:Work in Progress
date Time:2024-05-23
paper pdf:http://arxiv.org/pdf/2405.14092v1
摘要:
內在自我糾正是一種指導大型語言模型(LLMs)在沒有外部反饋的情況下驗證和糾正其反應的方法。遺憾的是,研究得出的結論是,大型語言模型還不能自我糾正推理。我們發現,一種簡單而有效的驗證方法可以釋放 LLMs 的內在能力。這就是在問題中屏蔽一個關鍵條件,添加當前的回答來構建一個驗證問題,并預測條件以驗證回答。條件可以是開放領域問題中的一個實體,也可以是數學問題中的一個數值,只需極少的努力(通過提示)即可識別。我們提出了一個 "先驗證后糾正 "的迭代框架,用于逐步識別和糾正(可能是)錯誤的回答,并將其命名為 ProCo。我們在三個推理任務中進行了實驗。與 "自我糾正 "相比,使用 GPT-3.5-Turbo 作為后端 LLM 的 ProCo 在四個開放域問題解答數據集上的準確匹配率平均提高了 6.8 美元,在三個算術推理數據集上的準確率提高了 14.1 美元,在一個常識推理數據集上的準確率提高了 9.6 美元。
33.TOPA: Extend Large Language Models for Video Understanding via Text-Only Pre-Alignment
標題:TOPA:通過純文本預對齊擴展用于視頻理解的大型語言模型
author:Wei Li, Hehe Fan, Yongkang Wong, Mohan Kankanhalli, Yi Yang
publish:32 pages, 12 figures, 11 tables
date Time:2024-05-22
paper pdf:http://arxiv.org/pdf/2405.13911v1
摘要:
圖像理解領域的最新進展得益于網絡圖像-文本對的廣泛使用。然而,盡管有大量的網絡視頻-文本數據,視頻理解仍然是一個挑戰。這一困難主要源于視頻固有的復雜性和最近網絡收集的視頻-文本數據集中低效的語言監督。在本文中,我們介紹了純文本預對齊(TOPA),這是一種擴展大型語言模型(LLM)用于視頻理解的新方法,無需在真實視頻數據上進行預訓練。具體來說,我們首先利用先進的 LLM 自動生成由連續文本幀組成的文本視頻以及相應的注釋,以模擬真實的視頻文本數據。然后,利用這些注釋文本視頻將純語言 LLM 與視頻模式進行預對齊。為了縮小文本視頻與真實視頻之間的差距,我們采用 CLIP 模型作為特征提取器來對齊圖像和文本模態。在純文本預對齊過程中,以 CLIP 文本特征序列編碼的連續文本幀類似于連續的 CLIP 圖像特征,從而將 LLM 與真實視頻表示法對齊。廣泛的實驗(包括在各種視頻理解任務上的零鏡頭評估和微調)表明,TOPA 是一種有效且高效的視頻內容與 LLM 對齊框架。特別是,在沒有任何視頻數據訓練的情況下,TOPA-Llama2-13B 模型在具有挑戰性的長視頻理解基準 Egoschema 上達到了 51.0% 的 Top-1 準確率。這一成績超越了以前的視頻文本預訓練方法,并證明了與最近基于 GPT-3.5 的視頻代理的競爭力。
34.Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning
標題:利用任務感知課程規劃提煉大型語言模型的教學跟蹤能力
author:Yuanhao Yue, Chengyu Wang, Jun Huang, Peng Wang
date Time:2024-05-22
paper pdf:http://arxiv.org/pdf/2405.13448v1
摘要:
指令調整過程是將預先訓練好的大型語言模型(LLM)與開放域指令和人類偏好的反應相匹配。雖然有幾項研究探索了從 ChatGPT 等功能更強大的專有 LLM 中提煉和注釋指令的自主方法,但這些研究往往忽視了任務分配和訓練集中不同難度指令的影響。這種疏忽會導致小型學生 LLM 的知識能力不平衡,泛化能力差。為了應對這一挑戰,我們引入了任務感知課程規劃教學提煉(TAPIR),這是一種具有均衡任務分配和動態難度調整功能的多輪提煉框架。這種方法利用甲骨文 LLM 來選擇學生 LLM 難以遵循的指令,并以均衡的任務分布來提煉指令。通過結合課程規劃,我們的方法系統地提升了難度級別,逐步增強了學生 LLM 的能力。我們使用兩個廣受認可的基準(包括 AlpacaEval 2.0 和 MT-Bench)對 TAPIR 進行了嚴格評估。實證結果表明,使用我們的方法和較少的訓練數據訓練出來的學生 LLM 優于較大的指令調整模型和強蒸餾基線。這種改進在邏輯推理和代碼生成等復雜任務中尤為明顯。
35.Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction
標題:先分散后合并:通過減少對齊稅來突破指令調整的極限
author:Tingchen Fu, Deng Cai, Lemao Liu, Shuming Shi, Rui Yan
publish:Accepted to the findings of ACL2024
date Time:2024-05-22
paper pdf:http://arxiv.org/pdf/2405.13432v1
摘要:
在指令跟隨語料庫上進行監督微調(SFT)是實現大型語言模型(LLM)對齊的重要方法。然而,LLMs 在標準知識和推理基準上的表現往往會在 SFT 過程的后期出現惡化,這與配準稅現象不謀而合。通過試點研究,我們提出了一個假設,即數據偏差可能是造成這一現象的原因之一。為了解決這個問題,我們引入了一個簡單的先分散后合并框架。具體來說,我們將指令跟蹤數據分散成若干部分,并使用不同的數據部分訓練多個子模型。然后,我們通過模型合并技術將多個模型合并為一個模型。盡管我們的框架很簡單,但在一系列標準知識和推理基準測試中,我們的框架優于各種復雜方法,如數據整理和訓練正則化。
36.Comparative Analysis of Different Efficient Fine Tuning Methods of Large Language Models (LLMs) in Low-Resource Setting
標題:低資源環境下大型語言模型 (LLM) 不同高效微調方法的比較分析
author:Krishna Prasad Varadarajan Srinivasan, Prasanth Gumpena, Madhusudhana Yattapu, Vishal H. Brahmbhatt
publish:9 pages of main paper, 1 page of references, 6 appendix pages, 11
figures, 18 tables
date Time:2024-05-21
paper pdf:http://arxiv.org/pdf/2405.13181v1
摘要:
在大型語言模型(LLMs)領域,arXiv:2305.16938研究表明,少數幾次全模型微調(即香草微調(FT)和基于模式的微調(PBFT))和上下文學習(ICL)在域外(OOD)數據集上的泛化效果相似,但在任務適應性方面有所不同。不過,它們都提出了挑戰,尤其是在內存要求方面。在本文中,我們進一步嘗試推動對 LLM 不同微調策略的理解,并旨在將各種微調策略放在同一臺階上,在兩個不同的數據集上與全模型微調進行詳細比較。為此,我們進行了一系列實驗,首先在兩個數據集(COLA 和 MNLI)的預訓練模型上采用了最先進的方法,如 vanilla 微調和基于模式的微調(PBFT)。然后,我們研究了自適應微調和 LoRA 適配程序在少數情況下的效率。最后,我們還比較了最近流行起來的一種替代方法–上下文提煉法–與虛構的 FT 和 PBFT(帶或不帶少次訪問設置)。 我們的研究結果表明,我們探索的這些替代策略可以表現出與 vanilla FT 和 PBFT 相媲美的域外泛化能力。PBFT 在域外(OOD)數據上的表現不如 Vanilla FT,這強調了有效提示的必要性。此外,我們的自適應微調和 LoRA 實驗的表現與預期的標準微調相當或略差,因為標準微調涉及到整個模型的調整。最后,我們的語境提煉實驗表現優于標準微調方法。這些發現強調,選擇合適的微調方法最終取決于可用資源(內存、計算、數據)和任務適應性。
37.ReALLM: A general framework for LLM compression and fine-tuning
標題:ReALLM:用于 LLM 壓縮和微調的通用框架
author:Louis Leconte, Lisa Bedin, Van Minh Nguyen, Eric Moulines
date Time:2024-05-21
paper pdf:http://arxiv.org/pdf/2405.13155v1
摘要:
我們介紹了 ReALLM,這是一種用于壓縮預訓練語言模型并對其進行內存效率調整的新方法,它包含了大部分訓練后量化和微調方法,預算小于 4 位。預訓練矩陣被分解為高精度低秩分量和矢量量化潛在表示(使用自動編碼器)。在微調步驟中,只更新低秩分量。我們的結果表明,預訓練矩陣表現出不同的模式。ReALLM 根據每個矩陣調整編碼器的形狀(小/大嵌入、高/低位 VQ 等)。ReALLM 建議用 b b b比特的小嵌入和 b ? b_\phi b??比特權重的神經解碼器模型 m a t h c a l D ? mathcal{D}_\phi mathcalD??來表示每個矩陣。矩陣的解壓縮只需要一次嵌入和解碼器的一次前向傳遞。在語言生成任務(C4 和 WikiText-2)中,我們的純權重量化算法在預算為 3 美元比特時無需任何訓練即可獲得最佳結果。在預算為 2 美元比特的情況下,ReALLM 在一個小型校準數據集上進行微調后達到了最先進的性能。
38.Adversarial DPO: Harnessing Harmful Data for Reducing Toxicity with Minimal Impact on Coherence and Evasiveness in Dialogue Agents
標題:對抗性 DPO:利用有害數據減少毒性,同時盡量不影響對話代理的一致性和回避性
author:San Kim, Gary Geunbae Lee
publish:15 pages, 7 figures, accepted to NAACL findings 2024
date Time:2024-05-21
paper pdf:http://arxiv.org/pdf/2405.12900v1
摘要:
高質量的大型語言模型(LLM)和各種有效的訓練方法的出現推動了開放域對話系統的最新進展。然而,這些模型中存在的毒性是一個重大挑戰,可能會降低用戶體驗。在本研究中,我們引入了一種創新的訓練算法,它是對直接偏好優化(DPO)的改進,稱為對抗性 DPO(ADPO)。ADPO 算法旨在訓練模型,為首選響應分配更高的概率分布,為不安全響應分配更低的概率分布,這些響應是使用有毒控制標記自行生成的。我們證明,ADPO 增強了模型抵御有害對話的能力,同時將性能下降降至最低。此外,我們還說明,與傳統的 DPO 相比,ADPO 提供了一種更穩定的訓練程序。據我們所知,這是第一個直接將有害數據納入生成模型的 DPO 算法,從而減少了人為創建安全對話數據的需要。
39.Large Language Models Meet NLP: A Survey
標題:大型語言模型與 NLP 的結合:一項調查
author:Libo Qin, Qiguang Chen, Xiachong Feng, Yang Wu, Yongheng Zhang, Yinghui Li, Min Li, Wanxiang Che, Philip S. Yu
date Time:2024-05-21
paper pdf:http://arxiv.org/pdf/2405.12819v1
摘要:
雖然大型語言模型(LLMs)(如 ChatGPT)在自然語言處理(NLP)任務中表現出了令人印象深刻的能力,但對其在這一領域的潛力的系統性研究在很大程度上仍未得到開發。本研究旨在通過探討以下問題來填補這一空白:(1) 文獻中目前是如何將 LLMs 應用于 NLP 任務的?(2) 傳統的 NLP 任務是否已經用 LLMs 解決?(3) LLMs 在 NLP 中的前景如何?為了回答這些問題,我們首先對 LLMs 在 NLP 中的應用進行了全面概述。具體來說,我們首先介紹了一種統一的分類法,包括(1)參數凍結應用和(2)參數調整應用,從而為理解 LLMs 在 NLP 中的當前進展提供一個統一的視角。此外,我們還總結了新的前沿領域和相關挑戰,旨在激發更多突破性進展。我們希望這項工作能為 LLMs 在 NLP 中的{潛力和局限性}提供有價值的見解,同時為在 NLP 中構建有效的 LLMs 提供實用指南。
40.SPO: Multi-Dimensional Preference Sequential Alignment With Implicit Reward Modeling
標題:SPO:利用內隱獎勵模型進行多維偏好序列排列
author:Xingzhou Lou, Junge Zhang, Jian Xie, Lifeng Liu, Dong Yan, Kaiqi Huang
date Time:2024-05-21
paper pdf:http://arxiv.org/pdf/2405.12739v1
摘要:
人類偏好對齊對于建立強大可靠的大型語言模型(LLM)至關重要。然而,目前的方法要么忽略了人類偏好的多維性(如樂于助人和無害),要么難以應對管理多個獎勵模型的復雜性。為了解決這些問題,我們提出了順序偏好優化法(SPO),這是一種順序微調 LLM,使其與人類偏好的多個維度保持一致的方法。SPO 避免了明確的獎勵建模,而是直接優化模型,以符合人類的細微偏好。我們從理論上推導出封閉形式的最優 SPO 策略和損失函數。梯度分析表明了 SPO 如何在保持與先前優化維度一致的同時,對 LLM 進行微調。不同規模的 LLM 和多個評估數據集的實證結果表明,SPO 成功地在人類偏好的多個維度上對 LLM 進行了對齊,并顯著優于基線。
41.Retrieval-Augmented Language Model for Extreme Multi-Label Knowledge Graph Link Prediction
標題:用于極端多標簽知識圖譜鏈接預測的檢索增強語言模型
author:Yu-Hsiang Lin, Huang-Ting Shieh, Chih-Yu Liu, Kuang-Ting Lee, Hsiao-Cheng Chang, Jing-Lun Yang, Yu-Sheng Lin
date Time:2024-05-21
paper pdf:http://arxiv.org/pdf/2405.12656v1
摘要:
用于開放式探究的大語言模型(LLMs)的推斷會遇到兩個關鍵問題:(1)幻覺和(2)昂貴的訓練成本。這些問題給專業領域和個性化數據中的 LLMs 帶來了挑戰,因為它們需要真實的回答和較低的微調成本。現有研究試圖通過使用知識圖譜(KG)中的信息來增強較小語言模型的輸入來解決這一問題。然而,它們有兩個局限性:(1) 無法從知識圖譜的大型單跳鄰域中提取相關信息;(2) 對具有不同特征的知識圖譜采用相同的增強策略,可能導致性能低下。此外,開放式查詢通常會產生多個回復,這使得推斷更加復雜。我們提出了一項新任務–極端多標簽 KG 鏈接預測任務,使模型能夠利用結構化的真實世界知識,在多個回復中執行外推。我們的檢索器通過綜合考慮實體、關系和文本數據來識別相關的單跳鄰居。我們的實驗證明:(1) 具有不同特征的 KG 需要不同的增強策略;(2) 用文本數據增強語言模型的輸入可顯著提高任務性能。通過將檢索增強框架與 KG 相結合,我們的框架只需很小的參數,就能根據給定的 KG 進行推斷。代碼可在 GitHub 上獲取:https://github.com/exiled1143/Retrieval-Augmented-Language-Model-for-Multi-Label-Knowledge-Graph-Link-Prediction.git
42.Exploration of Masked and Causal Language Modelling for Text Generation
標題:探索用于文本生成的屏蔽和因果語言模型
author:Nicolo Micheletti, Samuel Belkadi, Lifeng Han, Goran Nenadic
publish:working paper
date Time:2024-05-21
paper pdf:http://arxiv.org/pdf/2405.12630v1
摘要:
大型語言模型(LLM)在自然語言處理(NLP)領域掀起了一場革命,幾乎在該領域的所有任務中都取得了最先進的性能。然而,文本生成中普遍使用的方法–因果語言建模(CLM)–是按從左到右的順序生成文本的,這從本質上限制了模型的自由度,因為它無法決定每個標記生成的時間和位置。與此相反,主要用于語言理解任務的屏蔽語言建模(MLM)可以在文本的任何位置和任何順序生成標記。本文對用于文本生成任務的 MLM 和 CLM 方法進行了廣泛比較。為此,我們在三個不同的數據集上預先訓練了幾個規模相當的語言模型,這三個數據集分別是:1)醫療出院摘要;2)電影情節梗概;3)作者身份驗證數據集。為了評估生成的質量,我們首先采用量化指標,然后進行定性人工評估,分析連貫性和語法正確性。此外,我們還通過在三個不同的下游任務中使用生成的文本來評估其實用性:1)實體識別;2)文本分類;3)作者身份驗證。結果表明,在所有數據集中,MLM 在文本生成方面的表現始終優于 CLM,生成的文本具有更高的量化分數和更好的一致性。研究還發現,生成文本的質量與模型在下游任務中的表現之間沒有強相關性。通過這項研究,我們發現用于文本生成的 MLM 具有巨大的研究潛力,并為這一領域的未來研究提供了方向。
43.Unlocking Data-free Low-bit Quantization with Matrix Decomposition for KV Cache Compression
標題:利用矩陣分解解鎖無數據低位量化,實現 KV 緩存壓縮
author:Peiyu Liu, Ze-Feng Gao, Wayne Xin Zhao, Yipeng Ma, Tao Wang, Ji-Rong Wen
publish:11 pages, 6 figures
date Time:2024-05-21
paper pdf:http://arxiv.org/pdf/2405.12591v1
摘要:
鍵-值(KV)緩存是加速大型語言模型(LLM)推理的一項重要技術,但會產生巨大的內存開銷。為了壓縮鍵值緩存的大小,現有的方法往往會降低精度或需要額外的數據進行校準,從而限制了它們在 LLM 部署中的實用性。本文介紹了一種基于張量分解方法的新型無數據低位量化技術–textbf{DecoQuant},以有效壓縮 KV 緩存。我們的核心思想是通過進行張量分解來調整原始矩陣的離群值分布,從而將量化困難從矩陣遷移到分解后的局部張量上。特別的是,我們發現離群值主要集中在小的局部張量上,而大的張量往往具有較窄的取值范圍。基于這一發現,我們建議對大張量進行低位量化,同時保持對小張量的高精度表示。此外,我們還利用所提出的量化方法來壓縮 LLM 的 KV 緩存以加速推理,并開發了專為 DecoQuant 量身定制的高效去量化內核。通過大量實驗,DecoQuant 展示了顯著的效率提升,在保持可比生成質量的同時,內存占用減少了高達 $\sim$75% 。
44.Question-Based Retrieval using Atomic Units for Enterprise RAG
標題:為企業 RAG 使用原子單元進行基于問題的檢索
author:Vatsal Raina, Mark Gales
publish:10 pages, 2 figures, 3 tables
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.12363v1
摘要:
企業檢索增強生成(RAG)提供了一個高度靈活的框架,可將功能強大的大型語言模型(LLM)與可能隨時間變化的內部文檔相結合。在 RAG 中,首先對文檔進行分塊。然后針對特定的用戶查詢檢索相關的分塊,并將其作為上下文傳遞給合成器 LLM,以生成查詢響應。然而,檢索步驟會限制性能,因為不正確的分塊會導致合成器 LLM 生成錯誤的響應。這項研究提出了對標準密集檢索步驟進行零點調整的方法,以實現更準確的大塊召回。具體來說,首先將一個語塊分解為原子語句。然后在這些原子上生成一組合成問題(以大塊為上下文)。密集檢索包括找到與用戶查詢最接近的一組合成問題和相關的大塊。結果發現,使用原子進行檢索比使用塊進行檢索的召回率更高。使用在原子上生成的合成問題進行檢索還能進一步提高性能。檢索步驟的召回率越高,使用 RAG 管道的企業 LLM 性能就越高。
45.CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models
標題:CT-Eval:大型語言模型中的中文文本到表格性能基準測試
author:Haoxiang Shi, Jiaan Wang, Jiarong Xu, Cen Wang, Tetsuya Sakai
publish:10 pages
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.12174v1
摘要:
文本到表格(Text-to-Table)旨在生成結構化表格,以傳達非結構化文檔中的關鍵信息。現有的文本到表格數據集通常以英語為導向,限制了對非英語語言的研究。與此同時,大語言模型(LLMs)作為多語言環境下的通用任務求解器(如 ChatGPT),在理論上已經取得了巨大的成功,可以實現其他語言的文本到表(text-to-table)。在本文中,我們提出了一個中文文本到表格數據集 CT-Eval,以在該任務中對 LLM 進行基準測試。我們對英文文本到表格數據集的初步分析強調了數據集構建的兩個關鍵因素:數據多樣性和數據幻覺。受此啟發,CT-Eval 數據集選擇了一個流行的中文多學科在線百科全書作為數據源,涵蓋 28 個領域,以確保數據的多樣性。為了盡量減少數據幻覺,我們首先訓練一個 LLM 來判斷并過濾掉有幻覺的任務樣本,然后由人工標注者來清除驗證集和測試集中的幻覺。經過上述處理后,CT-Eval 包含 88.6K 個任務樣本。通過 CT-Eval,我們評估了開源和閉源 LLM 的性能。結果表明,與人類判斷相比,零鏡頭 LLM(包括 GPT-4)的性能仍有明顯差距。此外,經過微調后,開源 LLM 可以顯著提高文本到表的能力,并在很大程度上優于 GPT-4。總之,CT-Eval 不僅能幫助研究人員評估和快速了解現有 LLM 的中文文本到表能力,而且還是大幅提高 LLM 文本到表性能的寶貴資源。
46.Eliciting Problem Specifications via Large Language Models
標題:通過大型語言模型提取問題說明
author:Robert E. Wray, James R. Kirk, John E. Laird
publish:18 pages, Appendix. Submitted to Advances in Cognitive Systems 2024
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.12147v1
摘要:
認知系統通常需要人類將問題定義轉化為認知系統可以用來嘗試解決問題或執行任務的一些規范。在本文中,我們說明了可以利用大型語言模型(LLM)將自然語言定義的問題類別映射為半正式的規范,然后現有的推理和學習系統可以利用這種規范來解決該問題類別中的實例。我們介紹了支持 LLM 的認知任務分析代理的設計。通過使用 LLM 代理,該系統可為用自然語言指定的任務生成問題空間定義。LLM 提示源于人工智能文獻中的問題空間定義和一般問題解決策略(波利亞的《如何解決》)。然后,認知系統就可以使用問題空間規范,應用領域通用的問題解決策略(“弱方法”,如搜索),來解決問題類別中的多個問題實例。這一結果雖然是初步的,但它表明,在保留認知系統的核心能力(如穩健推理和在線學習)的同時,通過問題表述的去中介化,有可能加速認知系統的研究。
47.MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning
標題:MoRA:參數高效微調的高次元更新
author:Ting Jiang, Shaohan Huang, Shengyue Luo, Zihan Zhang, Haizhen Huang, Furu Wei, Weiwei Deng, Feng Sun, Qi Zhang, Deqing Wang, Fuzhen Zhuang
publish:Work in Progress
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.12130v1
摘要:
低階適應是一種針對大型語言模型的流行的參數高效微調方法。本文分析了 LoRA 中實現的低階更新的影響。我們的研究結果表明,低階更新機制可能會限制 LLM 有效學習和記憶新知識的能力。受此啟發,我們提出了一種名為 MoRA 的新方法,它采用方形矩陣來實現高階更新,同時保持相同數量的可訓練參數。為了實現這一目標,我們引入了相應的非參數算子,以減少方陣的輸入維度,增加輸出維度。此外,這些算子確保了權重可以合并回 LLM,這使得我們的方法可以像 LoRA 一樣部署。我們在指令調整、數學推理、持續預訓練、記憶和預訓練五項任務中對我們的方法進行了全面評估。在內存密集型任務上,我們的方法優于 LoRA,而在其他任務上,我們的方法也取得了相當的性能。
48.KG-RAG: Bridging the Gap Between Knowledge and Creativity
標題:KG-RAG:縮小知識與創造力之間的差距
author:Diego Sanmartin
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.12035v1
摘要:
在開發智能代理系統的過程中,既要確保事實的準確性,又要保持大型語言模型代理(LMAs)的創造能力,這是個重大挑戰。在處理知識密集型任務時,LMAs 面臨著信息幻覺、災難性遺忘和長語境處理限制等普遍問題。本文介紹了 KG-RAG(知識圖譜-檢索增強生成)管道,這是一個新穎的框架,旨在通過將結構化知識圖譜(KG)與 LLM 的功能集成來增強 LMA 的知識能力,從而大大降低對 LLM 潛在知識的依賴。KG-RAG 管道從非結構化文本中構建知識圖譜,然后對新創建的圖譜進行信息檢索,從而執行 KGQA(知識圖譜問題解答)。檢索方法利用了一種名為 “探索鏈”(CoE)的新算法,該算法從 LLMs 推理中獲益,可按順序探索知識圖譜中的節點和關系。在 ComplexWebQuestions 數據集上進行的初步實驗表明,在減少幻覺內容方面取得了顯著的改進,為開發善于處理知識密集型任務的智能系統指明了一條大有可為的道路。
49.A review on the use of large language models as virtual tutors
標題:關于將大型語言模型用作虛擬導師的綜述
author:Silvia García-Méndez, Francisco de Arriba-Pérez, María del Carmen Somoza-López
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.11983v1
摘要:
轉換器架構有助于管理自然語言處理的長期依賴關系,是該領域的最新變革之一。這些架構是創新型尖端大型語言模型(LLM)的基礎,在多個領域和工業部門引起了巨大反響,其中教育領域尤為突出。因此,這些基于生成式人工智能的解決方案引導著技術的變革、教育方法和內容的發展,以及網絡基礎設施向高質量學習的邁進。鑒于 LLM 的普及,本綜述旨在全面概述那些專門為生成和評估教育材料而設計,并讓學生和教師參與其設計或實驗計劃的解決方案。據我們所知,這是第一篇關于 LLM 的教育應用(如學生評估)的綜述。不出所料,這些系統最常見的作用是作為自動生成問題的虛擬導師。此外,最流行的模型是 GTP-3 和 BERT。不過,由于新生成模型的不斷推出,預計不久還會有新的作品發表。
50.Unveiling and Manipulating Prompt Influence in Large Language Models
標題:揭示和操縱大型語言模型中的提示影響
author:Zijian Feng, Hanzhang Zhou, Zixiao Zhu, Junlang Qian, Kezhi Mao
publish:ICLR 2024
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.11891v1
摘要:
提示在引導大型語言模型(LLM)做出反應方面起著至關重要的作用。然而,提示中的單個標記(即輸入顯著性)在形成反應中的復雜作用在很大程度上仍未得到充分探索。現有的突出度方法要么與 LLM 生成目標不一致,要么嚴重依賴線性假設,從而導致潛在的不準確性。為了解決這一問題,我們提出了代幣分布動態法(Token Distribution Dynamics,TDD),這是一種 "簡單而有效 "的方法,用于揭示和操縱提示在生成 LLM 輸出中的作用。TDD 利用語言模型頭(LM head)強大的解釋能力來評估輸入的顯著性。它將輸入標記投射到嵌入空間,然后根據詞匯的分布動態估算其重要性。我們介紹了三種 TDD 變體:前向、后向和雙向,每種變體都能提供對標記相關性的獨特見解。廣泛的實驗表明,在闡明提示和 LLM 輸出之間的因果關系方面,TDD 遠遠超過了最先進的基線。除了單純的解釋之外,我們還將 TDD 應用于兩個用于控制文本生成的提示操作任務:零鏡頭有毒語言抑制和情感引導。實證結果表明,TDD 能夠熟練識別提示語中的毒性和情感線索,從而在生成的內容中減輕毒性或調節情感。
51.(Perhaps) Beyond Human Translation: Harnessing Multi-Agent Collaboration for Translating Ultra-Long Literary Texts
標題:(Perhaps) Beyond Human Translation:利用多代理協作翻譯超長文學文本
author:Minghao Wu, Yulin Yuan, Gholamreza Haffari, Longyue Wang
publish:work in progress
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.11804v1
摘要:
機器翻譯(MT)領域的最新進展大大提高了各個領域的翻譯質量。然而,由于文學文本的復雜語言、形象表達和文化細微差別,其翻譯仍然是一項艱巨的挑戰。在這項工作中,我們為文學翻譯引入了一個基于大型語言模型(LLMs)的新型多代理框架,該框架以一家名為 TransAgents 的公司的形式實現,通過利用多個代理的集體能力來反映傳統的翻譯出版流程,以滿足翻譯文學作品的復雜需求。為了評估我們系統的有效性,我們提出了兩種創新的評估策略:單語人類偏好(MHP)和雙語 LLM 偏好(BLP)。MHP 從目標語言單語讀者的角度評估譯文,而 BLP 則使用高級 LLM 直接比較譯文和原文。實證研究結果表明,盡管 d-BLEU 分數較低,但與人類撰寫的參考文獻相比,人類評估者和 LLM 都更喜歡 TransAgents 的譯文,尤其是在需要特定領域知識的體裁中。我們還通過案例研究強調了 TransAgents 的優勢和局限性,并提出了未來的研究方向。
52.Large Language Models for Medicine: A Survey
標題:醫學大語言模型:調查
author:Yanxin Zheng, Wensheng Gan, Zefeng Chen, Zhenlian Qi, Qian Liang, Philip S. Yu
publish:Preprint. 5 figures,5 tables
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.13055v1
摘要:
為了應對數字經濟時代數字智能領域的挑戰,人們開發了大型語言模型(LLM)。計算能力和可用資源的提高極大地推動了大型語言模型的發展,使其能夠融入人類生活的各個領域。醫學 LLM 是重要的應用工具,在各種醫療場景中都具有潛力。在本文中,我們將回顧 LLM 的發展,重點關注醫學 LLM 的需求和應用。我們簡明扼要地概述了現有模型,旨在探索先進的研究方向,讓研究人員在未來的醫療應用中受益。我們強調了醫學 LLM 在應用中的優勢,以及在開發過程中遇到的挑戰。最后,我們提出了減輕挑戰的技術整合方向和未來醫學 LLM 的潛在研究方向,旨在更好地滿足醫學領域的需求。
53.OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework
標題:OpenRLHF:易用、可擴展、高性能的 RLHF 框架
author:Jian Hu, Xibin Wu, Weixun Wang, Xianyu, Dehao Zhang, Yu Cao
date Time:2024-05-20
paper pdf:http://arxiv.org/pdf/2405.11143v1
摘要:
隨著大型語言模型(LLMs)通過擴展規律不斷增長,來自人類反饋的強化學習(RLHF)因其出色的性能而備受關注。然而,與單個模型的預訓練或微調不同,利用人的反饋強化學習(RLHF)來訓練大型語言模型對四個模型之間的協調提出了挑戰。我們提出的 OpenRLHF 是一個開源框架,可實現 RLHF 的高效擴展。現有的 RLHF 框架將四個模型放在同一個 GPU 上,與此不同,OpenRLHF 利用 Ray、vLLM 和 DeepSpeed 為超過 70B 參數的模型重新設計了調度,從而提高了資源利用率并采用了多種訓練方法。OpenRLHF 與 Hugging Face 無縫集成,提供了一個具有優化算法和啟動腳本的開箱即用解決方案,確保了用戶友好性。OpenRLHF 實現了 RLHF、DPO、剔除采樣和其他配準技術。OpenRLHF 的代碼可在 https://github.com/OpenLLMAI/OpenRLHF 網站上獲取,為最先進的 LLM 開發提供了支持。