相關LLMs論文大多都是應用型文章,少部分是優化prompt/參數量級等等…
有一些應用文還是值得參考的,當工作面臨一個新的場景,可以學習下他人是如何結合LLMs與實際應用中的鏈接。
LLMs論文速覽:2024.02.05-2024.02.10:
1.EntGPT: Linking Generative Large Language Models with Knowledge Bases
標題:EntGPT:將生成式大型語言模型與知識庫聯系起來
author:Yifan Ding, Amrit Poudel, Qingkai Zeng, Tim Weninger, Balaji Veeramani, Sanmitra Bhattacharya
date Time:2024-02-09
paper pdf:http://arxiv.org/pdf/2402.06738v1
摘要:
由于在訓練和推理過程中缺乏事實檢查和知識基礎,大型語言模型(LLM)生成事實正確輸出結果的能力相對來說仍有待探索。在這項工作中,我們旨在通過實體消歧(ED)任務來應對這一挑戰。我們首先考慮了提示工程,并設計了一種三步硬提示方法,在沒有監督微調(SFT)的情況下探測 LLM 的 ED 性能。總體而言,提示方法大大提高了原始 vanilla 模型的 micro-F_1 分數,在某些情況下甚至高達 36% 以上,并且在 10 個數據集上獲得了與使用 SFT 的現有方法相當的性能。我們通過使用類似提示和回復的指令調整(IT)進一步提高了知識基礎能力。與幾種基線方法相比,經過指令調整的模型不僅在有監督的實體消歧任務中獲得了更高的 micro-F1 分數性能,與現有基線模型相比,micro-F_1 平均提高了 2.1%,而且還在六種問題解答(QA)任務中獲得了更高的零拍攝準確率。我們的方法同時適用于開源和閉源 LLM。
2.NICE: To Optimize In-Context Examples or Not?
標題:NICE:到底要不要優化上下文示例?
author:Pragya Srivastava, Satvik Golechha, Amit Deshpande, Amit Sharma
date Time:2024-02-09
paper pdf:http://arxiv.org/pdf/2402.06733v2
摘要:
最近的研究表明,上下文學習和優化上下文示例(ICE)可以顯著提高大型語言模型(LLMs)在各種任務中的準確性,從而達成了一個明顯的共識,即優化上下文示例對于提高性能至關重要。然而,這些研究大多假定提示中提供的指令是固定的或沒有指令。我們挑戰了這一共識,研究了在提供特定任務指令時優化 ICE 的必要性,并發現在某些任務中,優化 ICE 的收益會遞減。我們發現,隨著提示指令變得越來越詳細,優化 ICE 的收益也越來越小。為了描述這種行為,我們引入了一種針對特定任務的指標,稱為 “對示例選擇的歸一化不變性”(NICE),它可以量化任務從給定指令中的可學習性,并提供一種啟發式方法,幫助決定是優化指令還是優化新任務的 ICE。在給定任務的情況下,與使用隨機 ICE 相比,所提出的指標可以可靠地預測優化 ICE 的效用。
3.The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate
標題:生成式人工智能在評估方面的悖論:它能解決的問題可能無法評估
author:Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh
date Time:2024-02-09
paper pdf:http://arxiv.org/pdf/2402.06204v1
摘要:
本文探討了這樣一種假設,即擅長生成任務的大型語言模型(LLM)與評估者具有同等能力。我們使用 TriviaQA(Joshi 等人,2017 年)數據集評估了三個 LLM 和一個開源 LM 在問題解答(QA)和評估任務中的表現。結果表明,與生成任務相比,LLM 在評估任務中表現出了較低的性能,兩者之間存在明顯的差距。耐人尋味的是,我們發現了不忠實評價的情況,即模型在其缺乏能力的領域準確地評價了答案,這突出表明有必要研究 LLM 作為評價者的忠實性和可信度。這項研究有助于人們理解 “生成式人工智能悖論”(West 等人,2023 年),強調了探索卓越生成與評估能力之間的相關性的必要性,以及在模型評估中仔細檢查忠實性方面的必要性。
4.Large Language Models: A Survey
標題:大型語言模型:調查
author:Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, Jianfeng Gao
date Time:2024-02-09
paper pdf:http://arxiv.org/pdf/2402.06196v1
摘要:
自 2022 年 11 月 ChatGPT 發布以來,大型語言模型(LLM)因其在各種自然語言任務中的出色表現而備受關注。LLMs 的通用語言理解和生成能力是通過在海量文本數據上訓練數十億個模型參數而獲得的,正如縮放定律所預測的那樣(cite{kaplan2020scaling,hoffmann2022training})。LLM 研究領域雖然剛剛起步,但正在以多種不同的方式迅速發展。在本文中,我們回顧了一些最著名的 LLM,包括三個流行的 LLM 系列(GPT、LLaMA、PaLM),并討論了它們的特點、貢獻和局限性。我們還概述了為構建和增強 LLM 而開發的技術。然后,我們調查了為 LLM 訓練、微調和評估準備的流行數據集,回顧了廣泛使用的 LLM 評估指標,并比較了幾種流行的 LLM 在一組代表性基準上的性能。最后,我們討論了尚未解決的挑戰和未來的研究方向,以此結束本文。
5.Enhancing Zero-shot Counting via Language-guided Exemplar Learning
標題:通過語言引導的范例學習提高零點計數能力
author:Mingjie Wang, Jun Zhou, Yong Dai, Eric Buys, Minglun Gong
date Time:2024-02-08
paper pdf:http://arxiv.org/pdf/2402.05394v1
摘要:
近來,類別無差別計數(CAC)問題因其引人入勝的通用性和優于特定類別計數(CSC)的效率而受到越來越多的關注。本文提出了一種新穎的 ExpressCount,通過深入研究語言引導的范例學習來增強零鏡頭對象計數。具體來說,ExpressCount 由一個創新的語言導向示例感知器和一個下游視覺零點計數管道組成。其中,感知器通過從當前預訓練的大型語言模型(LLM)中繼承豐富的語義先驗,從協作語言視覺信號中挖掘準確的范例線索,而計數管道則通過雙分支和交叉注意方案挖掘細粒度特征,為高質量的相似性學習做出貢獻。除了在流行的 LLM 和視覺計數任務之間架起一座橋梁外,以表達為導向的示例估算還大大提高了對任意類別計數實例的零點學習能力。此外,設計帶有細致語言表達注釋的 FSC-147-Express 還為開發和驗證基于語言的計數模型開辟了新的途徑。廣泛的實驗證明了我們的 ExpressCount 具有最先進的性能,其準確性甚至可以與部分 CSC 模型相媲美。
6.LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors
標題:LLM 遇見 VLM:利用細粒度描述符提升開放詞匯對象檢測能力
author:Sheng Jin, Xueying Jiang, Jiaxing Huang, Lewei Lu, Shijian Lu
date Time:2024-02-07
paper pdf:http://arxiv.org/pdf/2402.04630v1
摘要:
受視覺語言模型(VLM)在圖像分類任務中出色的零誤差能力的啟發,通過將廣泛的 VLM 知識提取到檢測器訓練中,開放詞匯物體檢測吸引了越來越多的關注。然而,大多數現有的開放詞匯檢測器僅通過將區域嵌入與分類標簽(如自行車)對齊來學習,而忽視了視覺語言模型將視覺嵌入與物體部件的細粒度文本描述(如踏板和鈴鐺)對齊的能力。本文介紹的 DVDet 是一種描述符增強型開放詞匯檢測器,它引入了條件上下文提示和分層文本描述符,可實現精確的區域-文本對齊以及一般的開放詞匯檢測訓練。具體來說,條件上下文提示將區域嵌入轉化為類似圖像的表示,可直接集成到一般的開放詞匯檢測訓練中。此外,我們還引入了大型語言模型作為交互式隱式知識庫,從而能夠迭代挖掘和完善視覺導向的文本描述符,實現精確的區域-文本對齊。在多個大規模基準測試中進行的廣泛實驗表明,DVDet 的性能始終遠遠優于最先進的技術。
7.MEMORYLLM: Towards Self-Updatable Large Language Models
標題:MEMORYLLM:實現可自我更新的大型語言模型
author:Yu Wang, Xiusi Chen, Jingbo Shang, Julian McAuley
date Time:2024-02-07
paper pdf:http://arxiv.org/pdf/2402.04624v1
摘要:
現有的大型語言模型(LLM)在部署后通常保持靜態,這可能會導致很難向模型中注入新知識。我們的目標是建立包含大量可自我更新參數的模型,使模型能夠有效、高效地整合新知識。為此,我們引入了 MEMORYLLM,這是一個由變壓器和變壓器潛空間內固定大小的內存池組成的模型。MEMORYLLM 可以根據文本知識進行自我更新,并記憶之前注入的知識。我們的評估結果表明,MEMORYLLM 能夠有效地吸收新知識,這一點可以從它在模型編輯基準測試中的表現得到證明。同時,該模型還具有長期信息保留能力,這一點通過我們定制的評估和長語境基準得到了驗證。MEMORYLLM 還顯示了運行的完整性,即使經過近百萬次內存更新,也沒有任何性能下降的跡象。
8.Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains
標題:標簽-LLM:將通用 LLM 重用于專業領域
author:Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi
date Time:2024-02-06
paper pdf:http://arxiv.org/pdf/2402.05140v1
摘要:
大型語言模型(LLM)在理解和生成自然語言方面表現出了非凡的能力。然而,在預訓練語料庫中代表性不足的高度專業化領域,如物理和生物醫學領域,它們的能力就會減弱。這項研究探討了如何將通用 LLMs 改造成專業領域的有效任務求解器。我們引入了一個新穎的、與模型無關的框架,用于學習自定義輸入標簽,這些標簽被參數化為連續向量,附加到 LLM 的嵌入層,以調節 LLM。我們設計了兩類輸入標簽:領域標簽用于限定專業表述(如化學公式)并提供與領域相關的上下文;功能標簽用于表示特定功能(如預測分子特性)并壓縮功能求解指令。我們開發了一種三階段協議,利用輔助數據和領域知識來學習這些標簽。通過明確地將任務域與任務功能分開,我們的方法可以通過輸入標簽的不同組合,實現對未見問題的零點泛化。它還提高了 LLM 在各種專業領域的性能,如預測蛋白質或化學性質以及模擬藥物與靶標的相互作用,其表現優于為這些任務量身定制的專家模型。
9.Training Language Models to Generate Text with Citations via Fine-grained Rewards
標題:訓練語言模型,通過細粒度獎勵生成帶引文的文本
author:Chengyu Huang, Zeqiu Wu, Yushi Hu, Wenya Wang
date Time:2024-02-06
paper pdf:http://arxiv.org/pdf/2402.04315v1
摘要:
雖然最近的大型語言模型(LLM)已被證明在回答用戶查詢方面非常有用,但它們容易產生幻覺,而且由于缺少可靠來源的引用,它們的回答往往缺乏可信度。解決這些問題的一個直觀辦法是在文中引用外部文件作為證據。雖然以前的工作直接促使 LLM 生成內文引文,但其性能遠不能令人滿意,尤其是在涉及較小的 LLM 時。在這項工作中,我們提出了一種有效的訓練框架,利用細粒度獎勵來教會 LLM 生成高度支持性和相關性的引文,同時確保其回答的正確性。我們還對將這些細粒度獎勵應用于常見的 LLM 培訓策略進行了系統分析,證明了其相對于傳統做法的優勢。我們在取自 ALCE 基準的問題解答 (QA) 數據集上進行了廣泛的實驗,并使用 EXPERTQA 驗證了模型的通用性。在 LLaMA-2-7B 上,細粒度獎勵的加入實現了基線中最好的性能,甚至超過了 GPT-3.5-turbo 的性能。
10.RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents
標題:RAP:多模態 LLM 代理的檢索-增強規劃與上下文記憶
author:Tomoyuki Kagaya, Thong Jing Yuan, Yuxuan Lou, Jayashree Karlekar, Sugiri Pranata, Akira Kinose, Koki Oguri, Felix Wick, Yang You
date Time:2024-02-06
paper pdf:http://arxiv.org/pdf/2402.03610v1
摘要:
由于最近的進步,大型語言模型(LLM)現在可以作為代理部署在機器人、游戲和應用程序接口集成等領域日益復雜的決策應用中。然而,將過去的經驗反映到當前的決策過程中這一人類與生俱來的行為仍面臨著巨大的挑戰。針對這一問題,我們提出了檢索-增強規劃(RAP)框架,旨在動態利用與當前情況和上下文相對應的過去經驗,從而增強代理的規劃能力。RAP 的與眾不同之處在于它的多功能性:它在純文本和多模態環境中都表現出色,因此適用于各種任務。實證評估證明了 RAP 的有效性,它在文本場景中實現了 SOTA 性能,并顯著提高了多模態 LLM 代理執行具身任務的性能。這些結果凸顯了 RAP 在提高 LLM 代理在復雜的真實世界應用中的功能和適用性方面的潛力。
11.LB-KBQA: Large-language-model and BERT based Knowledge-Based Question and Answering System
標題:LB-KBQA:基于大語言模型和 BERT 的知識型問答系統
author:Yan Zhao, Zhongyun Li, Yushan Pan, Jiaxing Wang, Yihong Wang
date Time:2024-02-05
paper pdf:http://arxiv.org/pdf/2402.05130v2
摘要:
生成式人工智能(AI)因其新興的能力,為各個領域注入了活力,其中一個典型的領域就是大型語言模型(LLM)。大型語言模型(LLM)是生成式人工智能的典型應用領域之一,與傳統的人工智能方法相比,LLM 的自然語言理解能力得到了顯著提高。自然語言理解能力一直是影響基于知識的問答系統(KBQA)意圖識別性能的一個障礙,其原因在于語言的多樣性和新出現的意圖。傳統的基于人工智能的意圖識別方法可分為基于語義解析的方法和基于模型的方法。然而,這兩種方法在意圖識別方面都存在資源有限的問題。針對這一問題,我們提出了一種基于大語言模型(LLM)和 BERT 的新型 KBQA 系統(LB-KBQA)。在生成式人工智能的幫助下,我們提出的方法可以檢測新出現的意圖并獲取新知識。在金融領域的問題解答實驗中,我們的模型表現出了卓越的功效。
12.Enhancing Textbook Question Answering Task with Large Language Models and Retrieval Augmented Generation
標題:利用大型語言模型和檢索增強生成技術強化教科書答題任務
author:Hessa Abdulrahman Alawwad, Areej Alhothali, Usman Naseem, Ali Alkhathlan, Amani Jamal
date Time:2024-02-05
paper pdf:http://arxiv.org/pdf/2402.05128v2
摘要:
由于上下文和多模態數據的復雜性,教科書問題解答(TQA)是人工智能領域一項具有挑戰性的任務。雖然以往的研究已大大改進了這項任務,但仍存在一些局限性,包括模型的推理能力較弱以及無法捕捉冗長語境中的上下文信息。大型語言模型(LLM)的引入給人工智能領域帶來了革命性的變化,然而,直接應用 LLM 往往會導致答案不準確。本文提出了一種方法,通過結合檢索增強生成(RAG)技術和利用遷移學習來處理冗長的上下文并增強推理能力,從而處理 TQA 中概念分散在不同課程中的域外場景。通過對 LLM 模型 Llama-2 進行有監督的微調并結合 RAG,我們的架構優于基線,在非圖表選擇題的驗證集上提高了 4.12% 的準確率,在測試集上提高了 9.84% 的準確率。