AI推介-大語言模型LLMs論文速覽(arXiv方向):2024.02.05-2024.02.10

相關LLMs論文大多都是應用型文章,少部分是優化prompt/參數量級等等…
有一些應用文還是值得參考的,當工作面臨一個新的場景,可以學習下他人是如何結合LLMs與實際應用中的鏈接。

LLMs論文速覽:2024.02.05-2024.02.10:

1.EntGPT: Linking Generative Large Language Models with Knowledge Bases

標題:EntGPT:將生成式大型語言模型與知識庫聯系起來

author:Yifan Ding, Amrit Poudel, Qingkai Zeng, Tim Weninger, Balaji Veeramani, Sanmitra Bhattacharya

date Time:2024-02-09

paper pdf:http://arxiv.org/pdf/2402.06738v1

摘要
由于在訓練和推理過程中缺乏事實檢查和知識基礎,大型語言模型(LLM)生成事實正確輸出結果的能力相對來說仍有待探索。在這項工作中,我們旨在通過實體消歧(ED)任務來應對這一挑戰。我們首先考慮了提示工程,并設計了一種三步硬提示方法,在沒有監督微調(SFT)的情況下探測 LLM 的 ED 性能。總體而言,提示方法大大提高了原始 vanilla 模型的 micro-F_1 分數,在某些情況下甚至高達 36% 以上,并且在 10 個數據集上獲得了與使用 SFT 的現有方法相當的性能。我們通過使用類似提示和回復的指令調整(IT)進一步提高了知識基礎能力。與幾種基線方法相比,經過指令調整的模型不僅在有監督的實體消歧任務中獲得了更高的 micro-F1 分數性能,與現有基線模型相比,micro-F_1 平均提高了 2.1%,而且還在六種問題解答(QA)任務中獲得了更高的零拍攝準確率。我們的方法同時適用于開源和閉源 LLM。

2.NICE: To Optimize In-Context Examples or Not?

標題:NICE:到底要不要優化上下文示例?

author:Pragya Srivastava, Satvik Golechha, Amit Deshpande, Amit Sharma

date Time:2024-02-09

paper pdf:http://arxiv.org/pdf/2402.06733v2

摘要
最近的研究表明,上下文學習和優化上下文示例(ICE)可以顯著提高大型語言模型(LLMs)在各種任務中的準確性,從而達成了一個明顯的共識,即優化上下文示例對于提高性能至關重要。然而,這些研究大多假定提示中提供的指令是固定的或沒有指令。我們挑戰了這一共識,研究了在提供特定任務指令時優化 ICE 的必要性,并發現在某些任務中,優化 ICE 的收益會遞減。我們發現,隨著提示指令變得越來越詳細,優化 ICE 的收益也越來越小。為了描述這種行為,我們引入了一種針對特定任務的指標,稱為 “對示例選擇的歸一化不變性”(NICE),它可以量化任務從給定指令中的可學習性,并提供一種啟發式方法,幫助決定是優化指令還是優化新任務的 ICE。在給定任務的情況下,與使用隨機 ICE 相比,所提出的指標可以可靠地預測優化 ICE 的效用。

3.The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

標題:生成式人工智能在評估方面的悖論:它能解決的問題可能無法評估

author:Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh

date Time:2024-02-09

paper pdf:http://arxiv.org/pdf/2402.06204v1

摘要
本文探討了這樣一種假設,即擅長生成任務的大型語言模型(LLM)與評估者具有同等能力。我們使用 TriviaQA(Joshi 等人,2017 年)數據集評估了三個 LLM 和一個開源 LM 在問題解答(QA)和評估任務中的表現。結果表明,與生成任務相比,LLM 在評估任務中表現出了較低的性能,兩者之間存在明顯的差距。耐人尋味的是,我們發現了不忠實評價的情況,即模型在其缺乏能力的領域準確地評價了答案,這突出表明有必要研究 LLM 作為評價者的忠實性和可信度。這項研究有助于人們理解 “生成式人工智能悖論”(West 等人,2023 年),強調了探索卓越生成與評估能力之間的相關性的必要性,以及在模型評估中仔細檢查忠實性方面的必要性。

4.Large Language Models: A Survey

標題:大型語言模型:調查

author:Shervin Minaee, Tomas Mikolov, Narjes Nikzad, Meysam Chenaghlu, Richard Socher, Xavier Amatriain, Jianfeng Gao

date Time:2024-02-09

paper pdf:http://arxiv.org/pdf/2402.06196v1

摘要
自 2022 年 11 月 ChatGPT 發布以來,大型語言模型(LLM)因其在各種自然語言任務中的出色表現而備受關注。LLMs 的通用語言理解和生成能力是通過在海量文本數據上訓練數十億個模型參數而獲得的,正如縮放定律所預測的那樣(cite{kaplan2020scaling,hoffmann2022training})。LLM 研究領域雖然剛剛起步,但正在以多種不同的方式迅速發展。在本文中,我們回顧了一些最著名的 LLM,包括三個流行的 LLM 系列(GPT、LLaMA、PaLM),并討論了它們的特點、貢獻和局限性。我們還概述了為構建和增強 LLM 而開發的技術。然后,我們調查了為 LLM 訓練、微調和評估準備的流行數據集,回顧了廣泛使用的 LLM 評估指標,并比較了幾種流行的 LLM 在一組代表性基準上的性能。最后,我們討論了尚未解決的挑戰和未來的研究方向,以此結束本文。

5.Enhancing Zero-shot Counting via Language-guided Exemplar Learning

標題:通過語言引導的范例學習提高零點計數能力

author:Mingjie Wang, Jun Zhou, Yong Dai, Eric Buys, Minglun Gong

date Time:2024-02-08

paper pdf:http://arxiv.org/pdf/2402.05394v1

摘要
近來,類別無差別計數(CAC)問題因其引人入勝的通用性和優于特定類別計數(CSC)的效率而受到越來越多的關注。本文提出了一種新穎的 ExpressCount,通過深入研究語言引導的范例學習來增強零鏡頭對象計數。具體來說,ExpressCount 由一個創新的語言導向示例感知器和一個下游視覺零點計數管道組成。其中,感知器通過從當前預訓練的大型語言模型(LLM)中繼承豐富的語義先驗,從協作語言視覺信號中挖掘準確的范例線索,而計數管道則通過雙分支和交叉注意方案挖掘細粒度特征,為高質量的相似性學習做出貢獻。除了在流行的 LLM 和視覺計數任務之間架起一座橋梁外,以表達為導向的示例估算還大大提高了對任意類別計數實例的零點學習能力。此外,設計帶有細致語言表達注釋的 FSC-147-Express 還為開發和驗證基于語言的計數模型開辟了新的途徑。廣泛的實驗證明了我們的 ExpressCount 具有最先進的性能,其準確性甚至可以與部分 CSC 模型相媲美。

6.LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors

標題:LLM 遇見 VLM:利用細粒度描述符提升開放詞匯對象檢測能力

author:Sheng Jin, Xueying Jiang, Jiaxing Huang, Lewei Lu, Shijian Lu

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04630v1

摘要
受視覺語言模型(VLM)在圖像分類任務中出色的零誤差能力的啟發,通過將廣泛的 VLM 知識提取到檢測器訓練中,開放詞匯物體檢測吸引了越來越多的關注。然而,大多數現有的開放詞匯檢測器僅通過將區域嵌入與分類標簽(如自行車)對齊來學習,而忽視了視覺語言模型將視覺嵌入與物體部件的細粒度文本描述(如踏板和鈴鐺)對齊的能力。本文介紹的 DVDet 是一種描述符增強型開放詞匯檢測器,它引入了條件上下文提示和分層文本描述符,可實現精確的區域-文本對齊以及一般的開放詞匯檢測訓練。具體來說,條件上下文提示將區域嵌入轉化為類似圖像的表示,可直接集成到一般的開放詞匯檢測訓練中。此外,我們還引入了大型語言模型作為交互式隱式知識庫,從而能夠迭代挖掘和完善視覺導向的文本描述符,實現精確的區域-文本對齊。在多個大規模基準測試中進行的廣泛實驗表明,DVDet 的性能始終遠遠優于最先進的技術。

7.MEMORYLLM: Towards Self-Updatable Large Language Models

標題:MEMORYLLM:實現可自我更新的大型語言模型

author:Yu Wang, Xiusi Chen, Jingbo Shang, Julian McAuley

date Time:2024-02-07

paper pdf:http://arxiv.org/pdf/2402.04624v1

摘要
現有的大型語言模型(LLM)在部署后通常保持靜態,這可能會導致很難向模型中注入新知識。我們的目標是建立包含大量可自我更新參數的模型,使模型能夠有效、高效地整合新知識。為此,我們引入了 MEMORYLLM,這是一個由變壓器和變壓器潛空間內固定大小的內存池組成的模型。MEMORYLLM 可以根據文本知識進行自我更新,并記憶之前注入的知識。我們的評估結果表明,MEMORYLLM 能夠有效地吸收新知識,這一點可以從它在模型編輯基準測試中的表現得到證明。同時,該模型還具有長期信息保留能力,這一點通過我們定制的評估和長語境基準得到了驗證。MEMORYLLM 還顯示了運行的完整性,即使經過近百萬次內存更新,也沒有任何性能下降的跡象。

8.Tag-LLM: Repurposing General-Purpose LLMs for Specialized Domains

標題:標簽-LLM:將通用 LLM 重用于專業領域

author:Junhong Shen, Neil Tenenholtz, James Brian Hall, David Alvarez-Melis, Nicolo Fusi

date Time:2024-02-06

paper pdf:http://arxiv.org/pdf/2402.05140v1

摘要
大型語言模型(LLM)在理解和生成自然語言方面表現出了非凡的能力。然而,在預訓練語料庫中代表性不足的高度專業化領域,如物理和生物醫學領域,它們的能力就會減弱。這項研究探討了如何將通用 LLMs 改造成專業領域的有效任務求解器。我們引入了一個新穎的、與模型無關的框架,用于學習自定義輸入標簽,這些標簽被參數化為連續向量,附加到 LLM 的嵌入層,以調節 LLM。我們設計了兩類輸入標簽:領域標簽用于限定專業表述(如化學公式)并提供與領域相關的上下文;功能標簽用于表示特定功能(如預測分子特性)并壓縮功能求解指令。我們開發了一種三階段協議,利用輔助數據和領域知識來學習這些標簽。通過明確地將任務域與任務功能分開,我們的方法可以通過輸入標簽的不同組合,實現對未見問題的零點泛化。它還提高了 LLM 在各種專業領域的性能,如預測蛋白質或化學性質以及模擬藥物與靶標的相互作用,其表現優于為這些任務量身定制的專家模型。

9.Training Language Models to Generate Text with Citations via Fine-grained Rewards

標題:訓練語言模型,通過細粒度獎勵生成帶引文的文本

author:Chengyu Huang, Zeqiu Wu, Yushi Hu, Wenya Wang

date Time:2024-02-06

paper pdf:http://arxiv.org/pdf/2402.04315v1

摘要
雖然最近的大型語言模型(LLM)已被證明在回答用戶查詢方面非常有用,但它們容易產生幻覺,而且由于缺少可靠來源的引用,它們的回答往往缺乏可信度。解決這些問題的一個直觀辦法是在文中引用外部文件作為證據。雖然以前的工作直接促使 LLM 生成內文引文,但其性能遠不能令人滿意,尤其是在涉及較小的 LLM 時。在這項工作中,我們提出了一種有效的訓練框架,利用細粒度獎勵來教會 LLM 生成高度支持性和相關性的引文,同時確保其回答的正確性。我們還對將這些細粒度獎勵應用于常見的 LLM 培訓策略進行了系統分析,證明了其相對于傳統做法的優勢。我們在取自 ALCE 基準的問題解答 (QA) 數據集上進行了廣泛的實驗,并使用 EXPERTQA 驗證了模型的通用性。在 LLaMA-2-7B 上,細粒度獎勵的加入實現了基線中最好的性能,甚至超過了 GPT-3.5-turbo 的性能。

10.RAP: Retrieval-Augmented Planning with Contextual Memory for Multimodal LLM Agents

標題:RAP:多模態 LLM 代理的檢索-增強規劃與上下文記憶

author:Tomoyuki Kagaya, Thong Jing Yuan, Yuxuan Lou, Jayashree Karlekar, Sugiri Pranata, Akira Kinose, Koki Oguri, Felix Wick, Yang You

date Time:2024-02-06

paper pdf:http://arxiv.org/pdf/2402.03610v1

摘要
由于最近的進步,大型語言模型(LLM)現在可以作為代理部署在機器人、游戲和應用程序接口集成等領域日益復雜的決策應用中。然而,將過去的經驗反映到當前的決策過程中這一人類與生俱來的行為仍面臨著巨大的挑戰。針對這一問題,我們提出了檢索-增強規劃(RAP)框架,旨在動態利用與當前情況和上下文相對應的過去經驗,從而增強代理的規劃能力。RAP 的與眾不同之處在于它的多功能性:它在純文本和多模態環境中都表現出色,因此適用于各種任務。實證評估證明了 RAP 的有效性,它在文本場景中實現了 SOTA 性能,并顯著提高了多模態 LLM 代理執行具身任務的性能。這些結果凸顯了 RAP 在提高 LLM 代理在復雜的真實世界應用中的功能和適用性方面的潛力。

11.LB-KBQA: Large-language-model and BERT based Knowledge-Based Question and Answering System

標題:LB-KBQA:基于大語言模型和 BERT 的知識型問答系統

author:Yan Zhao, Zhongyun Li, Yushan Pan, Jiaxing Wang, Yihong Wang

date Time:2024-02-05

paper pdf:http://arxiv.org/pdf/2402.05130v2

摘要
生成式人工智能(AI)因其新興的能力,為各個領域注入了活力,其中一個典型的領域就是大型語言模型(LLM)。大型語言模型(LLM)是生成式人工智能的典型應用領域之一,與傳統的人工智能方法相比,LLM 的自然語言理解能力得到了顯著提高。自然語言理解能力一直是影響基于知識的問答系統(KBQA)意圖識別性能的一個障礙,其原因在于語言的多樣性和新出現的意圖。傳統的基于人工智能的意圖識別方法可分為基于語義解析的方法和基于模型的方法。然而,這兩種方法在意圖識別方面都存在資源有限的問題。針對這一問題,我們提出了一種基于大語言模型(LLM)和 BERT 的新型 KBQA 系統(LB-KBQA)。在生成式人工智能的幫助下,我們提出的方法可以檢測新出現的意圖并獲取新知識。在金融領域的問題解答實驗中,我們的模型表現出了卓越的功效。

12.Enhancing Textbook Question Answering Task with Large Language Models and Retrieval Augmented Generation

標題:利用大型語言模型和檢索增強生成技術強化教科書答題任務

author:Hessa Abdulrahman Alawwad, Areej Alhothali, Usman Naseem, Ali Alkhathlan, Amani Jamal

date Time:2024-02-05

paper pdf:http://arxiv.org/pdf/2402.05128v2

摘要
由于上下文和多模態數據的復雜性,教科書問題解答(TQA)是人工智能領域一項具有挑戰性的任務。雖然以往的研究已大大改進了這項任務,但仍存在一些局限性,包括模型的推理能力較弱以及無法捕捉冗長語境中的上下文信息。大型語言模型(LLM)的引入給人工智能領域帶來了革命性的變化,然而,直接應用 LLM 往往會導致答案不準確。本文提出了一種方法,通過結合檢索增強生成(RAG)技術和利用遷移學習來處理冗長的上下文并增強推理能力,從而處理 TQA 中概念分散在不同課程中的域外場景。通過對 LLM 模型 Llama-2 進行有監督的微調并結合 RAG,我們的架構優于基線,在非圖表選擇題的驗證集上提高了 4.12% 的準確率,在測試集上提高了 9.84% 的準確率。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/696489.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/696489.shtml
英文地址,請注明出處:http://en.pswp.cn/news/696489.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ESP8266智能家居(2)——8266發布數據到mqtt服務器

1.公共服務器 學習物聯網就離不開服務器,如果你資金充足的話,可以自己購買或者租用一個服務器。本次我選擇,使用免費的公共MQTT服務器。它的端口及Broker信息如下: 網址為: 免費的公共 MQTT 服務器 | EMQ (emqx.com)h…

LLMChain使用 | RouterChain的使用 - 用本地大模型搭建多Agents

單個本地大模型搭建參考博客 單個Chain:面對一個需求,我們需要創建一個llmchain,設置一個prompt模板,這個chain能夠接收一個用戶input,并輸出一個結果;多個Chain:考慮到同時面對多個需求&#x…

動態規劃背包問題

前言 動態規劃背包問題是一類經典的優化問題,涉及到選擇物品以最大化某個目標值(通常是價值或利潤),同時受到某種約束(如重量、體積或時間)。背包問題可以分為多種類型,例如0-1背包問題、完全背…

第三百六十回

文章目錄 1. 概念介紹2. 實現方法2.1 環繞效果2.2 立體效果 3. 示例代碼4. 內容總結 我們在上一章回中介紹了"自定義SlideImageSwitch組件"相關的內容,本章回中將介紹兩種陰影效果.閑話休提,讓我們一起Talk Flutter吧。 1. 概念介紹 我們在本…

設計模式-創建型模式-原型模式

原型模式(Prototype Pattern):使用原型實例指定創建對象的種類,并且通過克隆這些原型創建新的對象。原型模式是一種對象創建型模式。原型模式其實就是從一個對象再創建另外一個可定制的對象,而且不需知道任何創建的細節…

微信小程序開發學習筆記——2.8媒體組件image的src三種引入方式

>>跟著b站up主“咸蝦米_”學習微信小程序開發中,把學習記錄存到這方便后續查找。 課程連接: https://www.bilibili.com/video/BV19G4y1K74d?p11 image:https://developers.weixin.qq.com/miniprogram/dev/component/image.html 一…

如何在Python中執行Shell腳本?

Python執行Shell命令 1、背景概述2、Python集成Shell及數據交互 1、背景概述 Python作為一種強大的腳本語言,其易用性和靈活性使得它成為自動化任務的理想選擇。在Python中執行Shell腳本可以實現一些操作系統級的功能,使程序更加靈活、易理解和易維護 在…

Redis-內存管理

Redis是基于內存存儲的,非關系型,鍵值對數據庫。因此,對Redis來說,內存空間的管理至關重要。那Redis是如何內存管理的呢? 一、最大內存限制 Redis 提供了 maxmemory 參數允許用戶設置 Redis 可以使用的最大內存大小。…

js設計模式:依賴注入模式

作用: 在對象外部完成兩個對象的注入綁定等操作 這樣可以將代碼解耦,方便維護和擴展 vue中使用use注冊其他插件就是在外部創建依賴關系的 示例: class App{constructor(appName,appFun){this.appName appNamethis.appFun appFun}}class Phone{constructor(app) {this.nam…

Elastic Search:構建語義搜索體驗

當你逐步熟悉 Elastic 時,你將使用 Elasticsearch Relevance Engine? (ESRE),該引擎旨在為 AI 搜索應用程序提供支持。 借助 ESRE,你可以利用一套開發人員工具,包括 Elastic 的文本搜索、向量數據庫和我們用于語義搜索的專有轉換…

ngnix網站服務詳解

一 Nginx的簡介 1 Nginx: ①Nginx 是開源、高性能、高可靠的 Web 和反向代理服務器,而且支持熱部署,幾乎可以做到 7 * 24 小時不間斷運行,即使運行幾個月也不需要重新啟動,還能在不間斷服務的情況下對軟件版本進行熱…

2月22日作業,按鍵中斷LED燈控制

1.使用GPIO子系統&#xff0c;編寫LED驅動&#xff0c;應用程序測試 mychrdev.c #include <linux/init.h> #include <linux/module.h> #include <linux/fs.h> #include <linux/uaccess.h> #include <linux/io.h> #include <linux/of.h> …

微軟Azure OpenAI的 GPT 接口使用小結

直接使用OpenAI的 GPT服務&#xff0c;在國內環境使用上會一些相關問題&#xff0c;微軟提供了OpenAI的服務&#xff0c;基本上可以滿足的相關的需要。下面提供一些簡單的使用操作&#xff0c;來讓你快速使用到 GPT 的服務。 前提&#xff1a;注冊Azure的賬戶&#xff0c;并綁…

OpenCV中的normalize函數以及NORM_MINMAX、NORM_INF、NORM_L1、NORM_L2具體應用介紹

在OpenCV中&#xff0c;normalize函數用于將圖像或矩陣的值規范化到一個特定的范圍內。這在圖像處理中非常有用&#xff0c;比如在調整圖像的對比度、準備數據進行機器學習處理時。規范化可以提高不同圖像之間的可比性&#xff0c;或是為了滿足特定算法對數據范圍的要求。 nor…

數的反碼和補碼表示

2.反碼 反碼的表示方法是: 正數的反碼是其本身負數的反碼是在其原碼的基礎上,符號位不變&#xff0c;其余各個位取反 [1][000000011原[000000011反[-1][10000001]原[11111110]反 3.補碼 補碼的表示方法是: 正數的補碼就是其本身 負數的補碼是在其原碼的基礎上,符號位不變,其余各…

36、IO進程線程/進程和線程之間的通信練習

一、使用有名管道完成兩個進程的相互通信(提示&#xff1a;可以使用多進程或多線程完成)。 代碼1&#xff1a;創建兩個有名管道文件 #include<myhead.h>int main(int argc, const char *argv[]) {if(mkfifo("./mingtohua",0664)-1)//創建小明向小華發信息的管…

Stable Diffusion 繪畫入門教程(webui)-ControlNet(深度Depth)

上篇文章介紹了線稿約束&#xff0c;這篇文章介紹下深度Depth 文章目錄 一、選大模型二、寫提示詞三、基礎參數設置四、啟用ControlNet 顧名思義&#xff0c;就是把原圖預處理為深度圖&#xff0c;而深度圖可以區分出圖像中各元素的遠近關系&#xff0c;那么啥事深度圖&#xf…

c/c++ | 字符串函數總結 | 為什么總喜歡糾結sizeof 和strlen 呢?

其實時間長了&#xff0c;稍微研究后&#xff0c;再來品味&#xff0c;別有一番滋味 總是看著混亂&#xff0c;但是靜下來看&#xff0c;還是能琢磨透的&#xff0c;只是看著復雜&#xff0c;本質是兩套風格&#xff0c;然后又要有交集&#xff0c;所以就看起來復雜 // 首先字符…

目標管理SMART原則

SMART原則是一種目標管理方法&#xff0c;它包括以下五個要素&#xff1a; 具體性&#xff08;Specific&#xff09;&#xff1a;目標應該是明確的&#xff0c;具體地說明要達成的行為標準。例如&#xff0c;一個目標可能描述為“減少客戶投訴率”&#xff0c;而不是“增強客戶…

本機防攻擊簡介

定義 在網絡中&#xff0c;存在著大量針對CPU&#xff08;Central Processing Unit&#xff09;的惡意攻擊報文以及需要正常上送CPU的各類報文。針對CPU的惡意攻擊報文會導致CPU長時間繁忙的處理攻擊報文&#xff0c;從而引發其他業務的中斷甚至系統的中斷&#xff1b;大量正常…