論文略讀:Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

202406 arxiv

1 intro

  • 傳統上,復雜的AI任務需要多個專門系統協作完成。
    • 這類系統通常需要獨立的模塊來進行信息檢索、問答和數據庫查詢等任務
  • 大模型時代,尤其是上下文語言模型(LCLM)時代,上述問題可以“一體化”完成
    • LCLM可以直接接收包含文本、圖像、音頻等多模態信息的整個語料庫作為輸入。
    • 通過"語料庫中的上下文"(CiC)提示方法,模型能夠在統一的框架內執行各種任務,包括檢索、推理和答案生成
    • ——>大大簡化了流程
    • ——>避免了多個獨立系統可能帶來的錯誤累積問題

  • 然而,評估這些模型的性能并不容易。現有的方法往往局限于特定任務,難以全面測試長上下文模型的能力
    • ——>論文提出了LOFT(Long-Context Frontiers)基準測試
      • 包含6種任務類型,涵蓋35個數據集,橫跨文本、視覺和音頻多個模態
        • 文本檢索:從大量文檔中找出相關內容

        • 視覺檢索:根據文本描述找出相關圖像或視頻

        • 音頻檢索:匹配文本與相應音頻

        • RAG:基于檢索信息生成答案

        • SQL:理解自然語言查詢并從數據庫中提取信息

        • 多示例上下文學習:從大量示例中學習并完成任務

      • LOFT的一個關鍵特性是其可擴展性

        • 支持從32k到128k,再到1M個標記的上下文長度

        • ——>能夠系統地評估模型性能隨上下文長度增加的變化

2?Corpus-in-Context prompt

  • 為了充分發揮長上下文模型的潛力,研究團隊提出了"上下文中的語料庫"(Corpus-in-Context,CiC)提示方法
    • 這種方法允許模型直接在給定的大規模語料庫中進行檢索和推理

3 實驗結果

3.1 評估的模型

  • 評估了三個最先進的長上下文模型:
    • Google的Gemini 1.5 Pro
    • OpenAI的GPT-4o
    • Anthropic的Claude 3 Opus

3.2文本檢索任務

  • 在文本檢索任務中,Gemini 1.5 Pro的表現尤為出色。
  • 在128k上下文長度的測試中,Gemini 1.5 Pro在多個數據集上達到了與專門訓練的檢索系統Gecko相當的性能。
    • 例如,在NQ數據集上,Gemini 1.5 Pro和Gecko都達到了0.99的Recall@1分數,而Gemini 1.5 Pro并沒有經過專門的檢索訓練。

  • 然而,隨著上下文長度增加到1M標記,模型性能出現了一定程度的下降。這表明在處理超長上下文時,模型仍面臨著挑戰。

3.3?視覺檢索 &音頻檢索

  • 在視覺檢索任務中,Gemini 1.5 Pro同樣表現出優異的性能表現。
    • 其在多個數據集上超越了專門的視覺-文本檢索模型CLIP。
    • 例如,在OVEN數據集上,Gemini 1.5 Pro達到了0.93的分數,而CLIP只有0.79。
  • 在音頻檢索任務上,Gemini 1.5 Pro在所有五種語言的FLEURS數據集上都達到了完美或接近完美的表現,超過了專門的音頻檢索模型。

3.4 RAG

  • 在RAG任務中,長上下文模型展現出了強大的推理能力。
    • 在需要多跳推理的數據集(如HotpotQA和MusiQue)上,Gemini 1.5 Pro的表現超過了傳統的RAG pipeline。
    • 例如,在HotpotQA上,Gemini 1.5 Pro得分為0.75,而專業的RAG系統得分為0.70。

3.5 SQL任務

  • 在SQL類任務中,長上下文模型的表現相對較弱。
  • 在Spider和SparC數據集上,專門的SQL系統的性能顯著優于長上下文模型。
    • 這表明在處理需要復雜結構化推理的任務時,這些模型還有很大的改進空間。

3.6多示例上下文學習

  • 在多示例上下文學習任務中,長上下文模型展現出了良好的表現。
    • 在某些任務中(如LIB-dialog),模型的性能隨著示例數量的增加而穩步提升。?
    • 然而,在一些推理密集型任務中(如BBH-tracking7),增加示例數量并未帶來顯著改善,這表明模型在復雜推理任務上仍有局限性。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/42458.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/42458.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/42458.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【程序大俠傳】大表分庫分表切換數據庫類型導致pagehelper生成sql語法報錯

前序 代碼劍宗等級分明,其門下弟子等級劃分如下: 入門弟子 剛剛拜入代碼劍宗,學習基礎編程語言和基本劍法(語法和基礎概念)。他們的代碼還顯得生澀,但已經開始展現出對優雅代碼的追求。 江湖小蝦 初步掌握…

《python程序語言設計》2018版第5章第53題利用turtle繪制sin和cos函數 sin藍色,cos紅色和52題類似

直接上題和代碼 5.53 (Turtle:繪制sin和cos函數)編寫程序繪制藍色的sin函數和紅色的cos函數。 代碼和結果 turtle.speed(10) turtle.penup() # sin 用藍色 turtle.color("blue") #這道題和上道題一樣,先把turtle放到起始…

架構面試-數據庫優化問題

文章目錄 如何定位慢查詢1. 開啟慢查詢日志MySQL示例:PostgreSQL示例: 2. 分析慢查詢日志MySQL:PostgreSQL: 3. 使用數據庫性能工具MySQL:PostgreSQL: 4. 優化慢查詢5. 監控與持續優化 sql語句執行的很慢&a…

從0到1制作單只鰲蝦運動軌跡追蹤軟件

前言 需要準備windows10操作系統,python3.11.9,cuDNN8.9.2.26,CUDA11.8,paddleDetection2.7 流程: 準備數據集-澳洲鰲蝦VOC數據集 基于RT-DETR目標檢測模型訓練導出onnx模型進行python部署平滑濾波處理視頻幀保留的…

簡介時間復雜度

好了,今天我們來了解一下,我們在做練習題中常出現的一個名詞。時間復雜度。我相信大家如果有在練習過題目的話。對這個名詞應該都不陌生吧。但是可能很少的去思考它是干什么的代表的什么意思。反正我以前練習的時候就是這樣。我只知道有這么一個名詞在題…

【全面講解下iPhone新機官網驗機流程】

🎥博主:程序員不想YY啊 💫CSDN優質創作者,CSDN實力新星,CSDN博客專家 🤗點贊🎈收藏?再看💫養成習慣 ?希望本文對您有所裨益,如有不足之處,歡迎在評論區提出…

MybatisPlus實現插入/修改數據自動設置時間

引言 插入數據時自動設置當前時間,更新數據時自動修改日期為修改時的日期。 使用MybatisPlus的擴展接口MetaObjectHandler 步驟 實現接口 實體類加注解 實現接口 package com.example.vueelementson.common;import com.baomidou.mybatisplus.core.handlers.M…

C++ 模版進階

目錄 前言 1. 非類型模版參數 1.1 概念與講解 1.2 array容器 2. 模版的特化 2.1 概念 2.2 函數模版特化 2.3 類模版特化 2.3.1 全特化 2.3.2 偏特化 3.模版的編譯分離 3.1 什么是分離編譯 3.2 模版的分離編譯 3.3 解決方法 4. 模版總結 總結 前言 本篇文章主要…

包/final/權限修飾符/代碼塊

包package 1、包的作用 包用來管理不同的類。 2、包名 包名要全部小寫,一般是域名反寫,如com.liu。在Java中,java解釋器會將package中的.解釋為目錄分隔符/,也就是說該文件的目錄結構為:...com/liu/... 3、全類名…

1.pwn的匯編基礎(提及第一個溢出:整數溢出)

匯編掌握程度 能看懂就行,絕大多數情況不需要真正的編程(shellcode題除外) 其實有時候也不需要讀匯編,ida F5 通常都是分析gadget,知道怎么用, 調試程序也不需要分析每一條匯編指令,單步執行然后查看寄存器狀態即可 但…

Text2SQL提問中包括時間的實戰方案

大家好,我是herosunly。985院校碩士畢業,現擔任算法研究員一職,熱衷于機器學習算法研究與應用。曾獲得阿里云天池比賽第一名,CCF比賽第二名,科大訊飛比賽第三名。擁有多項發明專利。對機器學習和深度學習擁有自己獨到的見解。曾經輔導過若干個非計算機專業的學生進入到算法…

實現多數相加,但是傳的參不固定

一、情景 一般實現的加法和減法等簡單的相加減函數的話。一般都是寫好固定傳的參數。比如: function add(a,b) {return a b;} 這是固定的傳入倆個,如果是三個呢,有人說當然好辦! 這樣寫不就行了! function add(a…

vue中自定義設置多語言(包括使用vue-i18n),并且運行js腳本自動生成多語言文件

在項目中需要進行多個國家語言的切換時,可以用到下面方法其中一個 一、自定義設置多語言 方法一: 可以自己編寫一個設置多語言文件 在項目新建js文件,命名為:language.js,代碼如下 // language.js 文檔 let languagePage {CN…

聊一下Maven打包的問題(jar要發布)

文章目錄 一、問題和現象二、解決方法(1)方法一、maven-jar-pluginmaven-dependency-plugin(2)方法二、maven-assembly-plugin 一、問題和現象 現在的開發一直都是用spring boot,突然有一天,要自己開發一個…

Django之項目開發(二)

目錄 一、安裝和使用uWSGI 1.1、安裝 1.2、配置文件 1.3、啟動與停止uwsgi 二、安裝nginx 三、Nginx 配置uWSGI 四、Nginx配置靜態文件 五、Nginx配置負載均衡 一、安裝和使用uWSGI uWSGI 是一個 Web 服務器,可以用來部署 Python Web 應用。它是一個高性能的通用的 We…

味蕾與理解:應對自閉癥兒童挑食的策略與理解

在星貝育園自閉癥康復學校,我們深知飲食習慣對孩子們的成長至關重要,而自閉癥兒童的挑食問題往往比同齡兒童更為突出,給家長和照顧者帶來了額外的挑戰。今天,作為這里的老師,我想與大家分享一些應對自閉癥兒童挑食的策…

(南京觀海微電子)——電阻應用及選取

什么是電阻? 電阻是描述導體導電性能的物理量,用R表示。 電阻由導體兩端的電壓U與通過導體的電流I的比值來定義,即: 所以,當導體兩端的電壓一定時,電阻愈大,通過的電流就愈小;反之&…

鴻蒙應用實踐:利用扣子API開發起床文案生成器

前言 扣子是一個新一代 AI 應用開發平臺,無需編程基礎即可快速搭建基于大模型的 Bot,并發布到各個渠道。平臺優勢包括無限拓展的能力集(內置和自定義插件)、豐富的數據源(支持多種數據格式和上傳方式)、持…

[Unity入門01] Unity基本操作

參考的傅老師的教程學了一下Unity的基礎操作: [傅老師/Unity教學] Unity3D基礎入門 [華梵大學] 遊戲引擎應用基礎(Unity版本) Class#01 移動:鼠標中鍵旋轉:鼠標右鍵放大:鼠標滾輪飛行模式:右鍵WASDQEFocus模式&…

算法設計與分析 實驗5 并查集法求圖論橋問題

目錄 一、實驗目的 二、問題描述 三、實驗要求 四、實驗內容 (一)基準算法 (二)高效算法 五、實驗結論 一、實驗目的 1. 掌握圖的連通性。 2. 掌握并查集的基本原理和應用。 二、問題描述 在圖論中,一條邊被稱…