論文略讀：Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

論文略讀：Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

diannao/2025/7/9 23:25:32/文章來源:https://blog.csdn.net/qq_40206371/article/details/140248549

202406 arxiv

1 intro

傳統上，復雜的AI任務需要多個專門系統協作完成。
- 這類系統通常需要獨立的模塊來進行信息檢索、問答和數據庫查詢等任務
大模型時代，尤其是上下文語言模型（LCLM）時代，上述問題可以“一體化”完成
- LCLM可以直接接收包含文本、圖像、音頻等多模態信息的整個語料庫作為輸入。
- 通過"語料庫中的上下文"（CiC）提示方法，模型能夠在統一的框架內執行各種任務，包括檢索、推理和答案生成
- ——>大大簡化了流程
- ——>避免了多個獨立系統可能帶來的錯誤累積問題

然而，評估這些模型的性能并不容易。現有的方法往往局限于特定任務，難以全面測試長上下文模型的能力
- ——>論文提出了LOFT（Long-Context Frontiers）基準測試
  - 包含6種任務類型，涵蓋35個數據集，橫跨文本、視覺和音頻多個模態
    - 文本檢索：從大量文檔中找出相關內容
    - 視覺檢索：根據文本描述找出相關圖像或視頻
    - 音頻檢索：匹配文本與相應音頻
    - RAG：基于檢索信息生成答案
    - SQL：理解自然語言查詢并從數據庫中提取信息
    - 多示例上下文學習：從大量示例中學習并完成任務
  - LOFT的一個關鍵特性是其可擴展性
    - 支持從32k到128k，再到1M個標記的上下文長度
    - ——>能夠系統地評估模型性能隨上下文長度增加的變化

2?Corpus-in-Context prompt

為了充分發揮長上下文模型的潛力，研究團隊提出了"上下文中的語料庫"（Corpus-in-Context，CiC）提示方法
- 這種方法允許模型直接在給定的大規模語料庫中進行檢索和推理

3 實驗結果

3.1 評估的模型

評估了三個最先進的長上下文模型：
- Google的Gemini 1.5 Pro
- OpenAI的GPT-4o
- Anthropic的Claude 3 Opus

3.2文本檢索任務

在文本檢索任務中，Gemini 1.5 Pro的表現尤為出色。
在128k上下文長度的測試中，Gemini 1.5 Pro在多個數據集上達到了與專門訓練的檢索系統Gecko相當的性能。
- 例如，在NQ數據集上，Gemini 1.5 Pro和Gecko都達到了0.99的Recall@1分數，而Gemini 1.5 Pro并沒有經過專門的檢索訓練。

然而，隨著上下文長度增加到1M標記，模型性能出現了一定程度的下降。這表明在處理超長上下文時，模型仍面臨著挑戰。

3.3?視覺檢索 &音頻檢索

在視覺檢索任務中，Gemini 1.5 Pro同樣表現出優異的性能表現。
- 其在多個數據集上超越了專門的視覺-文本檢索模型CLIP。
- 例如，在OVEN數據集上，Gemini 1.5 Pro達到了0.93的分數，而CLIP只有0.79。
在音頻檢索任務上，Gemini 1.5 Pro在所有五種語言的FLEURS數據集上都達到了完美或接近完美的表現，超過了專門的音頻檢索模型。

3.4 RAG

在RAG任務中，長上下文模型展現出了強大的推理能力。
- 在需要多跳推理的數據集（如HotpotQA和MusiQue）上，Gemini 1.5 Pro的表現超過了傳統的RAG pipeline。
- 例如，在HotpotQA上，Gemini 1.5 Pro得分為0.75，而專業的RAG系統得分為0.70。

3.5 SQL任務

在SQL類任務中，長上下文模型的表現相對較弱。
在Spider和SparC數據集上，專門的SQL系統的性能顯著優于長上下文模型。
- 這表明在處理需要復雜結構化推理的任務時，這些模型還有很大的改進空間。

3.6多示例上下文學習

在多示例上下文學習任務中，長上下文模型展現出了良好的表現。
- 在某些任務中（如LIB-dialog），模型的性能隨著示例數量的增加而穩步提升。?
- 然而，在一些推理密集型任務中（如BBH-tracking7），增加示例數量并未帶來顯著改善，這表明模型在復雜推理任務上仍有局限性。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/42458.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/42458.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/42458.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

【程序大俠傳】大表分庫分表切換數據庫類型導致pagehelper生成sql語法報錯

【程序大俠傳】大表分庫分表切換數據庫類型導致pagehelper生成sql語法報錯

前序代碼劍宗等級分明，其門下弟子等級劃分如下： 入門弟子剛剛拜入代碼劍宗，學習基礎編程語言和基本劍法（語法和基礎概念）。他們的代碼還顯得生澀，但已經開始展現出對優雅代碼的追求。江湖小蝦初步掌握…

閱讀更多...

《python程序語言設計》2018版第5章第53題利用turtle繪制sin和cos函數 sin藍色，cos紅色和52題類似

《python程序語言設計》2018版第5章第53題利用turtle繪制sin和cos函數 sin藍色，cos紅色和52題類似

直接上題和代碼 5.53 （Turtle：繪制sin和cos函數）編寫程序繪制藍色的sin函數和紅色的cos函數。代碼和結果 turtle.speed(10) turtle.penup() # sin 用藍色 turtle.color("blue") #這道題和上道題一樣，先把turtle放到起始…

閱讀更多...

架構面試-數據庫優化問題

架構面試-數據庫優化問題

文章目錄如何定位慢查詢1. 開啟慢查詢日志MySQL示例：PostgreSQL示例： 2. 分析慢查詢日志MySQL：PostgreSQL： 3. 使用數據庫性能工具MySQL：PostgreSQL： 4. 優化慢查詢5. 監控與持續優化 sql語句執行的很慢&a…

閱讀更多...

從0到1制作單只鰲蝦運動軌跡追蹤軟件

從0到1制作單只鰲蝦運動軌跡追蹤軟件

前言需要準備windows10操作系統，python3.11.9，cuDNN8.9.2.26，CUDA11.8，paddleDetection2.7 流程： 準備數據集-澳洲鰲蝦VOC數據集基于RT-DETR目標檢測模型訓練導出onnx模型進行python部署平滑濾波處理視頻幀保留的…

閱讀更多...

簡介時間復雜度

簡介時間復雜度

好了，今天我們來了解一下，我們在做練習題中常出現的一個名詞。時間復雜度。我相信大家如果有在練習過題目的話。對這個名詞應該都不陌生吧。但是可能很少的去思考它是干什么的代表的什么意思。反正我以前練習的時候就是這樣。我只知道有這么一個名詞在題…

閱讀更多...

【全面講解下iPhone新機官網驗機流程】

【全面講解下iPhone新機官網驗機流程】

🎥博主：程序員不想YY啊 💫CSDN優質創作者，CSDN實力新星，CSDN博客專家 🤗點贊🎈收藏?再看💫養成習慣 ?希望本文對您有所裨益，如有不足之處，歡迎在評論區提出…

閱讀更多...

MybatisPlus實現插入/修改數據自動設置時間

MybatisPlus實現插入/修改數據自動設置時間

引言插入數據時自動設置當前時間，更新數據時自動修改日期為修改時的日期。使用MybatisPlus的擴展接口MetaObjectHandler 步驟實現接口實體類加注解實現接口 package com.example.vueelementson.common;import com.baomidou.mybatisplus.core.handlers.M…

閱讀更多...

C++ 模版進階

C++ 模版進階

目錄前言 1. 非類型模版參數 1.1 概念與講解 1.2 array容器 2. 模版的特化 2.1 概念 2.2 函數模版特化 2.3 類模版特化 2.3.1 全特化 2.3.2 偏特化 3.模版的編譯分離 3.1 什么是分離編譯 3.2 模版的分離編譯 3.3 解決方法 4. 模版總結總結前言本篇文章主要…

閱讀更多...

包/final/權限修飾符/代碼塊

包/final/權限修飾符/代碼塊

包package 1、包的作用包用來管理不同的類。 2、包名包名要全部小寫，一般是域名反寫，如com.liu。在Java中，java解釋器會將package中的.解釋為目錄分隔符/，也就是說該文件的目錄結構為：...com/liu/... 3、全類名…

閱讀更多...

1.pwn的匯編基礎（提及第一個溢出：整數溢出）

1.pwn的匯編基礎（提及第一個溢出：整數溢出）

匯編掌握程度能看懂就行，絕大多數情況不需要真正的編程(shellcode題除外) 其實有時候也不需要讀匯編，ida F5 通常都是分析gadget，知道怎么用， 調試程序也不需要分析每一條匯編指令，單步執行然后查看寄存器狀態即可但…

閱讀更多...

Text2SQL提問中包括時間的實戰方案

Text2SQL提問中包括時間的實戰方案

大家好，我是herosunly。985院校碩士畢業，現擔任算法研究員一職，熱衷于機器學習算法研究與應用。曾獲得阿里云天池比賽第一名，CCF比賽第二名，科大訊飛比賽第三名。擁有多項發明專利。對機器學習和深度學習擁有自己獨到的見解。曾經輔導過若干個非計算機專業的學生進入到算法…

閱讀更多...

實現多數相加，但是傳的參不固定

實現多數相加，但是傳的參不固定

一、情景一般實現的加法和減法等簡單的相加減函數的話。一般都是寫好固定傳的參數。比如： function add(a,b) {return a b;} 這是固定的傳入倆個，如果是三個呢，有人說當然好辦！ 這樣寫不就行了！ function add(a…

閱讀更多...

vue中自定義設置多語言(包括使用vue-i18n)，并且運行js腳本自動生成多語言文件

vue中自定義設置多語言(包括使用vue-i18n)，并且運行js腳本自動生成多語言文件

在項目中需要進行多個國家語言的切換時，可以用到下面方法其中一個一、自定義設置多語言方法一: 可以自己編寫一個設置多語言文件在項目新建js文件，命名為：language.js，代碼如下 // language.js 文檔 let languagePage {CN…

閱讀更多...

聊一下Maven打包的問題（jar要發布）

聊一下Maven打包的問題（jar要發布）

文章目錄一、問題和現象二、解決方法（1）方法一、maven-jar-pluginmaven-dependency-plugin（2）方法二、maven-assembly-plugin 一、問題和現象現在的開發一直都是用spring boot，突然有一天，要自己開發一個…

閱讀更多...

Django之項目開發（二）

Django之項目開發（二）

目錄一、安裝和使用uWSGI 1.1、安裝 1.2、配置文件 1.3、啟動與停止uwsgi 二、安裝nginx 三、Nginx 配置uWSGI 四、Nginx配置靜態文件五、Nginx配置負載均衡一、安裝和使用uWSGI uWSGI 是一個 Web 服務器，可以用來部署 Python Web 應用。它是一個高性能的通用的 We…

閱讀更多...

味蕾與理解：應對自閉癥兒童挑食的策略與理解

味蕾與理解：應對自閉癥兒童挑食的策略與理解

在星貝育園自閉癥康復學校，我們深知飲食習慣對孩子們的成長至關重要，而自閉癥兒童的挑食問題往往比同齡兒童更為突出，給家長和照顧者帶來了額外的挑戰。今天，作為這里的老師，我想與大家分享一些應對自閉癥兒童挑食的策…

閱讀更多...

（南京觀海微電子）——電阻應用及選取

（南京觀海微電子）——電阻應用及選取

什么是電阻？ 電阻是描述導體導電性能的物理量，用R表示。電阻由導體兩端的電壓U與通過導體的電流I的比值來定義，即： 所以，當導體兩端的電壓一定時，電阻愈大，通過的電流就愈小；反之&…

閱讀更多...

鴻蒙應用實踐：利用扣子API開發起床文案生成器

鴻蒙應用實踐：利用扣子API開發起床文案生成器

前言扣子是一個新一代 AI 應用開發平臺，無需編程基礎即可快速搭建基于大模型的 Bot，并發布到各個渠道。平臺優勢包括無限拓展的能力集（內置和自定義插件）、豐富的數據源（支持多種數據格式和上傳方式）、持…

閱讀更多...

[Unity入門01] Unity基本操作

[Unity入門01] Unity基本操作

參考的傅老師的教程學了一下Unity的基礎操作： [傅老師/Unity教學] Unity3D基礎入門 [華梵大學] 遊戲引擎應用基礎(Unity版本) Class#01 移動：鼠標中鍵旋轉：鼠標右鍵放大：鼠標滾輪飛行模式：右鍵WASDQEFocus模式&…

閱讀更多...

算法設計與分析實驗5 并查集法求圖論橋問題

算法設計與分析實驗5 并查集法求圖論橋問題

目錄一、實驗目的二、問題描述三、實驗要求四、實驗內容 （一）基準算法 （二）高效算法五、實驗結論一、實驗目的 1. 掌握圖的連通性。 2. 掌握并查集的基本原理和應用。二、問題描述在圖論中，一條邊被稱…

閱讀更多...

最新文章