Video-RAG：一種將視頻RAG新框架

1. 摘要及主要貢獻點

摘要：

檢索增強生成（RAG）是一種強大的策略，通過檢索與查詢相關的外部知識并將其整合到生成過程中，以解決基礎模型生成事實性錯誤輸出的問題。然而，現有的RAG方法主要集中于文本信息，盡管最近的一些進展開始考慮圖像，但它們大多忽略了視頻這一豐富的信息來源。視頻能夠比任何其他模態更有效地表示事件、過程和上下文細節。盡管一些最近的研究探討了在生成過程中整合視頻內容，但它們要么預先定義與查詢相關的視頻而不根據查詢檢索它們，要么將視頻轉換為文本描述而沒有利用其多模態豐富性。為了解決這些問題，我們提出了VideoRAG，這是一種新穎的框架，它不僅根據查詢動態檢索相關視頻，還利用視頻的視覺和文本信息進行輸出生成。此外，為了實現這一目標，我們的方法圍繞最近的大型視頻語言模型（LVLMs）的進步展開，這些模型能夠直接處理視頻內容，以表示其用于檢索并與查詢無縫整合。我們通過實驗驗證了VideoRAG的有效性，展示了其優于相關基線模型。

主要貢獻點：

提出VideoRAG框架：首次將視頻作為外部知識來源引入RAG系統，實現了動態檢索與查詢相關的視頻，并利用視頻的視覺和文本信息進行生成。
利用LVLMs的優勢：通過利用大型視頻語言模型（LVLMs），實現了對視頻內容的直接處理，捕捉其多模態豐富性。
解決視頻文本描述缺失問題：提出了一種利用自動語音識別技術生成視頻文本描述的策略，即使在缺乏顯式文本注釋的情況下也能利用視覺和文本模態。
實驗驗證：通過實驗驗證了VideoRAG框架的有效性，展示了其在信息檢索問答任務中優于現有RAG基線模型。

2. 引言和相關工作凝練總結

引言：

近年來，大型基礎模型（如大型語言模型LLMs和大型視覺語言模型VLMs）在處理各種任務中表現出色。然而，這些模型仍然存在生成事實性錯誤（幻覺）的問題，因為它們的參數化知識可能不準確、不完整或過時。為了緩解這一問題，檢索增強生成（RAG）作為一種重要的解決方案應運而生。RAG通過從外部知識源檢索與查詢相關的信息，并基于檢索到的信息生成答案來增強基礎模型的輸出能力。現有的RAG方法主要集中于文本內容，而視頻作為一種多模態知識來源，尚未得到充分利用。

3. 主要貢獻章節

2. 方法

在本節中，我們介紹VideoRAG，它通過利用視頻語料庫作為外部知識來源，擴展了現有的RAG范式。

視頻檢索

要在視頻語料庫上實現RAG，首先需要實現視頻檢索，其目標是識別與查詢相關的視頻 $KaTeX parse error: Undefined control sequence: \hdots at position 36: …t\{V_{1},V_{2},\?h?d?o?t?s?,V_{k}\right\}$ ，這些視頻來自包含大量視頻的外部語料庫 $\mathcal{C}$ ，可以形式化如下：V = Retriever $(\pmb{q},\mathcal{C})$ 。回想一下，如第2.1節所述，此檢索過程涉及計算查詢 $\pmb q$ 與每個知識元素（在本例中為視頻 $V$ ）之間的相似性，以確定它們的相關性。為了實現這一點，我們首先將視頻 $V$ （由圖像幀和可用的字幕組成）以及查詢 $\pmb q$ （沒有視覺信息）輸入到LVLM中，以獲得它們的表示 $\mathbf{\mathcal{f}}_{\mathsf{q u e r y}}$ 和 fvideo。之后，基于它們的表示級相似性計算相關性，例如，使用余弦相似性，然后檢索相似性得分最高的前 ${\boldsymbol{k}}$ 個視頻以用于后續的答案生成步驟。

視頻增強的響應生成

在檢索到與查詢相關的視頻之后，下一步是將檢索到的視頻整合到答案生成過程中，以便在視頻的基礎上制定答案。為了實現這一點，我們首先將每個檢索到的視頻的幀與其相關的文本數據（例如，字幕）連接起來，然后將所有檢索到的視頻的多模態對連接起來，最后附加用戶查詢，以構建LVLM的輸入，表示如下： $[V_{1},t_{1},\ldots,V_{k},t_{k},q]$ 。然后，將此輸入輸入到LVLM中，它能夠聯合處理組合的視覺、文本和查詢特定的信息，以生成考慮其多模態豐富性的響應。

2.3 輔助文本生成

在檢索和生成步驟中，包含視頻相關的文本數據（例如，字幕）可以在增強視頻表示方面發揮至關重要的作用，因為它提供了補充視覺內容的額外上下文和語義線索。然而，并非語料庫中的每個視頻都帶有字幕，因為它們需要額外的注釋。因此，對于這樣的視頻，我們建議通過從視頻中提取音頻并使用現成的自動語音識別技術將其轉換為文本，來生成輔助文本數據。形式上，給定一個視頻 $V$ ，這個過程可以形式化如下： $t_{\mathsf{a u x}}\,=\,\mathsf{A u d i o T o T e x t}\bigl(\mathsf{A u d i o}(v)\bigr)$ ，其中 Audio $(V)$ 從視頻中提取音頻軌道，AudioToText 將提取的音頻信號轉換為文本內容。因此，對于那些沒有字幕的視頻，輔助文本 $taux? \pmb{t}_{\mathsf{a u x}}$ 在檢索和生成步驟中代替 $\pmb{t}$ 使用。

4. 實驗設置、結果和結論

3. 實驗設置

在本節中，我們描述了數據集、模型、評估指標和實現細節。

3.1 數據集

為了評估我們的VideoRAG在信息檢索問答任務中的表現（這是一個特別適合且廣泛用于驗證RAG方法的任務），我們使用了具有廣泛視頻語料庫和具有不同主題的問答對的可用資源。具體來說，我們采用WikiHowQA數據（BolotovaBaranova等人，2023年）作為查詢和答案的來源，因為它提供了從WikiHow網頁提取的各種教學問題，并附有手寫的、逐步的過程，以確保高質量的真相。此外，對于外部視頻語料庫，我們利用了HowTo100M數據集（Miech等人，2019年），這是一個從YouTube獲取的綜合教學視頻集合，它還與WikiHow的查詢相關聯，基于它們的搜索結果，因此，為我們的VideoRAG任務提供了一個有用的資源。

3.2 模型

基線模型 我們評估了VideoRAG與以下四個不同基線模型的性能：

NAIVE - 直接使用輸入查詢生成答案，不使用任何額外上下文。
TEXTRAG (BM25) - 這是一個基于文本的RAG模型，使用BM25（Robertson等人，1994年）（一種基于詞匯匹配的稀疏檢索器）根據查詢的相關性對文檔（來自維基百科）進行檢索，并基于檢索到的內容生成答案。
TEXTRAG (DPR) - 這是一個與TEXTRAG (BM25)類似的基于文本的RAG基線，但它使用DPR（Karpukhin等人，2020年）（一種廣泛使用的密集檢索器）進行檢索。
TEXTVIDEORAG - 這遵循了之前的基于視頻的RAG方法（Arefeen等人，2024年；Zhang等人，2024b），首先將視頻表示為其文本描述（例如，字幕或文字記錄），然后僅利用這些文本信息進行檢索和生成。

VideoRAG 我們介紹了并驗證了所提出的VideoRAG框架的三個變體，每個變體采用相同的視頻檢索方法，但在答案生成過程中檢索到的視頻的整合方式上有所不同。具體來說，第一個變體，VIDEORAG-T，僅將檢索到的視頻的文本記錄（或輔助文本數據）作為答案生成的上下文整合進來。同時，第二個變體，VIDEORAG-V，僅利用視頻幀作為上下文，為響應提供視覺基礎。最后，VIDEORAG-VT聯合利用視頻幀和文本記錄進行生成。此外，為了進一步估計性能提升的空間，我們包括了VIDEORAG的oracle版本，它直接使用在HowTo100M中預先與查詢關聯的地面真相視頻，而不是使用檢索結果。

3.3 評估指標

為了全面評估不同模型的性能，我們使用了以下多種指標：

ROUGE-L 衡量生成答案與地面真相之間的最長公共子序列（Lin，2004年）。
BLEU-4 計算生成答案與參考答案之間n-gram（最多4-gram）的重疊度（Papineni等人，2002年）。
BERTScore 旨在考慮生成答案與參考答案之間的語義對齊（Zhang等人，2020年），通過從預訓練的BERT模型中提取它們的上下文嵌入，然后計算它們的表示相似性。
GEval 利用LLMs的評估能力來評估生成答案的質量（Liu等人，2023年），為此，我們提示LLM將生成答案與參考答案進行比較，并在5點李克特量表上進行評分。

表1：跨四個指標的總體RAG結果。最佳結果以粗體突出顯示，第二佳結果以下劃線突出顯示。請注意，使用理想檢索結果的Oracle設置與其他設置不可比。

	方法	ROUGE-L	BLEU-4	BERTScore	G-Eval
基線	NAIVE	0.141	0.014	0.834	1.579
	TEXTRAG(BM25)	0.172	0.032	0.847	1.633
	TEXTRAG(DPR)	0.166	0.022	0.846	1.591
	TEXTVIDEORAG	0.228	0.044	0.870	1.979
我們的方法	VIDEORAG-T	0.224	0.043	0.868	2.001
	VIDEORAG-V	0.254	0.054	0.881	2.161
	VIDEORAG-VT	0.252	0.054	0.880	2.104
Oracle	VIDEORAG-V	0.262	0.055	0.884	2.225

3.4 實現細節

值得注意的是，有各種LVLMs可供使用，每個模型都有不同的優點，具體取決于任務要求：對于檢索，文本和視頻特征（從其專用編碼器獲得）之間的精確對齊對于確保檢索到的視頻與查詢在上下文上相關至關重要，而生成則受益于具有高級功能的LVLMs，以準確制定響應并將其與檢索到的內容結合起來。為了實現這一點，對于檢索，我們使用InternVideo2（Wang等人，2024c），因為它專門訓練用于對齊視頻和其文本描述之間的語義。具體來說，我們使用其視頻和文本編碼器分別提取視頻和文本的嵌入。另一方面，對于視頻增強的答案生成，我們使用LLaVA-Video-7B（Zhang等人，2024c），它以在視頻理解和相關任務上實現最先進的性能而聞名。為了提高效率，我們統一對每個視頻采樣4幀用于檢索，而對于生成，我們采樣32幀（如果視頻短于32秒，則采樣所有幀，采樣率為1 fps）。在輔助文本生成中，為了從視頻中提取文本內容，我們使用Whisper（Radford等人，2023）。

4. 實驗結果和分析

我們現在介紹結果和各種分析，展示所提出的VideoRAG的有效性。

4.1 主要結果

我們在表1中提供了主要結果，展示了在檢索到的知識類型不同的情況下，不同模型的性能。首先，我們觀察到，所有利用外部知識的RAG模型都明顯優于NAIVE基線，這再次肯定了外部知識在提高生成響應的實際準確性方面的關鍵作用。此外，在這些模型中，我們的VIDEORAG實現了最高性能，顯著超過了現有的文本RAG基線。這種改進證實了我們的假設，即視頻內容可能是RAG的有用資源，因為它提供了比文本資源更豐富、更詳細的信息。

表2：使用不同視頻集生成的結果，例如Random隨機采樣視頻，Retrieved根據查詢的相關性選擇視頻，Oracle使用數據中注釋的地面真相視頻。

VideoSet	ROUGE-L	BLEU-4	BERTScore
Random	0.243	0.050	0.878
Retrieved	0.254	0.054	0.881
Oracle	0.262	0.055	0.884

然后，人們可能會問，所提出的VideoRAG框架的性能提升是否來自于對額外模態（例如，視頻幀）的考慮，而不是檢索到的知識中的實際內容。為了調查這一點，我們比較了TEXTVIDEORAG和VIDEORAG-T，它們利用視頻的文本表示（沒有視覺模態），與使用百科全書知識庫中的文本（即維基百科）作為知識源的TEXTRAG進行比較。如表1所示，我們發現VIDEORAG-T和TEXTVIDEORAG相對于TEXTRAG的性能提升表明，即使我們僅使用視頻的文本表示，視頻中嵌入的內容也被證明比一般的百科全書知識更能提高響應質量。此外，盡管TEXTVIDEORAG和VIDEORAG-T的性能優于基線，但它們被我們VideoRAG的其他變體所超越，這些變體直接將視覺特征整合到答案生成過程中。這一結果進一步突出了視覺信息在性能中的關鍵作用。最后，VIDEORAG-V與VIDEORAG-VT之間的性能差距較小，這表明生成答案所需的大部分必要信息有效地包含在視頻幀的視覺特征中，這些特征本質上包括通過文本描述傳達的信息。

表3：檢索結果，我們使用視覺特征單獨、文本特征單獨或它們的特征組合。

圖2：文本和視覺特征之間的插值比率對檢索性能的影響。
圖3：通過主成分分析（PCA）對跨模態特征的潛在空間進行可視化。

圖4：不同模型在不同10個類別上的細分性能。

4.2 視頻檢索

視頻檢索的影響 我們假設檢索到的視頻的質量是RAG成功的關鍵因素，因為它可以直接影響后續的答案生成過程。為了確認這一點，我們比較了VideoRAG在不同視頻（包括隨機選擇的視頻和與查詢相關的檢索視頻）上的性能，用于增強答案生成步驟。如表2所示，我們觀察到，與隨機選擇的視頻相比，整合與查詢相關的視頻可以顯著提高答案的質量，這證明了檢索質量的重要性。此外，Oracle設置，代表一個理想場景，具有完全相關的視頻檢索，實現了最高性能，這突出了通過改進我們VideoRAG中的視頻檢索機制進一步提升的潛力。

文本和視覺特征的有效性 在執行視頻檢索時，不同模態（例如，文本特征、視覺特征或兩者的組合）貢獻多少對視頻表示的有效性是值得質疑的，我們在表3中報告了使用不同模態的檢索結果。由此，我們觀察到，文本特征始終優于視覺特征，這可能是由于它們與文本用戶查詢更強的語義對齊。為了進一步研究這一點，我們在圖3中可視化了視頻內容的文本和視覺特征的嵌入以及查詢在潛在空間中的嵌入，它清楚地揭示了文本查詢嵌入與文本視頻表示之間的更近距離，而與視覺視頻表示相比。換句話說，視覺特征相對于基于文本的查詢表現出模態差距（如它們更大的距離所反映的），導致檢索性能不佳。然而，結合文本和視覺特征實現了最高性能，這證明了兩種模態在視頻表示中的互補性。

特征組合分析 為了更好地理解文本和視覺特征在視頻檢索中的貢獻，我們分析了它們的不同組合比率（α）如何影響不同指標的性能。如圖2所示，我們發現平衡文本和視覺特征的最佳比率約為0.5到0.7（根據特定指標有邊際變化：0.7用于R@1和R@5；0.5用于R@10）。這些結果進一步突出了文本和視覺特征在視頻表示中的互補貢獻，而對文本特征的輕微強調可能更可取，因為在圖3中觀察到的模態差距。最后，基于這一分析，我們選擇α=0.7進行我們的實驗。

4.3 分析與討論

類別性能分析 為了評估我們的VideoRAG在處理不同查詢類型方面的穩健性，我們將模型性能分解到10個不同的類別（標注在WikiHow中）。然后，如圖4所示，所提出的VideoRAG家族（如VIDEORAG-T和VIDEORAG-V）在所有類別中均優于所有其他基線，這突出了其處理廣泛查詢的能力。同時，值得注意的是，VIDEORAG-V在食品與娛樂類別中表現出顯著的性能提升，這是特別合理的，因為該類別的查詢通常從視覺細節中獲益匪淺，例如，查詢：“如何制作健康的菠菜和大蒜菜肴”需要食材準備或烹飪技術，這些僅通過文本是無法有效傳達的。因此，這一類別的結果重新肯定了利用視頻內容作為RAG外部知識的重要性。

消融研究 為了分析不同知識來源對性能的影響，我們進行了消融研究，并將結果呈現在表5中。然后，我們發現，雖然整合外部知識（無論是來自文本百科全書來源還是視頻語料庫）始終比NAIVE基線有所改善，但聯合使用視頻與一般文本文檔的方法略微降低了性能。這表明，從百科全書知識庫中檢索的文本內容可能會引入冗余或不相關的細節，這些細節可能與視頻內容提供的信息重疊或矛盾，從而削弱了VideoRAG框架的有效性。

定性結果 現在我們通過案例研究定性分析VideoRAG的有效性，查詢為：“解釋如何在汽車儀表盤上烤餅干”。如表4所示，NAIVE基線僅依賴于其參數化知識，生成一個通用的響應，強調這種方法的不切實際性和安全問題，而沒有提供解決查詢所需的逐步指導。這表明了參數化知識的局限性，當需要特定和不常見的信息時尤其不足。相比之下，VIDEORAG

5. 相關工作

檢索增強生成 RAG是一種結合檢索和生成過程的策略，通過將答案建立在相關的外部知識上來產生準確的答案（Lewis等人，2020年；Ram等人，2023年；Zhao等人，2024年）。具體來說，在檢索步驟中，通過計算查詢與文檔的相似度，從大型語料庫中選擇與查詢相關的文檔，這可以通過使用基于詞匯重疊的稀疏方法（Robertson等人，1994年；Jones，2004年）或利用語義表示的密集方法（Karpukhin等人，2020年；Izacard等人，2022年）來完成。在隨后的生成步驟中，這些檢索到的文檔作為輸入，用于生成基于所提供信息的答案，生成過程（以及檢索）根據具體工作有所不同（Jiang等人，2023年；Asai等人，2024年；Hwang等人，2024年；Cheng等人，2024年），例如，納入迭代檢索生成循環（Trivedi等人，2023年）或根據查詢復雜性調整不同的RAG策略（Jeong等人，2024a年）。然而，盡管現實世界中的知識本質上是多模態的（Lee等人，2024年；Jeong等人，2024b年；Faysse等人，2024年），目前的大多數RAG研究主要集中在文本模態上，幾乎沒有努力整合圖像，這使得在利用可用知識的全部光譜以實現RAG的全面操作方面留下了顯著的差距。

多模態RAG 最近，人們對擴展RAG系統以整合多模態信息（超越文本文檔），如圖像（Chen等人，2022年；Lin和Byrne，2022年；Riedler和Langer，2024年；Yu等人，2024年）、代碼（Guo等人，2024年）、表格（Pan等人，2022年；Biswal等人，2024年）和音頻（Yuan等人，2024年），產生了越來越大的興趣。然而，與它們相比，視頻為推進RAG系統提供了獨特而獨特的有利條件，因為它們以其他模態無法比擬的方式封裝了時間動態性、空間細節和多模態線索。受此啟發，一些非常新的研究已經開始探索在RAG管道中使用視頻內容；然而，盡管有這些努力，現有的方法以次優的方式利用視頻數據的不同優勢。具體來說，一些研究關注從預選視頻中提取與查詢相關的幀，并基于這些幀生成答案，這在受控場景中可能是有用的，但它限制了在開放域設置中的實際適用性（Luo等人，2024年；Ma等人，2024年）。此外，其他方法試圖通過將視頻轉換為文本表示（如字幕或字幕）來規避處理視頻數據的復雜性；然而，雖然它可以直接應用于現有的基于文本的RAG框架，但它犧牲了嵌入在視頻中的多模態豐富性（如時間動態性和空間模式）（Arefeen等人，2024年；Zhang等人，2024b年；Ma等人，2024年）。為了解決這些挑戰，我們提出了VideoRAG，它能夠動態檢索并全面利用視頻內容進行RAG，由下面討論的LVLMs提供支持。

大型視頻語言模型 基于LLMs在語言理解和生成方面的顯著成功以及它們能夠封裝大量知識的能力（OpenAI，2023年；Anil等人，2023年；Dubey等人，2024年），人們對將它們擴展到涵蓋多種模態（如圖像（Lin等人，2024年；Bordes等人，2024年；Zhu和Zhang，2025年）和代碼（DeepSeek-AI等人，2024年；Hui等人，2024年））產生了越來越大的興趣。此外，這種擴展最近擴展到了另一種模態，稱為視頻，導致了能夠直接處理視頻內容的LVLMs的出現。特別是，這些模型擅長解決傳統上具有挑戰性（但直接的）任務，如物體或動作檢測（Tang等人，2023年），并且它們的能力已經迅速提升，使它們能夠處理更復雜的任務，如分析時空動態以預測事件序列，推斷視頻幀之間的因果關系，以及生成對復雜場景的上下文感知描述（Wang等人，2024a年；Maaz等人，2024年；Zhang等人，2024a年；He等人，2024年；Wang等人，2024b年），即使在沒有額外訓練的情況下也能進行零樣本設置（Chen等人，2024年；Kim等人，2024年）。然而，盡管有這些進展，它們的潛力尚未在RAG的背景下探索；因此，在這項工作中，我們旨在通過提出VideoRAG來彌補這一差距。

6. 結論

在這項工作中，我們介紹了VideoRAG，這是一個新穎的框架，它通過利用視頻語料庫作為外部知識來源，擴展了當前RAG系統的格局。具體來說，與使用視頻的文本表示或假設存在與查詢相關的視頻而不進行檢索的現有工作不同，所提出的VideoRAG根據查詢的相關性檢索視頻，但也將它們的多模態豐富性（包括視覺和文本元素）整合到RAG管道中，通過利用LVLMs的能力。此外，通過全面的分析，我們展示了如何通過包含視覺或文本特征或兩者的組合來提高檢索和生成性能，并受到文本特征（對于檢索質量）的重要性的啟發，

但在一些視頻中缺少它們，我們提出了一個簡單但有效的緩解策略，即使用自動語音識別生成文本記錄。總體而言，實驗結果驗證了我們的VideoRAG優于現有的RAG方法，我們相信它朝著能夠利用視頻的全面RAG系統邁出了重要一步。