前言
在大型語言模型(LLM)的前沿研究中,一個核心挑戰與機遇并存的領域是擴展它們的能力,以解決超出其訓練數據范疇的問題。這不僅要求模型在面對全新數據時仍能保持卓越表現,還意味著開辟了全新的數據分析可能性,如在各種數據集中識別主題和語義概念,同時保留上下文和實體關系。在此背景下,微軟研究院自豪地推出了GraphRAG——一項旨在顯著提升LLM能力的重大突破。
開源項目地址 :https://github.com/microsoft/graphrag
RAG:檢索增強生成技術的進化
傳統的檢索增強生成(RAG)方法通過基于用戶查詢搜索信息,并將結果作為AI生成答案的參考,已成為大多數LLM工具不可或缺的一部分。多數RAG方案依賴于向量相似性來進行搜索。然而,當涉及復雜信息的文檔分析時,GraphRAG利用由LLM構建的知識圖譜,顯著提高了問答性能,展現了在處理未見數據集時的強大優勢。
GraphRAG:連接點線,構建全面理解
GraphRAG的創新之處在于它能夠“連點成線”,即在回答問題時,它能跨越分散的信息片段,通過共享屬性將它們串聯起來,提供合成的新見解。此外,GraphRAG在被要求整體理解并總結大型數據集合或單一長篇文檔的語義概念時,表現尤為出色。這些能力超越了傳統RAG方法的局限,后者在處理此類任務時往往力不從心。
案例研究:GraphRAG在VIINA數據集上的應用
為了驗證GraphRAG的有效性,我們將其應用于Violent Incident Information from News Articles(VIINA)數據集上,這是一個包含復雜信息、多角度觀點和不完整細節的真實世界測試案例。我們使用了數千篇來自俄羅斯和烏克蘭新聞來源的文章,創建了一個龐大的私有數據集,其規模遠超LLM的情境窗口限制,因此需要采用RAG方法。
在對比實驗中,針對“Novorossiya是什么?”這一探究性問題,GraphRAG的表現明顯優于基線RAG系統。GraphRAG不僅準確地捕捉到了數據集的核心主題,還提供了支持細節和原始材料的追溯,展現出對數據集整體情況的深刻洞察。
將 RAG 應用于私有數據集
為了證明 GraphRAG 的有效性,我們首先使用新聞文章中的暴力事件信息 (VIINA)數據集進行調查(在新標簽頁中打開)。之所以選擇這個數據集,是因為它的復雜性以及存在不同意見和部分信息。這是一個混亂的真實世界測試案例,而且時間還不長,因此沒有被納入 LLM 基礎模型的訓練中。
在本研究中,我們使用了 2023 年 6 月來自俄羅斯和烏克蘭新聞來源的數千篇新聞文章(翻譯成英文),以創建一個私有數據集,我們將在該數據集上執行基于 LLM 的檢索。該數據集太大,無法放入 LLM 上下文窗口,因此需要采用 RAG 方法。
我們從一個探索性查詢開始,該查詢針對基線 RAG 系統和我們的新方法 GraphRAG 提出:
疑問:“新俄羅斯是什么?”
傳統RAG | GraphRAG |
---|---|
在提供的上下文中沒有提到“新俄羅斯”一詞。但是,為了提供一些信息,新俄羅斯是一個歷史術語,指的是烏克蘭南部的一個地區,該地區于 18 世紀被俄羅斯帝國征服。近年來,俄羅斯支持的烏克蘭東部分離主義者重新使用這個詞來指代他們聲稱擁有的領土,但它并未被國際機構正式承認為一個獨立實體 | 新俄羅斯,又稱新俄羅斯,是一個具有歷史和當代意義的術語。從歷史上看,它指的是俄羅斯帝國南部的一個地區,現在是烏克蘭的一部分。在當代背景下,親俄分裂分子用它來指代烏克蘭的某些地區 [數據:實體 (6494, 912, 6493)]。 新俄羅斯一詞曾用于烏克蘭的政治運動,尤其是俄羅斯民族主義者。這場運動與破壞烏克蘭穩定和建立所謂的“新俄羅斯”的努力有關 [數據:實體 (912);關系 (15211, 15206)]。該術語還被用來表示烏克蘭的一個分離主義國家,即新俄羅斯聯邦共和國 (FRN) [數據:實體 (7690)]。 |
在這些結果中,我們可以看到兩個系統都表現良好 - 突出顯示了基線 RAG 表現良好的一類查詢。讓我們嘗試一個需要連接點的查詢:
疑問:“新俄羅斯做了什么?”
傳統RAG | GraphRAG |
---|---|
文中沒有提供新俄羅斯所做之事的具體信息。 | 烏克蘭的一個政治運動組織新俄羅斯參與了一系列破壞活動,特別是針對烏克蘭的各種實體 [實體 (6494, 912)]。該運動與破壞烏克蘭多個實體財產的計劃有關,包括羅森、敖德薩罐頭廠、敖德薩地區廣播電視傳輸中心和烏克蘭國家電視公司 [關系 (15207, 15208, 15209, 15210)]。除此之外,新俄羅斯還與破壞羅森、敖德薩音樂學院工廠、敖德薩地區廣播電視傳輸中心和烏克蘭國家電信公司的財產的計劃有關 [關系 (8329, 8330, 8331, 8332)]。此外,新俄羅斯還涉嫌炸毀烏克蘭最大國有銀行 PrivatBank 的自動取款機 [關系 (8335, 8335)]。 烏克蘭總檢察長辦公室報告了新俄羅斯的成立,表明政府對該運動活動的認識和潛在擔憂 [關系 (8264, 8264)]。新俄羅斯的破壞性活動對目標實體產生了重大影響,并可能加劇了該地區持續的緊張局勢和沖突。 總之,新俄羅斯參與了一系列針對烏克蘭各實體的破壞性活動。這些活動對目標實體產生了重大影響,并可能加劇了該地區持續的緊張局勢和沖突。烏克蘭政府通過總檢察長辦公室承認了新俄羅斯的存在和活動,表明對該運動的行為感到一定程度的擔憂。 |
傳統RAG 無法回答這個問題。查看插入上下文窗口的源文檔(圖 1),沒有任何文本片段討論新俄羅斯,導致此問題。
相比之下,GraphRAG 方法在查詢 Novorossiya 中發現了一個實體。這使得 LLM 能夠在圖中立足,并通過指向原始支持文本的鏈接得出包含出處的更優答案。例如,下圖 2 顯示了 LLM 用于 LLM 生成的聲明“Novorossiya 涉嫌炸毀 ATM 機的計劃”的確切內容。我們看到了原始源文檔(經過英文翻譯)中的片段,LLM 使用該片段通過圖中兩個實體之間存在的關系來支持特定銀行是 Novorossiya 的目標這一斷言。
通過使用 LLM 生成的知識圖譜,GraphRAG 極大地改進了 RAG 的“檢索”部分,用更高相關性的內容填充上下文窗口,從而得到更好的答案并捕獲證據來源。
能夠信任和驗證 LLM 生成的結果始終很重要。我們關心的是結果是否正確、連貫,并準確代表源材料中的內容。GraphRAG 在生成每個響應時提供出處或來源基礎信息。它表明答案是基于數據集的。隨時提供每個斷言的引用來源還使人類用戶能夠快速準確地直接對照原始源材料審核 LLM 的輸出。
然而,這并不是使用 GraphRAG 所能實現的全部。
整個數據集推理
傳統 RAG 很難處理需要匯總整個數據集的信息才能得出答案的查詢。諸如“數據中的前 5 個主題是什么?”之類的查詢表現不佳,因為 傳統 RAG 依賴于對數據集內語義相似的文本內容進行向量搜索。查詢中沒有任何內容可以將其引導至正確的信息。
但是,使用 GraphRAG,我們可以回答這些問題,因為 LLM 生成的知識圖譜的結構告訴我們整個數據集的結構(以及主題)。這允許將私有數據集組織成預先匯總的有意義的語義集群。在響應用戶查詢時,LLM 使用這些集群來總結這些主題。
我們通過向這兩個系統提出以下問題來說明整個數據集的推理能力:
查詢:“數據中的前 5 個主題是什么? ”
傳統RAG | GraphRAG |
---|---|
1. 改善城市生活質量和城市發展。 2 . 弗拉基米爾·普京與阿聯酋總統穆罕默德·本·扎耶德·阿勒納哈揚會晤。 3 . 俄羅斯各地區投資環境全國評級。 4 . 俄羅斯經濟狀況和國內品牌增長。 5 . 討論生命的意義以及科學在理解生命中的作用。 | 數據呈現出廣泛的主題,但最常見的五個主題可以確定如下: 1.沖突與軍事活動:很大一部分數據圍繞烏克蘭持續的沖突,許多報告詳細介紹了各種實體的軍事活動、占領和襲擊。這一主題包括烏克蘭軍隊、俄羅斯軍隊和其他各種軍事單位和實體的行動 [數據:報告(513、241、151、493、343、+更多)]。 2.政治和政府實體:許多報告關注政治人物和政府實體,強調他們在當前形勢下的角色、關系和行動。這包括克里姆林宮、烏克蘭總統、美國國務院和各地區政府等實體 [數據:報告(98、493、265、129、196、+更多)]。 3.基礎設施和環境問題:多份報告強調了潛在的環境影響和基礎設施威脅。這些包括因工業活動造成的潛在環境破壞、洪水危機以及軍事沖突對基礎設施造成的威脅 [數據:報告(308、154、201、348、216、+更多)]。 4.社區分析和威脅評估:有幾份報告對特定社區進行了詳細的分析,通常以特定的地點或實體為中心。這些分析通常討論社區內的關鍵實體、它們的關系以及任何相關威脅。許多報告還包括對與他們討論的實體或情況相關的潛在威脅的評估 [數據:報告(323、596、518、583、179、+更多)]。 5.健康、人道主義關切和緊急情況:一些報告重點關注健康和人道主義問題,例如 Shereshevsky-Turner 綜合征社區和敖德薩地區腸道疾病的潛在風險。數據還涵蓋緊急情況,包括自然災害、事故和襲擊 [數據:報告(204、149、372、154、532 等)]。 這些主題全面概述了當前局勢,突出了當前問題的復雜性和相互關聯性。 |
查看基線 RAG 的結果,我們發現列出的主題與兩國之間的戰爭沒有太大關系。正如預期的那樣,向量搜索檢索到不相關的文本,這些文本被插入到 LLM 的上下文窗口中。所包含的結果很可能與“主題”一詞有關,導致對數據集中發生的事情的評估不太有用。
通過觀察 GraphRAG 的結果,我們可以清楚地看到,結果與整個數據集的情況更加一致。答案提供了在數據集中觀察到的五個主要主題以及支持細節。參考報告由 LLM 為 GraphRAG 中的每個語義集群預先生成,進而提供對原始源材料的出處。
結論:GraphRAG——開啟LLM的智慧新篇章
GraphRAG通過結合LLM生成的知識圖譜與圖機器學習,實現了查詢時的提示增強,從而在處理上述兩類問題時展現出超越其他方法的智能水平。這一創新不僅推動了LLM在未見數據上的表現邊界,也為未來的研究和應用開辟了廣闊前景。隨著GraphRAG的應用,LLMs將在更廣泛的領域展現其真正的潛力,為數據探索和分析帶來前所未有的效率和深度。
通過GraphRAG,我們見證了LLMs如何克服挑戰,實現對復雜和私有數據的深入理解和利用。這項技術不僅體現了微軟研究院在LLM領域的持續創新,也為全球數據科學家和企業開辟了新的可能,讓他們能夠更有效地挖掘和利用內部數據的價值。