人工智能正在迅速改變法律專業人士的工作方式——從起草合同到進行研究。但盡管大型語言模型(LLM)功能強大,它們在關鍵領域卻常常出錯:真實性。當人工智能在法律文件中“幻覺”出事實時,后果可能是嚴重的——問問那些無意中引用了虛假案例法的律師就知道了。
LQ-RAG是《IEEE Access》期刊上最近發表的論文。如果你想深入了解代碼和方法,請查看 GitHub 倉庫 和 完整論文。
LQ-RAG,一個專門構建的檢索增強型生成框架,將特定領域的微調、遞歸反饋和基于代理的評估引入法律問答。該框架目標是對抗法律人工智能中的幻覺。
LQ-RAG 采用迭代過程來生成和優化其響應。它從用戶查詢開始,生成初始響應,并由評估代理評估其質量。評估代理評估生成響應的上下文相關性和有根性,并分配分數。根據這些分數,它確定響應是否令人滿意,或者是否需要進一步優化。如果需要優化,評估代理會向提示工程代理提供反饋,以改進查詢。這有助于生成代理產生更好的響應。更好的響應反映在逐漸接近最優值的評估分數中。此外,還采用了檢索文檔縮減方法來重新排序和篩選最相關的文檔,減少內存使用并加速推理。
當前人工智能為何在法律領域失敗
法律推理不僅僅是尋找答案——它還涉及解釋細微差別、跟蹤不斷演變的立法,并避免災難性的錯誤。在法律等高風險領域,人工智能幻覺的后果可能是嚴重的。我們已經看到律師因提交引用了人工智能生成的虛構案例法的法庭文件而受到紀律處分的案例。研究表明,通用 LLM 在面對法律查詢時經常幻覺,報告的發生率驚人地在 58% 到 82% 之間。
“在法律等高風險領域,準確性不是可選的——它是至關重要的。2023 年,兩名紐約律師因引用 ChatGPT 生成的虛構法律案例而登上頭條。這只是日益嚴重的問題的一個例子:人工智能幻覺。”
這些問題部分源于當前 LLM 主要是在通用數據集上訓練的,這限制了它們對全面、特定領域知識的訪問和有效利用。它們還難以擴展其參數記憶,從而加劇了幻覺問題。盡管在金融(BloombergGPT)和醫學(Med-PaLM)等其他領域已經出現了專業模型,但法律領域可靠且針對其獨特需求量身定制的 LLM 數量相對較少。這種稀缺性嚴重阻礙了法律實踐的數字化轉型,這是一個需要準確、最新信息和細微解釋的領域。
LQ-RAG
LQ-RAG 框架提出了一個復雜的法律問答方法,采用混合策略對 RAG 系統的關鍵組件進行微調,并將其與先進機制整合。該系統分為兩個主要層級:微調(FT)層級和 RAG 層級。
微調層:構建領域專業知識
FT 層級負責將通用 LLM 定制到法律領域。這涉及對 RAG 系統的兩個主要組件進行單獨微調:嵌入生成模塊和響應生成模塊。
- 微調嵌入 LLM:
- 過程從收集無結構的法律領域語料庫開始,本研究中來自開放獲取門戶(如 Library Genesis)。
- 這些數據的一個子集經過預處理,然后輸入由 OpenAI GPT-3.5-turbo 驅動的合成數據生成器。該生成器通過將無結構文本分解為片段并針對每個片段生成直接相關的問題,創建由查詢 - 上下文對組成的合成數據集。
- 然后使用這個合成數據集對基線嵌入 LLM 進行微調。在本研究中,使用了 GIST Large Embedding v0 模型。
- 微調過程利用 多負樣本排名損失(MNRL) 函數來優化模型。MNRL 的目標是最小化相似句子向量嵌入之間的距離,同時最大化不相似句子之間的距離。這種方法對于確保嵌入 LLM 學會捕捉與法律領域相關的語義關系至關重要,從而增強其識別上下文相似法律文本的能力。
- 微調過程涉及多個周期和批量更新,調整模型的參數以優化定義的目標函數。
2. 微調生成 LLM:
- 使用的基線生成模型是 LLaMA-3–8B,這是一個通用的預訓練自回歸 LLM。
- 收集并預處理兩個不同的數據集用于微調:特定領域的問答數據集(DQA)和通用指令數據集(DInstr)。每個數據集由輸入 - 目標序列對組成。
- 為了處理微調大型模型所需的大量內存和處理資源,研究采用了低秩適應(LoRA)和 4 位量化(使用 BitsAndBytesConfig)。LoRA 在微調期間減少了可訓練參數的數量,使過程更加高效,而量化進一步減小了模型大小并提高了推理速度。
- 預訓練的 LLM 分別使用 LoRA 與 DQA 和 DInstr 數據集進行微調。
- 微調旨在通過梯度更新優化對數似然目標,增強模型根據輸入預測正確輸出序列的能力。
- 在這些單獨的微調步驟之后,將得到的模型使用 線性合并方法 結合起來,創建所需的混合微調生成 LLM(HFM)。
這種混合方法確保模型既獲得了特定領域的法律知識,又增強了遵循指令的能力,這對于生成相關且準確的法律響應至關重要。
RAG 層:整合、檢索和遞歸反饋
RAG 層級是將微調后的 LLM 與先進的 RAG 模塊以及新穎的反饋機制整合的地方。這一層級協調從接收用戶查詢到生成和評估響應的整個過程。
- 數據攝取:剩余的無結構法律語料庫用作外部知識源。并行工作者高效地將這些數據轉換為文檔對象。這些文檔被分割成更小的文本片段。
- 嵌入和索引:將分割后的文本片段通過微調后的嵌入 LLM 處理,生成高維實值向量。然后使用像 Facebook AI Similarity Search(FAISS) 這樣的系統對這些向量進行索引,并存儲在向量數據庫中。這種索引允許后續進行快速相似性搜索。
- 查詢處理和檢索:當用戶提交法律查詢時,它由微調后的嵌入 LLM 處理以生成查詢向量。這些查詢向量被發送到推理和行動(ReAct)代理,它選擇合適的查詢引擎工具從外部知識源檢索相關文本片段。檢索采用混合搜索方法,結合 BM25(基于詞頻的詞匯方法)和 DPR(密集段檢索,使用密集向量嵌入)。這種混合方法旨在通過結合關鍵詞匹配和語義相似性來提高搜索精度。檢索到的文檔隨后可選地由后處理單元進行評分和重新排序,以優先考慮最相關的信息并減少傳遞給生成模型的文檔總體積。這解決了管理不斷擴展的上下文窗口的挑戰。
- 響應生成:構建一個提示,包含系統指令、用戶查詢和重新排序的檢索上下文。將此提示輸入混合微調生成 LLM(HFM)以合成初始響應。
- 評估和反饋循環:這是 LQ-RAG 顯著區別于其他系統的地方。由 GPT-4 驅動的評估代理根據三個關鍵標準評估生成響應的質量:答案相關性、上下文相關性和有根性。評估使用鏈式思考(CoT)過程以確保徹底評估。
- 上下文相關性:代理驗證僅使用從知識庫檢索到的相關上下文片段來生成響應,旨在減少由不相關細節引起的幻覺。
- 有根性:將響應分解為不同的主張,并在檢索到的上下文中搜索支持證據以確保事實準確性。
- 答案相關性:代理檢查生成的響應在多大程度上直接解決了用戶的原始查詢。
通過遞歸反饋機制,迭代地細化檢索到的文檔和生成的響應,通過持續評估答案相關性、上下文相關性和事實性,確保更高的準確性和與法律領域的對齊。
公式解釋:
- ??RAG-Sequence模型??:使用相同的檢索文檔生成整個響應。
其中, 是輸入序列, 是目標序列, 是檢索到的文檔, 表示目標序列長度, 提供給定 的文本段落的分布, 基于先前的標記、輸入、檢索到的文檔和之前的標記生成當前標記。
- ??RAG-Token模型??:使用多個檢索到的文檔生成答案。
如果初始響應滿足評估代理定義的預設質量標準,則將其作為最終輸出呈現。至關重要的是,如果響應不滿足標準,則用戶查詢進入反饋循環。提示工程代理修改初始用戶查詢,應用輕微調整以簡化它,同時保留其主要思想。修改后的查詢然后送回 RAG 系統,重復檢索和生成過程。這種遞歸反饋機制通過持續評估相關性和有根性,迭代優化檢索到的文檔和生成的響應,努力實現更高的準確性和與法律領域的對齊。
這種由代理驅動的遞歸反饋過程是 LQ-RAG 的開創性功能,為優化響應質量和精度開辟了一條創新路徑,超越了單次傳遞。
LQ-RAG整體工作流程
階段1:文檔處理與索引
- 文檔上傳:用戶上傳PDF格式的法律文檔
- 文檔解析:使用SimpleDirectoryReader加載文檔
- 文本分割:
- 主要分塊:512字符
- 子分塊:256、512字符(用于遞歸檢索)
- 向量化:使用專用法律嵌入模型生成向量表示
- 索引構建:
- FAISS向量索引
- BM25關鍵詞索引
- 存儲到本地存儲上下文
階段2:查詢處理與響應生成
- 查詢接收:用戶輸入法律相關查詢
- 混合檢索:
- 向量檢索:基于語義相似性
- BM25檢索:基于關鍵詞匹配
- 遞歸檢索:利用層次化節點結構
- 結果重排序:使用BGE-reranker-large模型
- 響應生成:基于檢索到的上下文生成初始響應
階段3:質量評估與迭代優化
- 多維度評估:
- 上下文相關性:評估檢索內容與查詢的相關性
- 答案相關性:評估生成答案與查詢的相關性
- 事實依據性:評估答案的事實準確性
- 質量判斷:
- 如果所有指標達標:返回最終響應
- 如果上下文相關性過低:使用LLM預訓練知識生成響應
- 如果部分指標不達標:觸發查詢優化
- 查詢優化:
- 使用CrewAI的提示工程代理
- 生成更清晰、更具體的查詢
- 重新執行檢索和生成流程
測試 LQ-RAG
論文詳細介紹了對 LQ-RAG 及其組件的廣泛評估,將其性能與各種基線模型和配置進行了比較。
嵌入 LLM 性能
對微調后的 GIST Large Embedding v0 模型的評估顯示了顯著的改進。與預訓練版本相比,微調后的模型在平均命中率(HR)上提高了 13%,在平均平均倒數排名(MRR)上提高了 15%。HR 衡量正確答案在前 k 個檢索文檔中的查詢比例,而 MRR 根據第一個相關文檔的排名評估排名算法的性能。這些結果表明,在微調后,模型在不同數據集上的泛化能力得到了增強。
將微調后的模型(命名為 GIST-Law-Embed)與其他基線嵌入模型進行比較,進一步突顯了其有效性。GIST-Law-Embed 顯著優于所有其他基線 LLM,在 top K=5 時,平均命中率達到 51%,平均 MRR 達到 40%。這種性能不僅體現在平均水平上,該模型在每個單獨文檔中都保持了最高分數,顯示出其在檢索相關法律信息方面的穩健性和一致性。
研究還發現,模型尺寸較大的版本通常優于其較小的版本,強調了模型尺寸對檢索能力的積極影響。至關重要的是,經過特定領域微調的模型(如 GIST-Law-Embed)表現出增強的檢索性能,進一步證明了針對特定領域定制模型的重要性。
對檢索片段數量(top-k)的影響分析表明,增加 k 一致地增強了 RAG 從原始上下文中檢索相關信息的能力。研究人員選擇了 k=15 用于后續實驗,因為它在超過 60% 的時間里成功檢索到了原始段落,而不會過度增加輸入提示的大小。
生成 LLM 性能
混合微調生成 LLM(HFM) 在兩組任務中進行了全面評估:一般推理任務和特定法律領域的任務。
結果顯示,微調和合并顯著提高了模型在兩個類別的性能。在第一組(一般任務)中,HFM 的平均性能提高了 9%。在第二組(法律任務)中,提升更為顯著,性能提高了 38%。這清楚地表明,微調和合并技術在提高特定領域性能方面非常有效。
HFM 在幾個關鍵的法律領域數據集上表現出色:
- MMLU 國際法:HFM 得分為 0.81 ± 0.03,而 LLaMA-3–8B 為 0.77 ± 0.0443。
- MMLU 職業法:HFM 領先,得分為 0.47 ± 0.01,而 LLaMA-3–8B 為 0.46 ± 0.0143。
- Abercrombie 分類:HFM 達到 0.54 ± 0.04,而 LLaMA-3–8B 為 0.45 ± 0.0543。
- 法律推理因果關系(LRC):HFM 表現卓越,得分為 0.75 ± 0.01,顯著優于 LLaMA-3–8B 的 0.52 ± 0.0143。
- 合同問答(CQA):HFM 達到 0.56 ± 0.01,超過了 LLaMA-3–8B 的 0.19 ± 0.0143。
盡管 HFM 在許多法律任務中表現出色,但其他模型(如 Flan-T5 large)在 Law Stack Exchange(LSE) 和 加拿大稅務法庭結果(CTCO) 等數據集上表現更好。然而,總體而言,HFM 在兩個評估組中均實現了最高性能,顯示出其在處理一般語言理解和特定法律查詢方面的穩健性和有效性。研究強調了微調和合并技術在提高下游任務的泛化能力和性能方面的價值。
作者制作的圖片
LQ-RAG 系統性能
將 LQ-RAG 系統與 簡單 RAG 配置和 帶有微調 LLM 的 RAG(FTM) 配置進行了比較。評估側重于開放領域和封閉領域法律問答。
對于開放領域法律問題,這些問題模擬了關于憲法條款、修正案和假設場景的真實世界查詢,LQ-RAG 在響應相關性方面表現出顯著改進。平均相關性分數為:
- 簡單 RAG:65%44
- 帶有 FTM 的 RAG:70%(比簡單 RAG 提高 7%)
- LQ-RAG:80%44
這代表了與簡單 RAG 相比,相關性分數提高了 23%,與帶有 FTM 的 RAG 相比提高了 14%。這一顯著提升歸功于 LQ-RAG 的先進整合、微調組件和遞歸反饋機制,這些機制增強了其理解并檢索上下文相關信息的能力,從而產生了更連貫、更準確的答案。
使用 “RAG 三元組”(答案相關性、上下文相關性和有根性)進行的評估進一步強化了 LQ-RAG 在開放場景中的有效性。LQ-RAG 在答案相關性上得分為 88%,在上下文相關性上得分為 70%,在有根性上得分為 82%。相比之下,簡單 RAG 在上下文相關性方面表現不佳,而帶有 FTM 的 RAG 雖然比簡單 RAG 表現更好,但其分數仍不令人滿意。這些指標對于確保對生成的法律響應的準確性和可靠性有信心至關重要。答案相關性衡量答案準確回答查詢的程度,上下文相關性衡量檢索到的上下文與查詢的契合程度,有根性通過檢查答案是否得到檢索到的上下文的支持來評估答案的真實性。
對于 封閉領域法律問題,其中相關的信息在領域內有限或缺失,結果有所不同。簡單 RAG 和帶有 FTM 的 RAG 在答案相關性分數上均達到了 88%。然而,對于 LQ-RAG 系統,答案相關性分數下降到了 72%。在封閉領域測試中,所有配置的上下文相關性和有根性分數均低于 50%。這一結果在意料之中,因為系統沒有提供必要的相關上下文信息。研究指出,根據這些發現,在沒有相關上下文的封閉領域場景中,RAG 系統生成的答案可能不正確,這質疑了在上下文相關性和有根性較低時報告的答案相關性分數的有效性。這強調了在評估 RAG 系統時,尤其是在高風險的法律領域,考慮所有三個標準(答案相關性、上下文相關性和有根性)的重要性。
先進人工智能系統的一個實際問題是時間復雜度。研究測量了不同 RAG 配置的平均響應生成時間。如預期的那樣,簡單 RAG 系統最快,處理五組問題需要 7.2 秒。帶有 FTM 的 RAG 需要更長時間,為 11.2 秒,而提出的 LQ-RAG 系統需要 14.6 秒,大約是簡單系統的兩倍。這表明,盡管引入先進模塊可以提高準確性和相關性,但也會增加系統的時間復雜度。
創新點
LQ-RAG 框架是解決人工智能在法律領域面臨的特定領域挑戰的重要一步,特別是幻覺這一關鍵問題以及對精確、上下文相關響應的需求。通過將遞歸反饋機制與專門的微調 LLM 和以代理驅動的響應評估及查詢工程方法相結合,LQ-RAG 有效地減少了幻覺并提高了特定領域的準確性。
實驗結果展示了這種方法的力量。微調后的嵌入 LLM 在命中率上提高了 13%,在 MRR 上提高了 15%。當整合到 LQ-RAG 中時,混合微調生成 LLM(HFM)比通用 LLM 的性能提高了 24%。此外,LQ-RAG 架構始終優于基線模型,在相關性分數上比簡單配置提高了 23%,比帶有微調 LLM 的 RAG 提高了 14%。
LQ-RAG 的可適應設計表明其有可能在經過最小調整后應用于其他特定領域,使專業人士能夠做出更高質量、更明智的決策。
不足
盡管 LQ-RAG 展示了顯著的進步,但作者承認當前工作存在一些限制,包括:
- 依賴 GPT-4 作為評估代理。
- 與簡單配置相比,響應生成時間相對較長。
- 當前評估過程中缺乏來自人類領域專家的反饋。
未來的努力將致力于解決這些限制。這將包括:
- 優化時間復雜度以提高響應速度。
- 開發具有特定領域專業知識的專門法律評估代理。
- 通過納入法律從業者的反饋來提升評估代理的性能,以確保模型的實際效用和與現實世界法律推理及上下文的一致性。
- 納入專門針對法律領域設計的基準數據集,以進一步驗證該方法。
- 應用最先進的優化技術,以進一步提高命中率和 MRR。
- 在現實世界的法律場景中進行實證實驗,以展示系統的實際效果。
這些計劃中的改進強調了這項研究的持續性質以及致力于使人工智能成為法律專業人士更可靠、更有效工具的承諾。LQ-RAG 框架 通過直接解決人工智能幻覺這一關鍵問題,通過智能檢索、專門模型和遞歸自我校正,為實現這一目標提供了一條有希望的途徑。
總體結論
這篇論文提出的LQ-RAG框架通過集成遞歸反饋機制、專門的LLM和代理驅動的響應評估和查詢工程,解決了法律領域中信息檢索增強生成的問題。微調后的嵌入LLM和混合微調生成LLM顯著提高了模型的性能,LQ-RAG系統在各種任務中表現出色,具有廣泛的應用潛力。未來的工作將集中在優化時間復雜性、開發專業的法律評估代理以及整合領域專家的反饋,以進一步提高模型的實際效用和對齊法律推理和上下文。
關鍵問題及回答
??問題1:LQ-RAG框架中的自定義評估代理是如何工作的?它如何提高響應的準確性和相關性???
自定義評估代理是基于OpenAI GPT-4的模型,用于獨立評估模型生成的響應的準確性和相關性。具體工作流程如下:
- ??評估標準??:評估代理根據預設的標準評估響應的相關性、上下文相關性和事實性。
- ??反饋機制??:如果生成的響應滿足預設標準,評估代理會將其作為最終輸出;否則,評估代理會將查詢發送給提示工程代理。
- ??提示工程??:提示工程代理對查詢進行微調,以簡化查詢并保留其主要思想,然后重新提交給RAG系統進行新一輪的檢索和生成過程。
- ??遞歸反饋??:這個過程是遞歸的,每次生成的響應都會經過評估代理的評估,并根據評估結果進行相應的調整,直到生成的響應滿足預設標準。
通過這種遞歸反饋機制,LQ-RAG框架能夠不斷改進生成的響應,確保其準確性和相關性。
??問題2:在生成LLM的微調過程中,為什么選擇了LLaMA-3-8B模型,并且采用了Low-Rank Adaptation(LoRA)技術???
- ??選擇LLaMA-3-8B模型的原因??:
- ??預訓練模型??:LLaMA-3-8B是一個通用的預訓練自回歸LLM,具有豐富的語言建模能力,適合用于各種自然語言處理任務。
- ??計算資源??:盡管LLaMA-3-8B模型需要較大的計算資源和內存,但通過PEFT和4位量化等優化技術,可以有效平衡計算資源和模型性能。
- ??采用Low-Rank Adaptation(LoRA)技術的原因??:
- ??減少參數數量??:LoRA技術通過低秩矩陣分解,減少了模型的可訓練參數數量,從而降低了計算復雜度和內存需求。
- ??提高泛化能力??:LoRA技術可以在不顯著增加模型參數的情況下,提高模型的泛化能力和性能,特別是在有限數據的情況下。
- ??優化訓練過程??:通過減少可訓練參數,LoRA技術可以加快模型的收斂速度,并提高訓練過程的穩定性。
通過這些技術手段,LLaMA-3-8B模型在微調過程中能夠更高效地學習領域知識,提高其在法律領域的適用性和性能。
??問題3:LQ-RAG系統在開放域和封閉域問答任務中的表現如何?與其他配置相比有哪些優勢???
- ??開放域問答任務??:
- ??平均相關性得分??:LQ-RAG系統在開放域問答任務中的平均相關性得分為80%,比樸素RAG提高了23%,比微調后的RAG提高了14%。
- ??評估指標??:在開放域問答任務中,LQ-RAG系統在答案相關性、上下文相關性和事實性得分上分別達到了88%、70%和82%。
- ??優勢??:LQ-RAG系統通過遞歸反饋機制和專業的LLM,能夠生成更加準確和相關性更高的響應,特別是在處理復雜的法律查詢時表現出色。
- ??封閉域問答任務??:
- ??答案相關性得分??:LQ-RAG系統在封閉域問答任務中的答案相關性得分為72%。
- ??評估指標??:在封閉域問答任務中,LQ-RAG系統的上下文相關性和事實性得分分別為48%和35%。
- ??優勢??:盡管在封閉域問答任務中,LQ-RAG系統的表現略遜于開放域任務,但仍然顯著優于樸素RAG和微調后的RAG系統,特別是在答案相關性方面。
總體而言,LQ-RAG系統在開放域和封閉域問答任務中都表現出色,通過遞歸反饋機制和專業的LLM,能夠生成更加準確和相關性更高的響應,顯著提高了法律領域中信息檢索增強生成的性能和準確性。