構建基于LLMs混合型大模型的先進事實性問答系統架構

1.引言

傳統搜索系統基于關鍵字匹配，缺少對用戶問題理解和答案二次處理能力。本文探索使用大語言模型（Large Language Model, LLM），通過其對自然語言理解（Natural Language Understanding，NLU）和生成（Natural Language Generation，NLG）的能力，深入理解用戶意圖，并對原始知識點進行匯總、整合，生成更貼切的答案。

大模型能夠回答較為普世的問題，但是若要服務于垂直專業領域，也會存在知識深度、知識準確度和時效性不足的問題。為了滿足汽車行業的需求，團隊投入了大量的時間和精力，構建一個強大的汽車領域知識庫。

2.方案分析

2.1

結合傳統搜索技術構建基礎知識庫

為了構建基礎知識庫，我們可以利用傳統的搜索技術進行查詢。這種方法具有以下優勢：

較高的問答可控性：通過使用傳統搜索技術，可以更好地控制問題和回答的準確性。借助精確的搜索匹配，提供更準確和可靠的答案。
適應常見知識庫應用場景：不論是處理大規模數據、實現快速查詢還是及時更新，傳統搜索技術都能滿足常見知識庫應用場景的需求。其成熟的技術棧可以提供穩定的性能和功能。
技術風險較低：傳統搜索技術已經得到廣泛應用并積累了豐富的實踐經驗，能夠降低技術探索的風險。

同時，利用語言模型 (LLM) 作為用戶與搜索系統之間的交互媒介，能夠充分發揮其強大的自然語言處理能力：

實現對用戶請求的理解：LLM可以進行糾錯、關鍵點提取等預處理，從而更好地理解用戶的意圖和問題。
對搜索結果進行二次加工：在保證正確性的前提下，LLM可以進一步概括、分析和推理搜索結果，以提供更全面和深入的答案。

結合兩者，能夠優化基礎知識庫的構建和查詢過程，從而更高效地處理業務問題。

2.2

方案設計

?2.3.1 LLM

LLM（Large Language Model）具有以下主要功能：

理解用戶問題：LLM可以對用戶的問題進行理解，包括糾錯和提取關鍵詞等操作。它還能引導用戶提供更多信息，以便更好地理解用戶意圖。
對本地檢索結果進行二次處理整合：LLM可以對本地檢索的TopK答案進行二次加工。例如，可以概括、推理等操作，以提供更全面和深入的答案。
具備上下文交互能力：LLM能夠處理各種類型的上下文交互，比如車系比較、油耗、加速性能等各類配置相關的問題。它可以根據上下文信息來給出更準確和個性化的回答。

?2.3.2本地搜索系統

本地搜索系統解決了查詢匹配的問題，并具備以下功能：
ES Search：通過Elasticsearch（ES）的能力，將結構化數據接入系統，提供車系、關鍵詞等的全文檢索功能。
Embedding Search：將文字形式的查詢請求轉換為數值向量形式，并接入Milvus等向量數據庫，提供在線相似度查詢功能。
去重：在搜索結果中可能存在重復內容，去重操作可以增加大模型接收的信息量，避免重復答案的出現。
相關性排序：針對搜索結果，進行相關性排序，選取TopK最相關的答案，以提供更精準和有用的答案。

3.方案實現

3.1

工程架構

?3.1.1通用模塊

通用模塊包括以下功能：

問答改寫：根據用戶輸入信息和上下文歷史信息，對輸入進行改寫，以便更好地理解用戶意圖。
問答理解：對經過改寫的用戶輸入進行理解，生成向量、關鍵詞、標簽、分類等信息，為后續處理提供基礎。
召回模塊：根據用戶的意圖和實體信息，召回相關內容，以提供更多可能的答案。
排序模塊：通過相關性模型，對召回的內容進行排序，選擇與問答最相關的topN內容，并進行數據抽取。
提示詞模塊：根據用戶輸入和處理流程，調用不同的提示詞（prompt），為生成對話內容提供指導。
LLM模型：根據提示詞和排序生成的相關數據，生成對話內容，以提供給用戶。
日志模塊：記錄請求全流程日志，用于模型訓練、性能分析和案例查詢等目的。

?3.1.2管理模塊

管理模塊包括以下功能：

會話管理：保存用戶的歷史問答信息，以便在對話過程中進行上下文的保持和引用。
Prompt管理：配置不同場景下的提示詞信息，以適應不同的用戶需求和使用場景。
插件管理：針對不同渠道的用戶，可以使用不同的插件配置，例如IM用戶可以選擇是否訪問產品庫插件。
日志管理：管理請求日志、性能日志和結果日志，以便進行日志的存儲、檢索和分析。

?3.1.3知識入庫

? 目前采用Elasticsearch（ES）作為結構化數據的存儲支持，并利用ES的IK分詞插件實現全文檢索功能。

在數據向量化方面，我們使用了大語言模型生成的向量來更準確地捕捉語義相關性。向量化的處理流程如下：
數據導入：根據不同的數據源內容，如數據庫、PDF、Word等，進行數據導入操作。
數據處理：對目錄、無效信息等進行數據預處理，將文檔切片以便更容易捕捉到語義相關的內容（文章長度越長，語義粒度越粗）。
段落處理：基于上下文相關性，生成段落信息。
模型處理：選擇適配的模型對段落數據進行向量化。

? 在存儲方面，盡管許多傳統數據庫或存儲中間件已經提供了向量化支持，但專業的解決方案是使用向量數據庫，例如Vearch、Milvus等。本文中我們選擇了Milvus作為向量索引的存儲，根據實際情況可以選擇適合的向量索引數據庫。

3.2

搜索

? 3.2.1召回

當前的召回設計分為兩類：

**明文召回：**首先，通過API對用戶問題進行解析，提取關鍵詞（例如車系、品牌、分類等）。然后，利用這些關鍵詞從ES索引中進行全文檢索，找到與之最匹配的N條記錄。
**非明文召回：**在這種方法中，我們使用嵌入模型將用戶問題進行嵌入，并獲取問題向量。接下來，使用問題向量在Milvus中進行檢索，找到與之最匹配的N條記錄。

通過這樣的召回方式，我們可以針對用戶問題進行全文檢索或基于嵌入模型的向量檢索，以獲取與之最相關的記錄。這種設計能夠提高召回的準確性和效率，為后續的答案生成和排序提供更可靠的基礎。

?3.2.2相關性（TopK選取）

目前，我們采用了基于Boosting算法集成的xgboost模型作為相關性模型，其重點在于確保最終結果的穩定性和可控性。這個模型的實現與傳統搜索邏輯類似：

首先，我們將查詢（Query）特征、物品（Item）特征和相關性特征進行組合，同時也考慮了查詢和物品之間的交叉特征。經過特征轉換模塊，如歸一化和取對數等操作，我們將這些特征輸入到xgboost模型中進行預測得分。然后，我們選取TopK個預測結果作為最終的排序。

通過這樣的優化設計，我們能夠更好地利用xgboost模型的強大分類能力，并確保結果的穩定性和可控性。

3.3

大模型

***?*3.3.1模型介紹

? 我們構建了一個汽車領域的大語言模型倉頡，旨在解決看車、買車、用車、換車全流程問題。該模型基于先進的自然語言處理技術和深度學習算法，具備強大的語義理解和信息處理能力。無論是了解車型性能、比較品牌優劣，還是尋找購車建議或了解保養、維修等知識，我們的模型都能提供準確、全面的答案。

?3.3.2模型數據

為了滿足汽車行業的需求，團隊投入了大量的時間和精力，構建一個強大的汽車領域知識庫。下面是是訓練模型使用的部分數據介紹：

口碑文章：我們收集了大量的口碑文章，涵蓋了各種汽車品牌和型號的評價和評論。這些文章包含了消費者對汽車性能、外觀、舒適度等方面的真實反饋，為我們的模型提供了寶貴的參考。
問答數據：我們整理了大量的汽車領域問答數據，包括消費者提出的問題以及專家給出的回答。這些問答涉及到汽車購買、保養、維修等方面的知識，為我們的模型提供了廣泛而豐富的信息。
參配品庫：我們建立了一個詳盡的汽車參配品庫，包含了各種汽車配件和配置的信息。這些數據可以幫助用戶了解不同汽車型號的配置選項，從而做出更明智的購買決策。
百科知識：我們清洗和過濾了大量的百科知識數據，包括來自公開領域的百科的高質量內容。這些數據涵蓋了汽車行業的歷史、技術、發展趨勢等方面的知識，為我們的模型提供了全面而準確的背景信息。
網頁和書籍數據：我們還整理了大量的網頁和書籍數據，其中包含了關于汽車領域的專業知識和研究成果。這些數據來源廣泛，覆蓋了汽車行業的各個方面，為我們的模型提供了多樣化的學習材料。

通過對以上數據的深度清洗和過濾，我們的模型已經取得了令人矚目的訓練效果。它能夠準確理解和回答與汽車相關的問題，提供有用的建議和信息，幫助用戶更高效地處理業務問題。

?3.3.3模型訓練