外掛知識庫的基本知識與內容

外掛知識庫

1.什么是rag？

RAG,即LLM在回答問題或生成文本時，會先從大量文檔中檢索出相關的信息，然后基于這些信息生成回答或文本，從而提高預測質量。

2.外掛知識庫的實現思路

只用幾十萬量級的數據對大模型進行微調并不能很好的將額外知識注入大模型。如果想讓大模型根據文檔來回答問題，必須要精簡在輸入中文檔內容的長度。

如果模型對無限長的輸入都有很好的理解能力，那么我可以設計這樣一個輸入“以下是世界上所有樂隊的介紹：[插入100w字的樂隊簡介文檔]，請根據上文給我介紹一下萬青這支樂隊”，讓模型來回答我的問題。

一種做法是，我們可以把文檔切成若干段，只將少量的和問題有關的文檔片段拿出來，放到大模型的輸入里。至此，”大模型外掛數據庫“的問題轉換成了“文本檢索的問題”了，目標是根據問題找出文檔中和問題最相關的片段，這已經和大模型本身完全無關了。

文本檢索里邊比較常用的是利用向量進行檢索，我們可以把文檔片段全部向量化（通過語言模型，如bert等），然后存到向量數據庫（如Annoy、 FAISS、hnswlib等）里邊，來了一個問題之后，也對問題語句進行向量話，以余弦相似度或點積等指標，計算在向量數據庫中和問題向量最相似的top k個文檔片段，作為上文輸入到大模型中。向量數據庫都支持近似搜索功能，在犧牲向量檢索準確度的情況下，提高檢索速度。

3.對稱語義檢索與非對稱語義檢索

問題1：How to learn Python online?

答案1:How to learn Python on the web?

適用于非對稱語義檢索的例子：

問題2:What is Python？

答案2:*Python is an interpreted, high-level and general-purpose programming language. Python’s design philosophy …”

對稱語義檢索的“問題”和“答案”要求有差不多的意思，或者根本就不屬于我們常規意義里的問答，而僅僅是同義句匹配。而非對稱語義檢索所做的任務才是我們常規意義下問答任務。很顯然，通過向量檢索的方式進行非對稱語義檢索的難度要大的多。對稱語義檢索的目標是找相似的句子，與向量檢索基于計算向量相似度的原理天然匹配，只需要模型有比較強的內容抽象能力就可以。但是非對稱語義檢索則要求模型能夠將問題和答案映射到同一空間

通過上述例子，可以看出向量檢索只能檢索出意思差不多的內容，下游用一個可以真正能很好理解語義的大模型進行進一步的提取檢索出來的句子中的信息是十分有必要的。

模型是否支持非對稱語義檢索的根本原因是什么呢？是訓練的數據不同

正是因為訓練數據有真正的問答屬性，模型才有真正的問答檢索能力（將問題與答案映射到同一向量空間）。我的理解是，如果訓練數據里沒有某一領域的數據，比如金融領域，那么通用的非對稱語義模型就不能很好的完成該領域的檢索任務。但是對稱語義檢索有“泛化”到其他領域的能力，畢竟只需要理解“字面意思”。

就直接把問題+答案拼在一起，做個二分類嘛。模型同時有了問題+答案這樣一對的上下文信息，當然比直接分別將問題+答案映射到相同的向量空間、再計算相似度準的多了。但是這種計算向量相似度的模式會慢。假設有m個問題和n個答案，向量檢索（圖中的bi-encoder環節）只需要跑m+n次bert模型就夠了，但是cross-encoder需要將所有問題和答案分別組合起來，跑m*n次bert模型。