大模型知識問答: 文本分塊要點總結

節前，我們組織了一場算法崗技術&面試討論會，邀請了一些互聯網大廠朋友、今年參加社招和校招面試的同學。

針對大模型技術趨勢、算法項目落地經驗分享、新手如何入門算法崗、該如何準備面試攻略、面試常考點等熱門話題進行了深入的討論。

總結鏈接如下：

《大模型面試寶典》(2024版) 發布！

本文介紹LLM知識問答中文本分塊的相關內容。

一、字符切分

Langchain的CharacterTextSplitter，直接按給定的chunk_size（塊內最大字符數量）去生硬切分文本塊，不考慮文本結構，為了保證文本塊之間的上下文聯系，基于chunk_overlap（塊重疊字符數量）去控制文本塊之間的重疊字數，注意，在英文里是按字母數考慮字符數量。當然，也能設置分隔符separator去分割。

圖：字符切分

二、句子切分

Llama_index的SentenceSplitter，針對句子層面切分文本塊，并且還提供父子節點關系。

三、遞歸字符切分

Langchain的RecursiveCharacterTextSplitter，默認分割符：[“\n\n”, “\n”, " ", “”]（分別代表段落分隔符、換行符、空格、字符），拆分器首先查找兩個換行符（段落分隔符）。一旦段落被分割，它就會查看塊的大小，如果塊太大，那么它會被下一個分隔符分割。如果塊仍然太大，那么它將移動到下一個塊上，以此類推。因為某些書寫系統沒有單詞邊界，例如中文、日語和泰語等，所以可以增加以下分隔符：[‘\n\n’, ‘\n’, ’ ', ‘.’, ‘,’, ‘\u200b’, ‘，’, ‘、’, ‘．’, ‘。’, ‘’]。

圖：遞歸字符切分

四、按文件風格切分

除了簡單的平文本文檔，對于其他不同格式的文件（比如HTML, Markdown, PDF等），采用不同的方式切分。比如：

- Markdown： 可以按照#來判斷標題級別進行切分，也可以標題塊下疊加字符切塊；

- Python等代碼文件： 可以按照class、def等切分出不同塊；

- PDF： 用Unstructured庫解析PDF文件，除文本外，表格也能很好抽取出來，由于表格向量化不具備較好的語義信息，一般開發者會將抽取出的表格先做總結，將表格總結向量化加入檢索池中，若檢索到該表格，則將原始表格喂入LLM內。

- 圖片： 有好多做法，比如如果圖片具有文本信息，可以直接OCR識別后的文字作為該圖片的文本塊。如果該圖片不具備文本信息，可以用多模態大模型對圖片生成圖片描述或總結，當然也能用圖片embedding，如CLIP。這里不太屬于文本分塊的討論范疇，后面會再做分享；

- HTML： 按元素級別拆分文本，并給每個文本塊添加元素級別的元數據，能將具有相同元數據的元素組合再一起。

五、語義切分

1、基于Embedding

Langchain的SemanticChunker，由Greg Kamradt提出[1]，有2種方式：

（1）具有位置獎勵的層次聚類： Greg想看句子嵌入的層次聚類會如何。但由于發現他選擇按句子進行拆分時，有時會在長句子之后出現短小句子。這些尾隨的短小句子可能可以改變一個塊的含義，所以他添加了一個位置獎勵，如果它們是彼此相鄰的句子，則更有可能形成聚類。最終結果還不錯，但調整參數很慢且不理想；

（2）在連續句子之間找到語義斷點： 這是一種遍歷方法。先從第一個句子開始，得到向量，然后將其與句子2進行比較，然后比較2和3等等。如果出現向量距離大的斷點，如果它高于閾值，那么認為它是一個新語義部分的開始。最初Greg嘗試對每個句子進行向量化，但結果發現噪音太大。所以最終選取了3個句子的組（一個窗口），然后得到一個嵌入，然后刪除第一個句子，并添加下一個句子。這樣效果會好一點。

作者推崇的第二種辦法，我總結其主要步驟如下：

1）按分隔符切分出句子sentence；

2）對每個句子，把其前后的句子一起合并成一個窗口的句子組合（即上下文關聯，單個句子擴充至3個句子combined_sentence）；

3）將combined_sentence向量化，得到combined_sentence_embedding；

4）計算位置i和位置i+1之間的combined_sentence_embedding的余弦距離distance_to_next，

5）根據余弦距離的分布設置分割閾值，獲取斷點；

6）基于斷點合并句子進文本塊中。

圖：基于embedding的語義切分

但實際使用還是小心，因為閾值設置不當，容易發送塊內字數過多的問題，對后續LLM檢索和回答很不利，建議可以根據文檔字數，計算number_of_chunks，然后用此參數去調整語義斷點的閾值。

2、基于模型

可以用下一句預測（Next Sentence Prediction, NSP）二分類任務的BERT模型，輸入前后兩個句子，預測句子彼此之間相鄰的可能性，若分數低于閾值，說明語義不太相關，可以分割。我們也知道BERT的預訓練目標就是MLM（掩碼語言建模）和NSP（下一句預測），其中NSP是用[CLS]做二分類預測，所以我們可以直接調用Google的BERT模型 [4]完成基于模型的語義切分方案。

關于利用BERT做文本分割（Text Segmentation）還有很多其他研究，比如：

（1）2020年Google Research提出的《Text segmentation by cross segment attention》：用BERT獲取句子表征，然后再輸入BiLSTM或Transformer預測每個句子是否為分割邊界；

圖：《Text segmentation by cross segment attention》

（2）2021年阿里語音實驗室在提出的SeqModel模型《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》： 如下圖所示，先分句，然后對句子分詞，獲取token、segment、position embedding后做element-wise求和，再加上發音embedding后喂入BERT編碼器，對輸出做平均池化，接入softmax輸出分類判斷每個句子是否為段落邊界。為什么加入發音embedding？因為該模型提出的出發點是解決對長會議ASR生成的文本缺乏段落結構的問題。像ASR會出現寫轉寫錯誤，比如發音相似但含義不同的聲學混淆詞等。所以把字的發音信息（通過中文發音表查）來增強文本分割模型輸入的表征向量（即phone embedding）。

同時，提出了自適應滑窗提升推理速度，就是基于模型預測的段落分割點，去滑動窗口，如下圖所示。

圖：《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》

以上阿里的SeqModel開源了，我用過SeqModel，說實話一些細節上的體驗不是很好，比如帶小數點的數字會被誤切分。

六、Agent 式切分

我用可以嘗試使用LLM做語義切分，其中被討論最多是騰訊AI Lab在2023年提出的Propositionizer [2]，它好處在于能解決文本中指代消解的問題，比如"it", “he”, “she”, “they”, “this”, "that”指代的實體全稱是什么，而且分解成比句子還更細粒度且信息稠密的命題（Proposition），加入文本分塊。效果如下圖所示：

圖：在Wikipedia文本上，三種不同細粒度的檢索單元（其中，a）段落塊不超過100個字，句子by句子的添加進段落塊，確保句子不被強行字符分割，最后一個塊少于50字，會和歷史句子合并，避免過于小的段落塊。b）句子塊用Python的SpacCy en_core_web_lg模型做分句，c）命題塊則使用Propositionizer模型）

作者實現Propositionizer的步驟如下：

1）從英文Wikipedia拉取2021-10-13至今的數據；

2）對GPT-4做指令微調（Proposition定義和1-shot展示），將段落塊作為輸入，要求LLM輸出一系列命題；

3）將獲取并過濾后的4.3萬對”段落-to-命題“，作為種子集微調Flan-T5-large模型。

可惜的是，開源的Propositionizer受限于訓練語料，僅支持英文。

七、其他文本塊優化點

在實踐中，我們常發現一些問題，比如：

（1）上下文的關聯信息跨度大或信息稀疏，導致文本塊內信息密度低。 舉例：聊天記錄，或某文章分點記錄各內容時，用戶向該文章提問有哪些分點內容或層次結構。

（2）標題信息過短，導致文本塊向量化后，標題語義信息被文本塊內其他內容給模糊了。 具體：某文本塊內包含標題5個字，標題下內容有300字。

（3）用戶提問內容涉及跨多個文件做檢索和整合回答時，大多數文本分塊方法不具備跨文件關聯。

為了解決以上問題，也有對應一些優化手段。

1、摘要增強

用較大chunk_size去字符切分文本，然后對大文本塊用LLM做總結，作為摘要塊加入向量數據庫中。能在一定程度解決前面提到的問題1。

2、標題增強

將標題下的相應文本塊，都加入標題前綴，并且重復多幾次標題。如：block = concat(’#’.join([title]*3), content_under_title)。能解決前面提到的問題2。

3、假設性問題生成

基于給定的文本塊，生成假設性問題，將生成的問題和對應文本塊加入檢索內容中。Langchain有個Hypothetical Queries方法[3]可調用。能解決前面提到問題1中的聊天記錄場景下的信息稀疏問題。其實說直白了，不就是QA對的生成嗎？往往好的QA對比文本塊更容易被檢索到。想要往這方面深入擴展，可以參考Ragas的TestsetGenerator（一套用LLM生成QA的Prompts工程）。

4、父文檔檢索器

其實父文檔檢索器簡單理解是利用不同chunk_size去分塊，先將原始文檔拆分成較大塊，再對較大塊拆分成較小塊，然后對較小塊進行索引向量檢索，最后返回的是相似度高的較小塊下的父文本較大塊。這樣的好處是：較小塊語義含義更精準，其父文本塊又能保留到足夠長的上下文信息。能解決前面提到的問題1。Langchain有ParentDocumentRetriever，llama_index有HierarchicalNodeParser。

5、知識圖譜

如果你的數據具有豐富的實體和實體間的關系，建議轉換成知識圖譜。如果不想手動整理圖譜，可以用Langchain的LLMGraphTransformer，利用LLM解析和分類文本中的實體和實體間的關系。能解決前面提到的問題3。

參考資料

[1] 5_Levels_Of_Text_Splitting - Greg Kamradt, 代碼：https://github.com/FullStackRetrieval-com/RetrievalTutorials/blob/main/tutorials/LevelsOfTextSplitting/5_Levels_Of_Text_Splitting.ipynb

[2] Dense X Retrieval: What Retrieval Granularity Should We Use? 論文: [2312.06648] Dense X Retrieval: What Retrieval Granularity Should We Use? (arxiv.org)，代碼：https://github.com/chentong0/factoid-wiki

[3] Hypothetical Queries, 文檔：MultiVector Retriever | 🦜?🔗 LangChain

[4] Bert - Google, 代碼：google-bert/bert-base-uncased ·擁抱臉 (huggingface.co)