RAG中對于PDF復雜格式文件的預處理的解決方案:MinerU
1. 場景
在RAG場景下,我們所遇到的文檔格式可不僅僅局限于txt文件,而對于復雜的PDF文件,里面有圖片格式的Excel、圖片格式的文字、以及公式等等復雜的格式,我們很難用傳統的方式去解析預處理成我們可以用的類似于TXT格式的純文本。
2. 解決方案
你的PDF解析大殺器,讓LLM更懂你的數據.
面臨的挑戰:
1、結構復雜:可以包含文本、圖像、矢量圖形、注釋、表單、公式等各種內容,每種內容的表示方式都不一樣.
2、布局復雜:PDF文件的文本并不是線性存儲的,而是根據頁面布局存儲.這意味著解析器需要處理復雜的布局來重建文本的順序.
3、字體和編碼:PDF文件中的文本可以使用多種編碼方式和字體.
4、結構信息缺乏:與HTML或XML等格式不同,PDF文件通常不包含明確的結構信息(如標簽、段落、表格結構等).
1. MinerU(極力推薦)
MinerU 是一款將 PDF 轉換為機器可讀格式(例如 markdown、JSON)的工具,可輕松提取為任何格式。MinerU 誕生于InternLM的預訓練過程中。我們