pdf超長合同或其他超100頁非結構化文檔,很難全量提交deepseek進行分析,一般需要先進行分割。然而,不管是langchain還是llamaindex提供的文本分割工具,很難直接對非結構化文本進行準確的內容分割,很多原始整體段落被劃分在不同的分塊中。
這里嘗試基于deepseek,將pdf解析后的非結構化文本轉化為結構化的md,以支持langchain或llamaindex進行更有效的向量化文檔分塊,避免原始整體段落被劃分在不同的分塊中。
1 解析prompt示例
以下是prompt實例,每次連續讀若干頁進行解析,確保prompt輸入在deepseek max_tokens范圍內。為了保持連續性,本次解析的內容和上次解析的內容保持一頁重合。如此,對于連續多頁待解析塊的內容,其第一頁已在上次完成解析,相關內容已經合并到md文檔中。
already_parsed為之前已經完成解析的結構化md文檔。
waiting_parsed為本次待解析的非結構化文本文檔。
你是企業運營人員。
以下是已經解析歸并后的合同md文件。{already_parsed}
以下是合同連續多頁內容,第一頁已經被解析并合并到以上md文件中。
請仔細閱讀以上內容,將沒有被解析的內容合并到md文件中。
---{waiting_parsed}
2 deepseek迭代解析
deepseek完成本次解析后,將deepseek解析生成的結構化md作為already_parsed輸入,將下次待解析非結構化的若干頁文檔作為waiting_parsed輸入。
如此重復多次,直到完成整個非結構化文檔的解析。
最終輸出的md文檔即為結構化的md文檔。
reference
---
deepseek r1 chat
https://chat.deepseek.com/
RAG向量化文檔分塊方式探索
https://blog.csdn.net/liliang199/article/details/149798215