基于deepseek的文本解析 - 超長文本的md結構化

pdf超長合同或其他超100頁非結構化文檔，很難全量提交deepseek進行分析，一般需要先進行分割。然而，不管是langchain還是llamaindex提供的文本分割工具，很難直接對非結構化文本進行準確的內容分割，很多原始整體段落被劃分在不同的分塊中。

這里嘗試基于deepseek，將pdf解析后的非結構化文本轉化為結構化的md，以支持langchain或llamaindex進行更有效的向量化文檔分塊，避免原始整體段落被劃分在不同的分塊中。

1 解析prompt示例

以下是prompt實例，每次連續讀若干頁進行解析，確保prompt輸入在deepseek max_tokens范圍內。為了保持連續性，本次解析的內容和上次解析的內容保持一頁重合。如此，對于連續多頁待解析塊的內容，其第一頁已在上次完成解析，相關內容已經合并到md文檔中。

already_parsed為之前已經完成解析的結構化md文檔。

waiting_parsed為本次待解析的非結構化文本文檔。

你是企業運營人員。
以下是已經解析歸并后的合同md文件。

{already_parsed}

以下是合同連續多頁內容，第一頁已經被解析并合并到以上md文件中。
請仔細閱讀以上內容，將沒有被解析的內容合并到md文件中。
---

{waiting_parsed}

2 deepseek迭代解析

deepseek完成本次解析后，將deepseek解析生成的結構化md作為already_parsed輸入，將下次待解析非結構化的若干頁文檔作為waiting_parsed輸入。

如此重復多次，直到完成整個非結構化文檔的解析。

最終輸出的md文檔即為結構化的md文檔。

reference

---

deepseek r1 chat

https://chat.deepseek.com/

RAG向量化文檔分塊方式探索

https://blog.csdn.net/liliang199/article/details/149798215

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/91480.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/91480.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/91480.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！