基于deepseek的文本解析 - 超長文本的md結構化

pdf超長合同或其他超100頁非結構化文檔,很難全量提交deepseek進行分析,一般需要先進行分割。然而,不管是langchain還是llamaindex提供的文本分割工具,很難直接對非結構化文本進行準確的內容分割,很多原始整體段落被劃分在不同的分塊中。

這里嘗試基于deepseek,將pdf解析后的非結構化文本轉化為結構化的md,以支持langchain或llamaindex進行更有效的向量化文檔分塊,避免原始整體段落被劃分在不同的分塊中。

1 解析prompt示例

以下是prompt實例,每次連續讀若干頁進行解析,確保prompt輸入在deepseek max_tokens范圍內。為了保持連續性,本次解析的內容和上次解析的內容保持一頁重合。如此,對于連續多頁待解析塊的內容,其第一頁已在上次完成解析,相關內容已經合并到md文檔中。

already_parsed為之前已經完成解析的結構化md文檔。

waiting_parsed為本次待解析的非結構化文本文檔。

你是企業運營人員。
以下是已經解析歸并后的合同md文件。

{already_parsed}

以下是合同連續多頁內容,第一頁已經被解析并合并到以上md文件中。
請仔細閱讀以上內容,將沒有被解析的內容合并到md文件中。
---

{waiting_parsed}

2 deepseek迭代解析

deepseek完成本次解析后,將deepseek解析生成的結構化md作為already_parsed輸入,將下次待解析非結構化的若干頁文檔作為waiting_parsed輸入。

如此重復多次,直到完成整個非結構化文檔的解析。

最終輸出的md文檔即為結構化的md文檔。

reference

---

deepseek r1 chat

https://chat.deepseek.com/

RAG向量化文檔分塊方式探索

https://blog.csdn.net/liliang199/article/details/149798215

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/91480.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/91480.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/91480.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

介紹一個圖像修復開源項目,從模糊到清晰僅需1.7秒:HYPIR圖像修復技術如何改變數字世界?

文章概要 作為一名長期關注圖像處理技術的愛好者,當我第一次接觸到HYPIR這一革命性圖像修復工具時,我被其驚人的速度和質量所震撼。本文將全面介紹由中國科學院深圳先進技術研究院董超研究員團隊研發的HYPIR圖像修復大模型,詳細解析其核心技術…

基于UDP的SNMP協議

SNMP協議詳解 SNMP (Simple Network Management Protocol),“簡單網絡管理協議”,是廣泛應用于TCP/IP網絡中,用于管理和監控網絡設備的一種標準協議。它允許網絡管理員查詢網絡設備的狀態信息、配置參數、接收故障告警等,從而實現…

3D空間中的變換矩陣

3D 空間中的變換矩陣詳解 在 3D 計算機圖形學中,所有幾何變換都可以通過 44 齊次變換矩陣 來表示。以下詳細介紹各種變換矩陣及其原理。 核心變換矩陣 1. 單位矩陣(不變變換) I[1000010000100001] I \begin{bmatrix} 1 & 0 & 0 &…

長連接(Long Connection)詳解

一、長連接基本概念長連接(也稱為持久連接)是指在一個TCP連接上可以連續發送多個HTTP請求/響應,而不是每次通信都建立新的連接。這是HTTP/1.1的默認行為,通過Connection: keep-alive頭部實現。二、工作原理1. 傳統短連接流程客戶端…

【匯總】接口自動化測試 + 持續集成(文末視頻演示)

技術棧:java testng httpclient allure fastjson jsonpath poi/yaml log4j 有建議請聯系wx:ren168632201 java接口自動化系列(01):自動化測試框架設計(入門版) java接口自動化系列(02):測試數據文件設計(excel/yam) java接…

科研快報 |無人機+AI:廣東防控基孔熱背后的技術革命

Prism Path 科 研 快 報 CS跨學科頂尖期刊論文資訊 -NO.2025001- 人工智能在登革熱預防、控制與管理中的作用:一項技術性敘述綜述 The role of artificial intelligence for dengue prevention, control, and management: A technical narrative review 期刊…

常見的中間件漏洞

建議:啟動下一個環境時,將上一個環境關閉,防止端口沖突和運行卡頓1.TomcatTomcat put方法任意文件寫入漏洞Apache Tomcat 7.0.0 - 7.0.79 Apache Tomcat 8.5.19環境:cd vulhub-master/tomcat/CVE-2017-12615 docker-compose up -d…

7寸工業模組 XA070Y2-L01芯顯科技詳細參數資料

芯顯7寸工業液晶屏 XA070Y2-L01 技術規格單 基礎信息 項目 參數 制造商 芯顯 型號 XA070Y2-L01 顯示技術 a-Si TN TFT-LCD 應用場景 車載中控 / 工業HMI 屏幕尺寸 7.0英寸 機械結構 特性 指標 顯示區域 152.4 91.44 mm 整機尺寸 165 104.09 9.1 mm 公差范圍 0.5 mm 表面處理…

機器學習基礎-numpy

一、相關知識點二、例子:import matplotlib.pyplot as plt import numpy as npplt.rcParams[font.sans-serif] [KaiTi] # 使用黑體 plt.rcParams[axes.unicode_minus] False # 解決負號顯示問題math np.random.randint(low60,high100,size50) english np.rand…

Cockpit管理服務器

Cockpit 是一個開源工具,通過Web Console管理Linux服務器。部署 Cockpit[rootserver ~ 11:05:26]# yum -y install cockpit?[rootserver ~ 11:30:26]# systemctl enable cockpit.socket --nowCreated symlink from /etc/systemd/system/sockets.target.wants/cockp…

處理訂單過期但支付成功的系統設計:平衡用戶體驗與業務規則

設計一個處理訂單過期但用戶支付成功的場景,需要平衡用戶體驗、系統一致性和業務規則。以下是一個系統化的設計方案,涵蓋關鍵流程、異常處理和用戶溝通:1. 場景分析 背景:用戶在下單后,訂單因超時而被標記為“過期”&a…

AI學習筆記三十三:基于Opencv的單目標跟蹤

若該文為原創文章,轉載請注明原文出處。一、功能介紹主要是想實現跟蹤視頻中的一個特定目標。使用了OpenCV庫來實現視頻中特定目標的跟蹤。需要提供視頻文件路徑以及目標在第一幀中的位置坐標(x, y, width, height),程序會自動跟蹤…

第二篇:Three.js核心三要素:場景、相機、渲染器

第二篇:Three.js核心三要素:場景、相機、渲染器 引言 在Three.js的世界里,場景(Scene)、相機(Camera)和渲染器(Renderer)構成了最基礎的"鐵三角"。它們如同導演、攝像機和放映機,共同決定了3D內容的呈現方式。本篇將深入…

RagFlow本地源碼部署(非Docker)

參考官方文檔做個總結 1. 提前安裝好uv pipx install uv pre-commit2. 下載源碼: git clone https://github.com/infiniflow/ragflow.git cd ragflow/ uv sync --python 3.10 --all-extras # install RAGFlow dependent python modules uv run download_deps.py …

[免費]基于Python的招聘職位信息推薦系統(獵聘網數據分析與可視化)(Django+requests庫)【論文+源碼+SQL腳本】

大家好,我是python222_小鋒老師,看到一個不錯的基于Python的招聘職位信息推薦系統(獵聘網數據分析與可視化)(Djangorequests庫),分享下哈。 項目視頻演示 【免費】基于Python的招聘職位信息推薦系統(獵聘網數據分析與可視化)(Django爬蟲) P…

國產化PDF處理控件Spire.PDF教程:Java 提取 PDF 圖片,高質量提取與圖片過濾技巧

在處理包含圖片的 PDF 文件時,例如掃描文檔、產品手冊或宣傳資料,我們經常需要將其中的圖像提取出來,用于保存、識別或再加工。E-iceblue旗下Spire系列產品,是文檔處理領域的佼佼者,支持國產化信創。本文將介紹如何使用…

Cesium 快速入門(七)材質詳解

Cesium 快速入門(七)材質詳解 看過的知識不等于學會。唯有用心總結、系統記錄,并通過溫故知新反復實踐,才能真正掌握一二 作為一名摸爬滾打三年的前端開發,開源社區給了我飯碗,我也將所學的知識體系回饋給大…

C++:結構體(Structure)

目錄 第一性原理出發:我們要解決什么問題? 定義結構體(Defining Structures) 問題:名字太長怎么辦? 如何定義結構體變量? 結構體的大小(Size of Structures) 初始化…

化學結構式解讀指南:從基礎認知到InDraw智能識別

中文名稱:3-[2-(二甲基氨基)乙基]-1H-吲哚英文名稱:3-[2-(dimethylamino)ethyl]-1H-indole分子式: C12H16N2分子量: 188.2740這是什么結構式?怎么繪制呢?可以用InDraw里的AI圖像識別這個結構式,也可以手動繪圖&#xf…

如何使用一臺電腦adb調試多個Android設備

目錄 一、臨時斷開其中一個設備連接 二、指定調試設備 總結 當我們使用Android調試工具調試多個設備,例如一開始使用adb連接了一臺Android真機進行調試,此時又在Android studio中打開了一個模擬機,此時我們在adb命令窗口中使用adb命令的…