借助于llm將pdf轉化為md文本

pdf轉化為md格式后,意味著非結構化文本轉為結構化文本,能清晰定位大標題、子標題,圖表。

方便后續處理,因為llamaindex和langchain能更有效切分md類文本,避免信息丟失。

1)讀取pdf為txt

讀取pdf,并使用RecursiveCharacterTextSplitter去嘗試分塊,一般情況下效果不好

pdf文本暫時表示recur_text

from langchain.text_splitter import RecursiveCharacterTextSplitter, CharacterTextSplitterfrom pypdf import PdfReader
# 讀取 PDF 文件
pdf_path = 'docs/word.pdf'
reader = PdfReader(pdf_path)
recur_text = ''
for page in reader.pages:recur_text += page.extract_text().strip() + "\n\n"recur_splitter = RecursiveCharacterTextSplitter(separators=["。"],chunk_size = 512,chunk_overlap  = 128
)
recur_docs = recur_splitter.create_documents([recur_text])

2)使用llm將txt轉化為md

qwen或deepseek小一點的LLM不能完成這個任務,deepseek-r1完整版本可以。

prompt示例如下

# 示例調用
prompt = """
請將以下合同轉化為md格式。
---
{}
""".format(recur_text)

若recur_text太長,需要切分后分批調用。

另外一種方式,就是將pdf先轉化為圖譜,在調用qwen2.5-vl模型解析圖片輸出md5文檔。

reference

---

qwen2.5vl-pdf2md

https://github.com/QwenLM/Qwen2.5-VL/blob/main/cookbooks/document_parsing.ipynb

olmocr

https://github.com/allenai/olmocr

六個開源的PDF轉Markdown項目

https://zhuanlan.zhihu.com/p/711487482

llm-parse

https://github.com/tanchangsheng/llm-parse

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/91507.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/91507.shtml
英文地址,請注明出處:http://en.pswp.cn/web/91507.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

設計模式:中介者模式 Mediator

目錄前言問題解決方案結構代碼前言 中介者是一種行為設計模式,能讓你減少對象之間混亂無序的依賴關系。該模式會限制對象之間的直接交互,迫使它們通過一個中介者對象進行合作。 問題 假如你有一個創建和修改客戶資料的對話框, 它由各種控件…

計算機基礎速通--數據結構·線性表應用

如有問題大概率是我的理解比較片面,歡迎評論區或者私信指正。 考察線性表,核心圍繞其存儲結構特性、核心操作實現、場景應用選型三大維度,重點檢驗對基礎概念的理解、代碼實現能力及問題分析能力,通常會結合算法設計、復雜度分析和…

LeetCode Hot 100:42. 接雨水

題目 給定 n 個非負整數表示每個寬度為 1 的柱子的高度圖,計算按此排列的柱子,下雨之后能接多少雨水。 解析 和題目 盛水最多的容器 類似, LeetCode Hot 100:11. 盛最多水的容器-CSDN博客 只是這里將每一個柱子視為一個寬度為…

【C語言入門級教學】字符指針變量

文章目錄1.字符指針變量2. 數組指針變量2.1 數組指針變量初始化3.?維數組傳參的本質1.字符指針變量 在指針的類型中我們知道有?種指針類型為字符指針 char* ; ?般使?: int main() { char ch w; char* pc &ch;//pc的類型是char**pcw;//對pc解引用 修改ch存放的內容…

【Shell腳本自動化編寫——報警郵件,檢查磁盤,web服務檢測】

Shell腳本自動化編寫Shell腳本自動化編寫一、判斷當前磁盤剩余空間是否有20G,如果小于20G,則將報警郵件發送給管理員,每天檢查一次磁盤剩余空間。第一步:準備工作第二步:配置郵件信息第三步:檢查磁盤的自動…

Java 接口(下)

三、接口的繼承性【基礎重點】 1. Java中的接口之間的繼承關系是多繼承,一個接口可以有多個父接口(1) 語法:interface 接口名 extends 父接口1,父接口2{} 2. 類和接口之間是多實現的關系:一個類可以同時實現多個接口(1) 語法:clas…

學習游戲制作記錄(各種水晶能力以及多晶體)8.1

1.實現創建水晶并且能與水晶進行交換位置的能力創建好水晶的預制體,添加動畫控制器,傳入待機和爆炸的動畫創建Crystal_Skill_Control腳本:掛載在水晶預制體上private float crystalExstTime;//水晶存在時間public void SetupCrystal(float _c…

在vscode 如何運行a.nut 程序(Squirrel語言)

在 VS Code 中運行 Squirrel 語言編寫的 .nut 程序,需要先配置 Squirrel 運行環境并安裝相關插件,具體步驟如下: 一、安裝 Squirrel 解釋器 Squirrel 程序需要通過其官方解釋器 squirrel 或 sq 執行,首先需要安裝解釋器&#xf…

【數據結構】生活中的數據結構:從吃飯與編程看棧與隊列思維

生活中的數據結構:從吃飯與編程看棧與隊列思維 在軟件開發的世界里,棧(Stack)和隊列(Queue)是兩種基礎的數據結構,它們以不同的順序管理數據:棧遵循后進先出(LIFO&#x…

牛客——接頭密匙

題目鏈接:牛客--接頭密匙 該題是一個很顯然的前綴樹問題,只需要構建a中所有數組對應的前綴樹,之后求b所處前綴個數即可。關于前綴樹的構建,可以觀看左老師算法講解045的視頻,簡單來講就是用特殊字符將實際數據隔開&…

【Linux基礎知識系列】第六十三篇 - 文件編輯器基礎:vim

在 Linux 系統中,文本編輯器是系統管理員和開發人員不可或缺的工具。vim 是一個功能強大的文本編輯器,廣泛應用于 Linux 系統中。它支持多種編輯模式,提供了豐富的文本編輯功能,適用于編寫代碼、配置文件和文檔。掌握 vim 的基本使…

音頻驅動的視覺特效:粒子、動畫與Shader的融合技術

音頻驅動視覺效果的實現與應用1. 引言在互動媒體、游戲和數字藝術領域,音頻數據實時控制視覺元素已成為核心技術,它能創造沉浸式體驗,增強用戶參與感。例如,音樂會可視化或VR游戲中,音頻信號驅動粒子流動、動畫變化和S…

機器學習環境配置

【終極指南】吃透機器學習環境配置:從Conda、CUDA到Docker容器化 大家好!在機器學習的旅程中,一個穩定、可復現的環境是成功的基石。 第一部分:核心理念——為何環境配置如此重要? 任何機器學習模型的運行,…

【14】大恒相機SDK C#開發 ——Bitmap.UnlockBits()什么意思?有什么用?bmpData.Scan0;什么意思?有什么用?

文章目錄1 Bitmap.UnlockBits()2 bmpData.Scan01 Bitmap.UnlockBits() 在 C# 中,Bitmap.UnlockBits() 方法的作用是解鎖通過 Bitmap.LockBits() 方法鎖定的位圖數據,并釋放相關的位圖數據結構。 當你使用 Bitmap.LockBits() 方法鎖定位圖數據時&#x…

什么是doris

文章目錄簡介使用場景Apache Doris 主要應用于以下場景:實時數據分析:湖倉融合分析:半結構化數據分析:Apache Doris 的核心特性詳細請看官方文檔: Apache Doris介紹簡介 Apache Doris 是一款基于 MPP 架構的高性能、實…

python+pyside6的簡易畫板

十分簡單的一個畫板程序,用QLabel控件作為畫布,在畫布上可以畫出直線、矩形、填充矩形、園,橢園、隨手畫、文本等內容。將原先發布的畫板程序中的畫文本方法修改成了原位創建一編輯框,編輯框失去焦點后,即將文本畫在畫…

【數據可視化-76】從釋永信被查,探索少林寺客流量深度分析:Python + Pyecharts 炫酷大屏可視化(含完整數據和代碼)

🧑 博主簡介:曾任某智慧城市類企業算法總監,目前在美國市場的物流公司從事高級算法工程師一職,深耕人工智能領域,精通python數據挖掘、可視化、機器學習等,發表過AI相關的專利并多次在AI類比賽中獲獎。CSDN…

WPF TreeView自帶自定義滾動條

放在TreeView.Resources中&#xff1a;<Style TargetType"ScrollBar"><Setter Property"Stylus.IsPressAndHoldEnabled" Value"false"/><Setter Property"Stylus.IsFlicksEnabled" Value"false"/><Set…

MongoDB 詳細用法與 Java 集成完整指南

MongoDB 詳細用法與 Java 集成完整指南 目錄 MongoDB 基礎概念MongoDB 安裝與配置MongoDB Shell 基本操作Java 環境準備Java MongoDB 驅動集成連接配置基本 CRUD 操作高級查詢操作索引操作聚合管道事務處理Spring Boot 集成最佳實踐 1. MongoDB 基礎概念 1.1 核心概念對比 …

【Flutter3.8x】flutter從入門到實戰基礎教程(四):自定義實現一個自增的StatefulWidget組件

fluttet中實現一個自定義的StatefulWidget組件&#xff0c;可以在數據變化后&#xff0c;把最新的頁面效果展示給客戶 實現效果實現代碼 pages文件夾下新加一個counter_page.dart文件 class CounterPage extends StatefulWidget {const CounterPage({super.key});overrideState…