直接使用python工具解析pdf文件,可能因為格式兼容問題,導致解析出的文本幾乎不可讀。
這里嘗試使用Deepseek解析pdf文件,這里僅考慮文本,不考慮其他要素。
1 解析第一步
將pdf作為附件上傳到deepseekchat界面,輸入如下所示提示詞。
轉化為txt格式文本,需要按原文完整輸出,需要盡可能輸出,越多越好。
保存deepseek解析后的txt文本。
2 繼續解析
由于受長度限制,第一步往往不能完整解析pdf全文,需要考慮繼續解析的問題。
prompt示例如下,提示deepseek繼續輸出。
“請繼續從"3.3 現場環境衛生和衛生防疫 "開始輸出,將3章輸出完整。”
另外,還需要定義格式,這樣本次輸出格式和上次輸出格式就能保持一致。
轉化為txt格式文本,需要按原文完整輸出,需要盡可能輸出,越多越好。
請繼續從"3.3 現場環境衛生和衛生防疫 "開始輸出,將3章輸出完整。
?格式定義如下
---
#### 3.3 現場環境衛生和衛生防疫 ?
3.3.1 建設單位、施工單位應當根據建筑垃圾減排處理和綠色施工有關規定,采取措施減少建筑垃圾的產生,對施工工地的建筑垃圾實施集中分類管理;具備條件的,對工程施工中產生的建筑垃圾進
將deepseek輸出拼接到上次解析后的txt文本。
如此,重復多次就能獲得完整的pdf轉txt后的文本,且格式規范。
reference
---
deepseek
https://chat.deepseek.com/a/chat