pix2text 使用經驗

給同行打雞血 😊

構建結構化的數理領域知識庫：

提高可訪問性和可搜索性

Markdown和LaTeX格式：這兩種格式易于在線發布和共享，有助于提高數學內容的可訪問性。
搜索引擎優化：將PDF內容轉換為標記語言，可以增強搜索引擎的索引能力，使得數學知識更容易被檢索到。

促進知識整合與共享

跨平臺兼容性：Markdown和LaTeX文檔可以在多個平臺和設備上無障礙地查看和編輯。
版本控制：利用Git等版本控制系統，可以更有效地管理和更新數學知識庫。

優化內容結構

層次化組織：Markdown和LaTeX提供了清晰的標題、列表、引用等結構化元素，有助于組織和呈現復雜的數學概念。
模塊化內容：將內容分解為小的、可復用的模塊，便于構建和管理大規模的知識庫。

加強學術交流與合作

公式編輯與展示：LaTeX特別適合編輯數學公式，保證了學術交流的專業性和準確性。
協作編輯：多人可以同時在線編輯同一份文檔，促進學術合作。

促進知識再利用

自動化處理：轉換為標記語言后，可以更容易地實現自動化處理，如自動摘要、信息提取等。
數據交換：便于與其他數據庫或知識管理系統進行數據交換。

具體的貢獻點：
對Markdown（.md）文檔的貢獻：

簡潔性：Markdown語法簡單，易于學習和使用，降低了數學內容創作者的技術門檻。
即時預覽：許多在線編輯器支持Markdown的即時預覽，便于作者快速校對和格式調整。
對LaTeX（.tex）文檔的貢獻：
專業排版：LaTeX提供了專業的數學公式排版功能，保證了數學文檔的專業性和美觀性。
學術標準：LaTeX是學術出版界的標準工具，轉錄PDF為LaTeX文檔有助于保持學術出版的一致性。

知識產權隱患

版權侵犯：

如果PDF文件受版權保護，未經授權將其內容轉錄可能侵犯原作者或出版商的版權。
即使是用于教育或研究目的，也需要確保符合“公平使用”（Fair Use）原則。

專利權：
- 數學理論或方法可能受到專利保護，未經許可的轉錄可能侵犯專利權。
商標權：

在轉錄過程中，如果使用了他人的商標或標識，可能會侵犯商標權。

學術道德隱患

抄襲與剽竊：
- 在轉錄過程中，如果不正確引用或標明原文出處，可能被視為抄襲或剽竊行為。
- 即使是轉換格式，也需要確保給予原作者適當的學術認可。
篡改內容：

在轉錄過程中，如果無意或故意修改了原文內容，可能會誤導讀者，違反學術誠信。

不當使用：
- 將受版權保護的學術作品用于商業目的或未經授權的公開傳播，可能違反學術道德規范。

學術規范隱患

引用和參考文獻：
- 在Markdown或LaTeX文檔中，必須按照學術規范正確引用所有參考文獻。
- 忽略或不規范的引用可能導致學術不端行為。
出版規范：

轉錄后的文檔應遵守相關的出版規范，包括格式、署名、版權聲明等。

同行評審：

如果轉錄的內容涉及同行評審的研究，需要確保不違反評審過程的保密性。

應對措施

為避免上述隱患，可以采取以下措施：

獲取授權：在轉錄前，確保獲得版權持有者的許可。
正確引用：在文檔中正確引用所有來源，遵守學術引用規范。
尊重版權：對于版權保護的內容，僅用于個人學習和研究，不進行商業用途或公開傳播。
透明度：在文檔中明確指出內容的來源和轉錄的意圖，保持學術透明度。
遵守法律：了解并遵守相關的知識產權法律和學術規范。

安裝

!pip install pix2text
!pip install pymupdf
該安裝包還依賴 pytorch (pip install pytorch), opencv (pip install opencv-python)

環境準備

c++ redistributable 比 2019 更新的版本。
python 首次調用 pix2text，程序會自動安裝 pix2text 源文件，某些地區的 github 可能會不穩定，可以下載文末連接文件在對應目錄存放即可。

代碼案例

將 .pdf 拆成若干 .jpg 文件，再逐一文件進行 .tex 轉化, 最后輸出 .txt 文件

import os
import fitz
from pix2text import Pix2Text
def pdf_to_jpg(pdf_path, output_folder):# 確保輸出目錄存在if not os.path.exists(output_folder):os.makedirs(output_folder)# 打開PDF文件pdf_document = fitz.open(pdf_path)# 遍歷PDF的每一頁for page_number in range(len(pdf_document)):# 打開PDF頁面page = pdf_document[page_number]# 將PDF頁面渲染為圖像pix = page.get_pixmap()# 定義輸出JPG文件的路徑output_path = f"{output_folder}/page_{page_number + 1}.jpg"# 保存圖像pix.save(output_path)print(f"Page {page_number + 1} saved as JPG.")return(len(pdf_document))# 關閉PDF文件pdf_document.close()def convertjpgtotext(output_folder,num):for page_number in range(num):img_fp = f"{output_folder}/page_{page_number+1}.jpg"p2t=Pix2Text.from_config()outs = p2t.recognize_text_formula(img_fp, resized_shape=768, return_text=True)with open('output.txt', 'a', encoding='utf-8') as file:file.write(outs)
# 使用示例
pdf_file_path = 'example.pdf'  # 你的PDF文件路徑
output_directory = 'output_jpgs'  # 輸出JPG文件的目錄
num=pdf_to_jpg(pdf_file_path, output_directory)
convertjpgtotext(output_directory,num)

此外目前大陸線上的大語言模型普遍具有這個功能，但是由于計算資源較大經常無響應，可以采用上述代碼在本地進行逆轉換。

https://115cdn.com/s/swhgs363ndk?password=xaf8&#
pix2text.rar
訪問碼：xaf8

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/895703.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/895703.shtml
英文地址，請注明出處：http://en.pswp.cn/news/895703.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！