PDF 中提取數學公式

? 方法一：使用 `doc2x extract_formula_imgs` + `Pix2Text` 一鍵運行腳本（自動提取+識別）

👉 適合你如果用 Python 的話，只需要運行一段腳本即可：

? 🔁 一步搞定腳本（僅需安裝一次）

pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple

🧠 然后運行這段代碼即可完成整個流程：

from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Image
import ospdf_path = "你的論文.pdf"
output_dir = "formulas"
extract_formula_imgs(pdf_path, output_dir, dpi=300)  # 步驟1：提取公式圖像p2t = Pix2Text()  # 步驟2：初始化模型for fname in sorted(os.listdir(output_dir)):  # 步驟3：公式識別if fname.endswith(".png"):img_path = os.path.join(output_dir, fname)latex = p2t(Image.open(img_path))print(f"{fname} → {latex}")

? 方法二：純命令行簡化（適合寫在 Shell 腳本里）

如果你不想寫 Python 腳本，也可以直接用命令行運行：

doc2x extract-formula-imgs 你的論文.pdf --out-dir formula_imgs pix2text formula_imgs/*.png --out output.txt

這樣你能直接把所有 LaTeX 結果寫入 output.txt。

? 方法三：在線平臺（無需安裝，但受限）

若你不想安裝環境，可以試試：

Mathpix Snip
- 免費額度有限，每天10~20張圖
- 拍照或拖圖片即可生成 LaTeX
KaTeX – The fastest math typesetting library for the web
- 只適合展示，不適合識別

? 推薦組合方式（最快速+省心）

方式	特點	推薦人群
方法一（Python）	全自動、最靈活、可批量識別	研究人員，熟悉代碼
方法二（命令行）	零代碼配置，更直觀	教師、工程師、懶得寫腳本
方法三（在線）	零配置，適合小量公式	僅偶爾處理，數量少的人

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/77120.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/77120.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/77120.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！