? 方法一:使用 doc2x extract_formula_imgs
+ Pix2Text
一鍵運行腳本(自動提取+識別)
👉 適合你如果用 Python 的話,只需要運行一段腳本即可:
? 🔁 一步搞定腳本(僅需安裝一次)
pip install doc2x[pix2text] -i https://pypi.tuna.tsinghua.edu.cn/simple
🧠 然后運行這段代碼即可完成整個流程:
from doc2x.extract_formula import extract_formula_imgs
from pix2text import Pix2Text
from PIL import Image
import ospdf_path = "你的論文.pdf"
output_dir = "formulas"
extract_formula_imgs(pdf_path, output_dir, dpi=300) # 步驟1:提取公式圖像p2t = Pix2Text() # 步驟2:初始化模型for fname in sorted(os.listdir(output_dir)): # 步驟3:公式識別if fname.endswith(".png"):img_path = os.path.join(output_dir, fname)latex = p2t(Image.open(img_path))print(f"{fname} → {latex}")
? 方法二:純命令行簡化(適合寫在 Shell 腳本里)
如果你不想寫 Python 腳本,也可以直接用命令行運行:
doc2x extract-formula-imgs 你的論文.pdf --out-dir formula_imgs pix2text formula_imgs/*.png --out output.txt
這樣你能直接把所有 LaTeX 結果寫入 output.txt
。
? 方法三:在線平臺(無需安裝,但受限)
若你不想安裝環境,可以試試:
-
Mathpix Snip
-
免費額度有限,每天10~20張圖
-
拍照或拖圖片即可生成 LaTeX
-
-
KaTeX – The fastest math typesetting library for the web
-
只適合展示,不適合識別
-
? 推薦組合方式(最快速+省心)
方式 | 特點 | 推薦人群 |
---|---|---|
方法一(Python) | 全自動、最靈活、可批量識別 | 研究人員,熟悉代碼 |
方法二(命令行) | 零代碼配置,更直觀 | 教師、工程師、懶得寫腳本 |
方法三(在線) | 零配置,適合小量公式 | 僅偶爾處理,數量少的人 |