你是否也有這樣的困境,面對一篇學術論文,即使英語水平不錯,仍需反復查詞典,尤其是遇到專業術語和復雜長句,翻譯軟件又常常不能很好地處理學術PDF的排版,導致翻譯結果混亂不堪。
現在,解決你煩惱的工具來了 —— BabelDOC,一個專為學術PDF文檔設計的翻譯和雙語對比工具。
BabelDOC是一個開源項目,專注于解決科學論文PDF的翻譯問題。與普通翻譯工具不同,它能夠理解PDF的結構,保持原文排版,并提供原文與譯文的雙語對照,極大提升了學術閱讀體驗。
核心特點
- 專業翻譯 :針對學術內容優化,能更好地理解和翻譯專業術語
- 雙語對照 :支持原文與譯文并排顯示,方便對比理解
- 保持排版 :尊重原PDF的排版結構,使翻譯后的內容易于理解
- 多種使用方式 :提供在線服務、自部署選項、命令行界面和Python API
使用方式
1、網頁端
官方提供網頁端,可以直接使用,當前功能還在實驗階段,僅支持翻譯到中文,不支持掃描文件(包括OCR版)。免費用戶每月限量 1000 頁,Pro 會員限量 10000 頁。
體驗地址:https://app.immersivetranslate.com/babel-doc/
2、本地部署
# 克隆項目
git clone https://github.com/funstory-ai/BabelDOC# 切換到項目目錄
cd BabelDOC# 安裝依賴
uv run babeldoc --help# 單個文件
uv run babeldoc --files example.pdf --openai --openai-model "gpt-4o-mini" --openai-base-url "https://api.openai.com/v1" --openai-api-key "your-api-key-here"# 多文件
uv run babeldoc --files example.pdf --files example2.pdf --openai --openai-model "gpt-4o-mini" --openai-base-url "https://api.openai.com/v1" --openai-api-key "your-api-key-here"
3、簡單命令行
# 從PyPI安裝
uv tool install --python 3.12 BabelDOC# 基本使用
babeldoc --files example.pdf# 使用OpenAI進行翻譯
babeldoc --bing --files example1.pdf --files example2.pdf
4、Python API
# Generate an offline assets package
from pathlib import Path
import babeldoc.assets.assets# Generate package to a specific directory
# path is optional, default is ~/.cache/babeldoc/assets/offline_assets_{hash}.zip
babeldoc.assets.assets.generate_offline_assets_package(Path("/path/to/output/dir"))# Restore from a package file
# path is optional, default is ~/.cache/babeldoc/assets/offline_assets_{hash}.zip
babeldoc.assets.assets.restore_offline_assets_package(Path("/path/to/offline_assets_package.zip"))# You can also restore from a directory containing the offline assets package
# The tool will automatically find the correct package file based on the hash
babeldoc.assets.assets.restore_offline_assets_package(Path("/path/to/directory"))
高級選項
- 語言選項 :–lang-in(默認en)指定源語言代碼,–lang-out(默認zh)指定目標語言代碼。
- PDF處理選項 :有–files指定輸入文件、–pages指定翻譯頁面等眾多選項,還給出了一些使用提示,如–enhance-compatibility可解決兼容性問題。
- 翻譯服務選項 翻譯服務選項:–qps限制每秒查詢數(默認4),目前僅支持OpenAI兼容的大語言模型。
- OpenAI特定選項 :可指定模型、基礎URL和API密鑰。
- 輸出控制 :–output指定輸出目錄,–debug開啟調試日志。
- 離線資產管理 :可生成和恢復離線資產包,用于無網絡環境或多機器安裝。
- 配置文件 :使用TOML格式的配置文件,可設置各種參數。
最后
對于經常閱讀英文學術論文的研究人員、學生和專業人士,BabelDOC無疑是一個值得關注的工具。它不僅能提高閱讀效率,還能幫助理解復雜的學術內容。
GitHub倉庫:https://github.com/funstory-ai/BabelDOC