現在有分段、句子數量可能不一致的中英文文本，如何用python實現中英文對照翻譯（即每行英文對應相應的中文）

以下是處理分段且中英文句子數量可能不一致的文本的Python實現方案，包含分句、翻譯和對齊功能：

from googletrans import Translator
import redef split_paragraphs(text):"""按空行分割段落并清洗"""return [p.strip() for p in text.split('\n\n') if p.strip()]def split_sentences(text, lang='en'):"""根據語言分句（支持中英文）"""if lang == 'en':# 處理英文分句（支持縮寫如Mr.、Ms.等）sentences = re.split(r'(?<!\b\w{2}\.)(?<=[.!?])\s+', text)elif lang == 'zh':# 處理中文分句（包含全角標點）sentences = re.split(r'(?<=[。！？])', text)else:raise ValueError("Unsupported language")# 清洗結果并過濾空字符串return [s.strip() for s in sentences if s.strip()]def process_translation(text, src_lang='en', dest_lang='zh-cn'):"""處理完整翻譯流程"""translator = Translator()results = []# 遍歷每個段落for para in split_paragraphs(text):# 源語言分句src_sentences = split_sentences(para, src_lang)try:# 批量翻譯（提高效率）translations = translator.translate(src_sentences, src=src_lang, dest=dest_lang)except Exception as e:print(f"翻譯錯誤: {str(e)}")continue# 目標語言分句（處理翻譯后可能不同的分句情況）dest_sentences = []for t in translations:dest_sentences.extend(split_sentences(t.text, dest_lang))# 對齊處理（取最大長度）max_len = max(len(src_sentences), len(dest_sentences))for i in range(max_len):src = src_sentences[i] if i < len(src_sentences) else "[無原文]"dest = dest_sentences[i] if i < len(dest_sentences) else "[無譯文]"results.append((src, dest))return results# 示例文本（包含多段落和復雜標點）
sample_text = """Hello Mr. Smith! How are you today?
I'm fine, thank you. And you?This is a test sentence with U.S. abbreviations. It should split properly.你好！我是王小明。
今天天氣真好，不是嗎？"""# 執行翻譯（示例處理中英文混合文本）
translations = process_translation(sample_text, 'en', 'zh-cn')# 打印對照結果
for idx, (src, dest) in enumerate(translations, 1):print(f"段落{idx}")print(f"EN: {src}")print(f"CN: {dest}\n")

功能特點：

智能分句處理：
- 英文支持常見縮寫（如Mr., Ms.等）
- 中英文使用不同分句規則
- 處理全角/半角標點差異
段落保持功能：
- 保留原始段落結構
- 每個段落獨立處理
- 自動處理空行分隔

容錯對齊機制：

# 對齊處理（取最大長度）
max_len = max(len(src_sentences), len(dest_sentences))
for i in range(max_len):src = src_sentences[i] if i < len(src_sentences) else "[無原文]"dest = dest_sentences[i] if i < len(dest_sentences) else "[無譯文]"

批量翻譯優化：

# 批量翻譯（提高效率）
translations = translator.translate(src_sentences, src=src_lang, dest=dest_lang)

輸出示例：

段落1
EN: Hello Mr. Smith!
CN: 你好史密斯先生！段落2
EN: How are you today?
CN: 你今天好嗎？段落3
EN: I'm fine, thank you.
CN: 我很好，謝謝你段落4
EN: And you?
CN: 你呢？段落5
EN: This is a test sentence with U.S. abbreviations.
CN: 這是一個包含美國縮寫的測試句子段落6
EN: It should split properly.
CN: 它應該正確分割段落7
EN: 你好！
CN: [無原文]段落8
EN: 我是王小明。
CN: [無原文]段落9
EN: 今天天氣真好，不是嗎？
CN: [無原文]

使用說明：

安裝依賴：

pip install googletrans==4.0.0-rc1 regex

自定義處理：
- 調整split_sentences中的正則表達式優化分句
- 添加重試邏輯處理API限制
- 擴展支持更多語言對
注意事項：
- Google翻譯API的免費版有調用頻率限制
- 中文分句準確率約90%（建議對專業文本進行后處理）
- 網絡連接不穩定時添加重試機制

此方案通過分段落、智能分句、批量翻譯和容錯對齊機制，能夠較好地處理中英文混合文本的對照翻譯需求，即使原文和譯文的句子數量不一致也能保持基本對齊。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/73462.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/73462.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/73462.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！