更多內容請見: 機器翻譯修煉-專欄介紹和目錄
文章目錄
-
- 一、數據層面優化
- 二、模型架構改進
- 三、訓練策略調整
- 四、評估與迭代
- 五、前沿方向與挑戰
- 六、案例:WMT2023幻覺緩解方案
機器翻譯中的“幻覺”(Hallucination)指模型生成與源文本語義無關、邏輯矛盾或事實錯誤的翻譯內容,尤其在低資源場景、長文本或復雜句式中更為突出。解決這一問題需從數據、模型、訓練策略、評估與后處理等多維度綜合施策。
一、數據層面優化
-
數據清洗與過濾
- 噪聲去除:剔除平行語料中的低質量翻譯(如機器翻譯生成的語料、語法錯誤樣本),使用語言模型(如BERT)或翻譯質量評估工具(如COMET)篩選高置信度數據。
- 領域適配:針對特定領域(如法律、醫療)構建專用語料庫,避免模型因領域偏移產生幻覺。例如,WMT比賽中的“術語一致性”任務要求模型嚴格遵循領域術語表。
-
數據增強與合成
- 回譯(Back-Translation):通過目標語言到源語言的反向翻譯生成偽平行語料,增加數據多樣性。但需控制回譯質量,避免引入錯誤(如使用強模型如mBART進行回譯)。