在翻譯語義相似度(Translation Semantic Similarity)和會議摘要相似度(Meeting Summary Similarity)等任務中,通常會根據任務的目標和輸出形式,將其劃分為三類常見的任務類型:
1. 分類任務
定義:
將樣本劃分到有限個離散類別中的任務。
應用于相似度任務中的形式:
判斷兩個文本是否“語義相似”或“不相似”。
舉例:
輸入 A 和 B → 輸出:相似(1)或不相似(0)
或輸出:高相似(2)、中等(1)、低(0)
特點:
輸出是離散的標簽
常見指標:Accuracy(準確率)、Precision(精確率)、Recall(召回率)、F1 分數
示例應用:
判斷會議摘要是否忠實于原文內容
翻譯句子是否語義上與原文一致(合格 / 不合格)
2. 回歸任務
定義:
輸出一個連續的實數,用于表示程度或評分。
應用于相似度任務中的形式:
給出兩個文本之間的相似度分數(如 0~5 分)
舉例:
輸入 A 和 B → 輸出:相似度為 4.3 分
特點:
輸出是連續數值
常見指標:MSE(均方誤差)、MAE(平均絕對誤差)、Pearson/Spearman 相關系數
示例應用:
翻譯語義相似度評估(如 MLQE,Multilingual Quality Estimation)
會議摘要與原始會議記錄之間的相似度打分(如 1~5)
3. 生成任務(生成任務不是直接評估相似度,而是作為中間步驟)
定義:
模型直接生成文本作為輸出。
流程
輸入句子 A
用生成模型生成句子 B'(例如摘要或翻譯)
將 B' 與目標文本 B 比較:
BERTScore(B', B)
ROUGE(B', B)
COMET(B', B)
得到一個相似度得分
應用于相似度任務中的形式:
生成一段新的摘要或翻譯
生成一個與原句相似的句子,用于語義對齊
特點:
輸出是自然語言文本
常見指標:BLEU、ROUGE、BERTScore、ChrF、COMET、BLEURT、GEM等
示例應用:
自動生成會議摘要,并與人工摘要進行比較
生成更高質量的翻譯文本進行相似性驗證
小結對比表:
特性/任務類型 | 分類任務 | 回歸任務 | 生成任務 |
---|---|---|---|
輸出類型 | 離散標簽 | 連續數值 | 自然語言文本 |
應用示例 | 相似/不相似判斷 | 相似度打分 | 摘要或翻譯文本生成 |
評估指標 | Accuracy, F1 等 | MSE, Pearson | BLEU, ROUGE, BERTScore 等 |
使用模型 | 分類器(如BERT+MLP) | 回歸模型 | Seq2Seq, Transformer, T5 等 |
在翻譯語義相似度 / 會議摘要相似度評估任務中怎么選?
任務 | 常用形式 | 推薦任務類型 |
---|---|---|
翻譯語義相似度 | 預測翻譯是否語義一致 | 分類 / 回歸 |
會議摘要相似度 | 比較摘要與原文的忠實度、相關性 | 回歸 或 分類 或 生成 |
如做質量維度評估(如 Coherence、Consistency、Fluency、Relevance),建議采用回歸任務來對每個維度進行打分(如 1~5 分),也可以使用分類任務對每個維度進行高/中/低判斷。如果生成摘要或自動改寫翻譯,就是生成任務。