示例項目(模版)
Potato 旨在提高數據標注的可復制性,并降低研究人員設置新標注任務的成本。因此,Potato 提供了一系列預定義的示例項目,并歡迎公眾向項目中心貢獻。如果您使用 Potato 進行了自己的標注工作,也鼓勵用戶創建一個 pull request 并發布您的標注設置。
Potato 提供了一系列示例模板,用于?所有支持的標注架構,您可以輕松地通過以下方式從項目中心下載它們。
本文給出幾個在大模型文本標注訓練中,常用到的幾種標注事例。
閱讀理解(Question Answering / Reading comprehension (SQuAD style))
原文(翻譯):2014年10月,碧昂斯與英國時尚零售商Topshop簽署了一項協議,將推出一系列運動服。這家五五開的合資企業名為Parkwood Topshop Athletic Ltd,計劃于2015年秋季推出其首個舞蹈、健身和運動系列。該線路將于2016年4月開通。
問題(翻譯):英國與碧昂斯的合作銷售哪種服裝?
該項標注功能: 如果該問題的答案在原文中可以找到,使用鼠標高亮選擇。另外,支持多處選擇; 已選擇的文本,雙擊鼠標,可以消除掉。較為方便。
文本匹配(match_finding)
(base) d:\study\potato>python potato/flask_server.py start project-hub/match_finding/configs/Computer_Science.yaml -p 8000
解釋一下,標注原因:
標注得分:3.Somewhat similar
這是因為兩者都涉及到了行李費與航空公司起飛性能的關系,但在具體描述和角度上存在差異。news沒有區分不同類型的航空公司,而是普遍強調了正面影響;而paper則具體指出了不同類型航空公司之間的性能差異。
文本摘要(Summarization evaluation)
(base) d:\study\potato>python potato/flask_server.py start project-hub/summarization_evaluation/configs/summ-eval.yaml -p 8000
- 四個重要評估維度。
-
- 相關性(relevance):摘要包含的信息是否為文中重要信息。
- 一致性(consistency):摘要是否有事實性錯誤。本文關注的忠實度(faithfulness)也和一致性較為相關。
- 流暢性(fluency):摘要中的單個句子是否通順。
- 連貫性(coherence):摘要整體是否行文流暢連貫。
參考: 【NLP學習】如何評估文本摘要模型的忠實度(faithfulness)
文本改寫(Text Rewriting)
實例中,給出的是一個更加禮貌性(politeness)的改寫:
(base) d:\study\potato>python potato/flask_server.py start project-hub/text_rewriting/configs/politeness.yaml -p 8000
原文(翻譯):Shelley,僅供參考。蕾塔在這個項目上與麗塔密切合作。里克和我也會參與其中。如果您有任何問題,
請告訴我們。謝謝林恩
要求(翻譯):你的同事正在起草一封電子郵件,并請求你的幫助。請幫忙重寫以上信息,使其更有禮貌。
更多實例,可以參考官網: Example Projects - potato annotation
也歡迎一起探討學習!!?