大模型備案的語料來源安全要求,對服務提供者的要求如下。
a)語料來源管理方面:
1)面向特定語料來源進行采集前,應對該來源語料進行安全評估,語料內容中含違法不良信息超過5%的,不應采集該來源語料;
2)面向特定語料來源進行采集后,應對所采集的該來源語料進行核驗,含違法不良信息情況超過5%的,不應使用該來源語料進行訓練。
b)不同來源語料搭配方面:應提高語料來源的多樣性,對每一種語言的語料,如中文、英文等,以及每一種類型的語料,如文本、圖片、音頻、視頻等,均應有多個語料來源;如需使用境外語料,應合理搭配境內外來源語料。
c)語料來源可追溯方面:
1)使用開源語料時,應具有該語料來源的開源許可協議或相關授權文件;注1:對于匯聚了網絡地址、數據鏈接等能夠指向或生成其他數據的情況,如果需要使用這些被指向或生成的內容作為語料,應將其視同于自采語料。
2)使用自采語料時,應具有采集記錄,不應采集他人已明確不可采集的語料;注2:自采語料包括自行生產的語料以及從互聯網采集的語料。 注3:明確不可采集的語料,例如已通過robots協議或其他限制采集的技術手段明確表明不可采集的網頁數據,或個人已拒絕授權采集的個人信息等。
3)使用商業語料時: —— 應有具備法律效力的交易合同、合作協議等; —— 交易方或合作方不能提供語料來源、質量、安全等方面的承諾以及相關證明材料時,不應使用該語料; —— 應對交易方或合作方所提供語料、承諾、材料進行審核。
4)將使用者輸入信息當作語料時,應具有使用者授權記錄。
d)按照我國網絡安全相關法律法規及政策文件要求阻斷的信息,不應作為語料。
私信我們,獲得大模型備案與算法備案在線指導,助您快速通關,產品早日上線!