《Ai學習筆記》自然語言處理 (Natural Language Processing)：機器閱讀理解-基礎概念解析01

自然語言處理 (Natural Language Processing)：

NLP四大基本任務

序列標注：分詞、詞性標注

分類任務：文本分類、情感分析

句子關系：問答系統、對話系統

生成任務：機器翻譯、文章摘要

Machine Reading Comprehension(MRC)機器閱讀理解任務

QA問題的一個子集，含有contexts

通過交互從書面文字中提取與構造文章語義的過程

搜索引擎

機器回答&智能客服

垂直：醫療、法律、金融、教育等領域

原文中除去若干關鍵詞，需要模型填入正確的單詞或者短語

模型需要從給定的若干選項中給出正確答案

回答限定是文章中的一個子句，需要模型在文章中標注正確答案的起始和終止位置。

不限制模型生成答案形式，允許模型自由產生數據

特征+傳統機器學習

BERT以前：各種神奇的QA架構
BERT之后：預訓練+微調+trick

文本預處理：構造訓練語料

算法選擇：輸出數據-》規則

1、人工標注

2、用戶標注

3、互聯網收集后清洗

1、去除冗余字符標記

2、分詞（jieba/中文）

3、單詞處理（英文：大寫->小寫，單詞還原，同義詞擴展）

4、去除停用詞

在訓練之前，要針對對應的模型：
1、確定目標大模型的訓練語料格式
2、針對龐雜的文本文件進行去除標記、分詞、單詞處理、去除停用詞。這些操作

3、得到的文件就可以用來預訓練啦！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/15614.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/15614.shtml
英文地址，請注明出處：http://en.pswp.cn/web/15614.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！