書籍地址
簡要總結一下個人理解
文章目錄
- 1.1 NLP
- 1.2 發展歷程
- 1.3 NLP任務
- 1.3.1 中文分詞
- 1.3.2 子詞切分
- 1.3.3 詞性標注
- 1.3.4 文本分類
- 1.3.5 實體識別
- 1.3.6 關系抽取
- 1.3.7 文本摘要
- 1.3.8 機器翻譯
- 1.3.9 自動問答
- 1.4 文本表示的發展
- 1.4.1 詞向量
- 1.4.2 語言模型
- 1.4.3 Word2Vec
- 1.4.4 ELMo
1.1 NLP
英文:Natural Language Processing
全程:自然語言處理
含義:通過計算機模擬人類認知和使用語言
1.2 發展歷程
- 早期探索:1940 - 1960年代
- 符號注意與統計方法:1970 - 1990年代
- 機器學習與深度學習:2000年代至今
1.3 NLP任務
1.3.1 中文分詞
把句子分解成字和詞
英文輸入:The cat sits on the mat.
英文切割輸出:[The | cat | sits | on | the | mat]中文輸入:今天天氣真好,適合出去游玩.
中文切割輸出:["今天", "天氣", "真", "好", ",", "適合", "出去", "游玩", "。"]
1.3.2 子詞切分
對詞語進一步切分,對于英文unhappiness分別成un前綴、happi詞根、ness后綴
1.3.3 詞性標注
標注為名詞、動詞、形容詞
1.3.4 文本分類
對于給定文本,將其進行分類
文本:“NBA季后賽將于下周開始,湖人和勇士將在首輪對決。”
類別:“體育”文本:“美國總統宣布將提高關稅,引發國際貿易爭端。”
類別:“政治”文本:“蘋果公司發布了新款 Macbook,配備了最新的m3芯片。”
類別:“科技”
1.3.5 實體識別
從文本中抽取人名、地名還是時間等
輸入:李雷和韓梅梅是北京市海淀區的居民,他們計劃在2024年4月7日去上海旅行。輸出:[("李雷", "人名"), ("韓梅梅", "人名"), ("北京市海淀區", "地名"), ("2024年4月7日", "日期"), ("上海", "地名")]
1.3.6 關系抽取
抽取實體以及它們的聯系,是構建知識圖譜的基礎
輸入:比爾·蓋茨是微軟公司的創始人。輸出:[("比爾·蓋茨", "創始人", "微軟公司")]
1.3.7 文本摘要
對給定的文本做個總結
-
抽取式摘要
從原文摘取,簡單但不夠通順 -
生成式摘要
自己生成,需要復雜的模型
1.3.8 機器翻譯
Machine Translation, MT
1.3.9 自動問答
Automatic Question Answering, QA
過程:
- 理解問題
- 提供答案
分類:
- 檢索式問答(Retrieval-based QA):從搜索引擎找答案
- 知識庫問答(Knowledge-based QA):根據構建的知識庫給答案
- 社區問答(Community-based QA):根據用戶社區論壇給答案
1.4 文本表示的發展
在計算機中如何表示文本是一個難題
1.4.1 詞向量
類似于onehot,詞匯表存在所有可能出現的詞語,每個詞語就是詞匯表一個的01向量,問題是數據稀疏和維數災難
# "雍和宮的荷花很美"
# 詞匯表大小:16384,句子包含詞匯:["雍和宮", "的", "荷花", "很", "美"] = 5個詞vector = [0, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ...]
# ↑ ↑ ↑ ↑ ↑
# 16384維中只有5個位置為1,其余16379個位置為0
# 實際有效維度:僅5維(非零維度)
# 稀疏率:(16384-5)/16384 ≈ 99.97%
1.4.2 語言模型
N-gram 模型:基于馬爾可夫假設,一個詞的出現概率僅依賴于它前面的N-1個詞
優點:簡單、易于理解
問題:N較大,數據稀疏、參數大;忽略詞之間的依賴關系,無法捕捉句子結構和語義
1.4.3 Word2Vec
是一種詞嵌入(Word Embedding)技術,由Tomas Mikolov等人在2013年提出
架構:
- 續詞袋模型CBOW(Continuous Bag of Words):根據目標詞上下文中的詞對應的詞向量, 計算并輸出目標詞的向量表示(適用于小型數據集)-根據上下文猜目標詞
- Skip-Gram模型:利用目標詞的向量表示計算上下文中的詞向量(在大型語料中表現更好)-根據目標詞猜上下文
優點:密集向量
缺點:基于局部上下文的,無法捕捉到長距離的依賴關系,缺乏整體的詞與詞之間的關系
1.4.4 ELMo
Embeddings from Language Models
過程:
- 預訓練
- 使用雙向LSTM結構
優點:
- 捕捉到詞匯的多義性和上下文信息
- 生成的詞向量更加豐富和準確
問題:
- 模型復雜度高、訓練時間長、計算資源消耗大等。