Datawhlale_快樂學習大模型_task02

Datawhlale_快樂學習大模型_task02_NLP 基礎概念

書籍地址

簡要總結一下個人理解

文章目錄

- 1.1 NLP
- 1.2 發展歷程
- 1.3 NLP任務
- - 1.3.1 中文分詞
  - 1.3.2 子詞切分
  - 1.3.3 詞性標注
  - 1.3.4 文本分類
  - 1.3.5 實體識別
  - 1.3.6 關系抽取
  - 1.3.7 文本摘要
  - 1.3.8 機器翻譯
  - 1.3.9 自動問答
- 1.4 文本表示的發展
- - 1.4.1 詞向量
  - 1.4.2 語言模型
  - 1.4.3 Word2Vec
  - 1.4.4 ELMo

1.1 NLP

英文：Natural Language Processing
全程：自然語言處理
含義：通過計算機模擬人類認知和使用語言

1.2 發展歷程

早期探索：1940 - 1960年代
符號注意與統計方法：1970 - 1990年代
機器學習與深度學習：2000年代至今

1.3 NLP任務

1.3.1 中文分詞

把句子分解成字和詞

英文輸入：The cat sits on the mat.
英文切割輸出：[The | cat | sits | on | the | mat]中文輸入：今天天氣真好，適合出去游玩.
中文切割輸出：["今天", "天氣", "真", "好", "，", "適合", "出去", "游玩", "。"]

1.3.2 子詞切分

對詞語進一步切分，對于英文unhappiness分別成un前綴、happi詞根、ness后綴

1.3.3 詞性標注

標注為名詞、動詞、形容詞

1.3.4 文本分類

對于給定文本，將其進行分類

文本：“NBA季后賽將于下周開始，湖人和勇士將在首輪對決。”
類別：“體育”文本：“美國總統宣布將提高關稅，引發國際貿易爭端。”
類別：“政治”文本：“蘋果公司發布了新款 Macbook，配備了最新的m3芯片。”
類別：“科技”

1.3.5 實體識別

從文本中抽取人名、地名還是時間等

輸入：李雷和韓梅梅是北京市海淀區的居民，他們計劃在2024年4月7日去上海旅行。輸出：[("李雷", "人名"), ("韓梅梅", "人名"), ("北京市海淀區", "地名"), ("2024年4月7日", "日期"), ("上海", "地名")]

1.3.6 關系抽取

抽取實體以及它們的聯系，是構建知識圖譜的基礎

輸入：比爾·蓋茨是微軟公司的創始人。輸出：[("比爾·蓋茨", "創始人", "微軟公司")]

1.3.7 文本摘要

對給定的文本做個總結

抽取式摘要
從原文摘取，簡單但不夠通順
生成式摘要
自己生成，需要復雜的模型

1.3.8 機器翻譯

Machine Translation, MT

1.3.9 自動問答

Automatic Question Answering, QA
過程：

理解問題
提供答案

分類：

檢索式問答（Retrieval-based QA）：從搜索引擎找答案
知識庫問答（Knowledge-based QA）：根據構建的知識庫給答案
社區問答（Community-based QA）：根據用戶社區論壇給答案

1.4 文本表示的發展

在計算機中如何表示文本是一個難題

1.4.1 詞向量

類似于onehot，詞匯表存在所有可能出現的詞語，每個詞語就是詞匯表一個的01向量，問題是數據稀疏和維數災難

# "雍和宮的荷花很美"
# 詞匯表大小：16384，句子包含詞匯：["雍和宮", "的", "荷花", "很", "美"] = 5個詞vector = [0, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ..., 1, 0, ...]
#                    ↑          ↑          ↑          ↑          ↑
#      16384維中只有5個位置為1，其余16379個位置為0
# 實際有效維度：僅5維（非零維度）
# 稀疏率：(16384-5)/16384 ≈ 99.97%

1.4.2 語言模型

N-gram 模型：基于馬爾可夫假設，一個詞的出現概率僅依賴于它前面的N-1個詞
優點：簡單、易于理解
問題：N較大，數據稀疏、參數大；忽略詞之間的依賴關系，無法捕捉句子結構和語義

1.4.3 Word2Vec

是一種詞嵌入（Word Embedding）技術，由Tomas Mikolov等人在2013年提出

架構：

續詞袋模型CBOW(Continuous Bag of Words)：根據目標詞上下文中的詞對應的詞向量, 計算并輸出目標詞的向量表示（適用于小型數據集）-根據上下文猜目標詞
Skip-Gram模型：利用目標詞的向量表示計算上下文中的詞向量（在大型語料中表現更好）-根據目標詞猜上下文

優點：密集向量
缺點：基于局部上下文的，無法捕捉到長距離的依賴關系，缺乏整體的詞與詞之間的關系

1.4.4 ELMo

Embeddings from Language Models
過程：

預訓練
使用雙向LSTM結構

優點：

捕捉到詞匯的多義性和上下文信息
生成的詞向量更加豐富和準確

問題：

模型復雜度高、訓練時間長、計算資源消耗大等。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/88175.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/88175.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/88175.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！