自然語言處理NLP期末復習

- 第一章
- - 1. NLP的基本過程包括哪些-自然語言處理面臨的困難是什么
  - 2. 自然語言處理算法定義，過程和應用
  - 3. 結合自己的研究-描述研究中涉及的自然語言處理模型或算法，模型或算法原理，具體的處理過程
  - 4. 自然語言處理的的兩大核心任務是
  - 5. 程序設計語言的編譯系統與自然語言處理系統的區別是什么
- 第二章-語料庫
- - 6. 什么是語料庫-常見的語料加工方法(漢語分詞方法)及其優缺點是什么
  - 7. 什么是語料庫·語料庫和數據集的關系是什么
  - 8. 關于語料庫的三點基本認識
  - 9. 語料庫的類型
  - 10. 歧義消解與語料庫加工的關系
  - 11. 語料處理的基本問題
  - 12. 經典語料庫
- 第三章-語言模型
- - 13. 什么是語言模型-常見的建模語言模型的方法有哪些。
  - 14. 零概率產生的原因-解決辦法
  - 15. 常見的統計語言模型容易出現零概率問題-請簡述一種方法對其進行處理
  - 16. 常見的數據平滑技術
  - 17. 語言模型的性能評價
- 第四章-馬爾可夫模型
- 第五章字符編碼與字頻統計
- - 18. 統計某中文語料中名詞出現次數-請簡述其處理過程。
- 第六章-詞法分析
- - 19. 詞法分析的任務
  - 20. 簡述詞干提取與形態還原的區別
  - 21. 英語斷詞過程中容易引起歧義的符號
- 第七章-漢語自動分詞
- - 22. 漢語自動分詞的基本問題有哪些-請簡述至少一種分詞方法及其處理過程。
  - 23. 分詞方法
  - 24. 漢語自動分詞的主要評測指標
- 第八章-詞性標注
- - 25. 詞性標注，句法分析的主要方法(NLP的基本方法)
  - 26. 畫出一種經典的基于循環神經網絡的詞性標注架構圖
- 第九章-句法結構
- - 27. 短語結構
  - 28. 歧義消解辦法
- 第十章-語義分析
- - 29. 語義分析的主要研究內容
  - 30. 詞義消歧vs.詞性消歧
- 應用題
- - 31. 兩種概率估計
  - 32. 架構圖

第一章

1. NLP的基本過程包括哪些-自然語言處理面臨的困難是什么

文本預處理、特征提取、模型訓練、評估
語言歧義性、未知語言現象

文本預處理，包括分詞、去除停用詞、詞干提取或詞形還原等操作，目的是將原始文本轉化為結構化的數據形式；
特征提取，將處理后的文本轉換為數值表示，如詞袋模型、TF-IDF 或詞嵌入（如 Word2Vec、BERT）；
模型訓練，使用機器學習或深度學習模型（如 SVM、RNN、Transformer）對文本進行建模，完成分類、生成、翻譯等任務；
評估，通過準確率、召回率、F1 值等指標對模型性能進行評估。

語言的歧義性，包括詞義歧義、句法歧義和語義歧義，使模型難以準確理解真實意圖；
未知語言現象（如新詞、網絡用語、方言等）也給模型泛化能力帶來挑戰，影響其在實際場景中的表現。

2. 自然語言處理算法定義，過程和應用

是人工智能領域的主要內容，研究用電子計算機模擬人的語言交際過程，使計算機能理解和運用人類社會的自然語言，實現人機之間的自然語言通信，以代替人的部分腦力勞動。NLP算法的原理主要基于語言學規則和知識、統計模型以及近年來廣泛應用的深度學習技術。

從應用角度來看，NLP技術廣泛應用于以下領域：

機器翻譯：如Google Translate、百度翻譯等，基于Transformer等模型實現多語言自動翻譯。
語音識別與合成：如智能助手（Siri、Alexa）、語音輸入法，涉及語音轉文字（ASR）和文字轉語音（TTS）。
信息檢索與問答系統：搜索引擎（如百度、Google）中的查詢理解和文檔排序，以及智能客服中的問答匹配。
情感分析與輿情監控：用于社交媒體分析、品牌監測、用戶評論分析等場景。
聊天機器人與對話系統：如客服機器人、虛擬助手，依賴于意圖識別、對話狀態追蹤和自然語言生成技術。
文本摘要與自動寫作：自動生成新聞摘要、報告撰寫、創意寫作輔助等。
命名實體識別與知識圖譜構建：用于信息抽取、數據清洗、知識管理等領域。
總之，自然語言處理算法的核心在于對語言的建模與理解，其應用涵蓋了從人機交互到內容生成的方方面面，正在不斷推動智能化社會的發展。

3. 結合自己的研究-描述研究中涉及的自然語言處理模型或算法，模型或算法原理，具體的處理過程

本研究圍繞中文社交媒體文本的情感分析展開，采用基于 BERT 的預訓練語言模型進行文本情感分類。

模型原理：BERT（Bidirectional Encoder Representations from Transformers）是一種基于 Transformer 架構的深度語言表示模型，它通過 Masked Language Model（MLM）和 Next Sentence Prediction（NSP）兩個任務進行預訓練，能夠捕捉上下文中的雙向語義信息。在情感分類任務中，BERT 將輸入文本編碼為包含豐富語義信息的向量序列，最后通過一個全連接層輸出情感類別（如正面、負面、中性）。

具體處理過程如下：

數據預處理：對原始文本進行清洗、去除特殊符號、統一繁簡體；
分詞與標注：使用中文分詞工具進行分詞，并對每條數據進行情感標注；
輸入構造：將文本轉換為 BERT 可接受的數據類型；
模型微調：在已有中文 BERT 預訓練模型基礎上，添加分類層，使用交叉熵損失函數進行 fine-tuning；
情感預測：對新輸入文本進行推理，輸出其情感類別及置信度。
該方法相比傳統 SVM 或 LSTM 方法，在多個測試集上取得了更高的準確率和 F1 值，尤其在處理歧義表達和網絡用語方面表現更優。

4. 自然語言處理的的兩大核心任務是

自然語言理解、自然語言生成

自然語言理解旨在讓計算機能夠準確地解析和理解人類語言的語義、意圖和結構，包括諸如情感分析、信息抽取、語義角色標注等任務；
而自然語言生成則是將結構化的數據或計算機內部的語義表示轉化為自然流暢的人類語言，廣泛應用于機器翻譯、文本摘要、對話系統等領域。
這兩項任務相輔相成，共同構成了人機語言交互的基礎。

5. 程序設計語言的編譯系統與自然語言處理系統的區別是什么

處理對象不同
目標功能不同
規則和方法不同
結果準確性不同
場景不同

處理對象不同：編譯系統主要處理的是遵循特定編程語言語法和語義規則的代碼。這些代碼具有嚴格的結構和邏輯，錯誤率低且意圖明確。而NLP系統處理的是人類日常使用的自然語言文本，這類文本充滿了變化、不規范性和模糊性。
目標功能不同：編譯系統的目標是將源代碼轉換為目標機器可以執行的機器碼或中間代碼，實現程序從高級語言到機器可執行形式的轉換。相比之下，NLP系統的目標更加多樣化，包括但不限于文本理解、信息抽取、情感分析、自動翻譯等，旨在讓計算機理解和生成自然語言。
規則和方法不同：編譯系統依賴于確定性的語法規則和算法來進行詞法分析、語法分析、語義分析以及代碼優化等一系列過程。NLP系統則更多地依賴于統計模型和機器學習方法來處理自然語言的復雜性和不確定性，盡管也會用到一些基于規則的方法。
結果準確性不同：由于編程語言的嚴格性和確定性，編譯系統在大多數情況下能夠產生準確無誤的結果。然而，NLP系統因為要處理自然語言中的歧義、多義性等問題，其處理結果往往難以達到百分之百的準確，尤其是在涉及深層次語義理解時。
場景不同：編譯系統主要用于軟件開發領域，支持開發者編寫高效、正確的程序。NLP系統則廣泛應用于各種需要處理或生成自然語言的場景中，如搜索引擎、智能客服、機器翻譯、社交媒體監控等，目的是提高人機交互的自然度和效率。

在這里插入圖片描述

第二章-語料庫

6. 什么是語料庫-常見的語料加工方法(漢語分詞方法)及其優缺點是什么

語料庫是指按照一定條件存儲在計算機中的大規模語言材料的集合，它為自然語言處理提供了基礎數據支持

人工、自動、半自動
人工優點:準確
人工缺點:非常昂貴，需要大量的人力資源
自動缺點:不完全準確
半自動優點:兼顧兩者的優點
先由計算機對待加工的語料進行自動加工，然后由人工校對
由計算機自動選擇語料庫中需要人干預的自動加工不能解決的部分，從而減少人工作

語料庫是指按照一定條件存儲在計算機中的大規模語言材料的集合，它為自然語言處理提供了基礎數據支持。
常見的語料加工方法包括人工、自動和半自動三種方式。
人工加工能夠保證非常高的準確性，但其缺點是成本昂貴且需要大量的人力資源；
自動加工雖然效率高、速度快，但由于技術限制，往往存在不完全準確的問題；
半自動加工結合了前兩者的優點，首先由計算機對待加工的語料進行初步自動加工，然后針對其中計算機無法解決的部分由人工進行校對和修正。這種方法不僅利用了計算機高效處理的能力，也通過人工干預確保了最終結果的準確性，同時還能通過讓計算機自動選擇需要人干預的部分來進一步減少人力需求，從而提高整體工作效率和質量。

7. 什么是語料庫·語料庫和數據集的關系是什么

數據集可以是各個領域的數據(文本、圖像、視頻)，語料庫是其中的一部分
從廣義上講，語料庫是數據集的一種特殊形式；而數據集是一個更廣泛的概念，可以包含來自各個領域的數據，如文本、圖像、音頻、視頻等。因此，語料庫可以被看作是以文本語言為主要對象的數據集，它在數據結構和用途上更具語言學特征和NLP應用場景的針對性。
兩者的關系可以理解為：語料庫是數據集中專注于語言資源的一個子集

8. 關于語料庫的三點基本認識

語料庫中存放的是在語言的實際使用中真實出現過的語言材料
? 語料庫是以電子計算機為載體、承載語言知識的基礎資源
? 真實語料需要經過加工(分析和處理)，才能成為有用的資源

9. 語料庫的類型

通用語料庫與專用語料庫
單語語料庫與多語語料庫
共時語料庫與歷時語料庫
生語料庫與熟語料庫

通用語料庫與專用語料庫：

通用語料庫是指涵蓋廣泛主題和文體的語料集合，如新聞、小說、科技論文、政府文件等，旨在反映語言的整體使用情況，適用于基礎語言研究和通用自然語言處理任務。例如《現代漢語語料庫》。
專用語料庫則針對某一特定領域或用途建立，如醫學語料庫、法律語料庫、兒童語言發展語料庫等，主要用于專業領域的語言分析和模型訓練。
單語語料庫與多語語料庫：

單語語料庫由一種語言的文本組成，用于研究該語言的語言結構、詞匯分布、句法特征等，是大多數NLP任務的基礎資源。
多語語料庫包含兩種或多種語言的文本，常用于機器翻譯、跨語言信息檢索等領域。其中，如果這些文本之間存在對應關系（如同一篇文章的不同語言版本），則稱為平行語料庫。

共時語料庫與歷時語料庫：

共時語料庫收集的是同一時期或時間段內的語言材料，用于研究某一時期語言的使用狀況和特點。
歷時語料庫則跨越多個時間階段，包含了不同時期的語言資料，有助于觀察語言的發展變化過程，適合語言演變、歷史語言學等方面的研究。

生語料庫與熟語料庫：

生語料庫指的是未經加工或標注的原始文本集合，通常直接來源于實際語境，如網頁、書籍掃描件、語音轉錄文本等。它適用于需要大規模未標注數據的任務，如語言建模、詞向量訓練等。
熟語料庫則是經過人工或自動處理、標注后的語料庫，可能包含分詞、詞性標注、句法結構、命名實體標簽等信息，適合進行深入的語言分析和高質量模型訓練，如《人民日報標注語料庫》。

10. 歧義消解與語料庫加工的關系

高性能的歧義消解技術是實現語料庫加工自動化的關鍵
語料庫特別是經過加工的語料庫又為歧義消解提供了資源支持

11. 語料處理的基本問題

在這里插入圖片描述

12. 經典語料庫

中文：北京大學語料庫

英文：LOB語料庫，賓夕法尼亞樹庫，布朗語料庫

第三章-語言模型

13. 什么是語言模型-常見的建模語言模型的方法有哪些。

語言模型是對單詞序列的概率分布進行建模的統計模型，旨在評估一個句子或詞序列在某種語言中出現的可能性。
常見的建模方法包括：

n元語法（n-gram）模型，它通過計算前n個詞出現的情況下第n+1個詞出現的概率來預測詞序列；基于緩存的n-gram模型（Cache-based N-gram Model），該模型結合了局部上下文信息和全局統計信息，以提高對未登錄詞和長尾詞的處理能力；
跳躍模型（Skipping Models），允許在估計概率時跳過某些詞，從而捕捉更長距離的依賴關系；
以及神經網絡語言模型，利用深度學習技術如RNN、LSTM或Transformer等架構自動學習詞之間的復雜關系，提供更強的表達能力和更高的準確性。

14. 零概率產生的原因-解決辦法

反映了語言的規律性，即本來就不該出現
– 數據稀疏（Data Sparseness）
? 由于語言模型的訓練文本T的規模及其分布存在著一定的局限性和片面性，許多合理的語言搭配現象沒有出現在T中。
? 僅靠增大語料庫的規模，不能從根本上解決數據稀疏問題

數據平滑技術 : 通過調整概率分布，將一部分概率質量分配給訓練集中未出現但可能在測試集中出現的詞或詞序列，從而避免零概率估計。
? 為了產生更準確的概率來調整最大似然估計的技術
? 基本思想：“劫富濟貧”

15. 常見的統計語言模型容易出現零概率問題-請簡述一種方法對其進行處理

可以使用數據平滑技術解決零概率問題

常見的統計語言模型，如n元語法模型，在處理未在訓練數據中出現的詞序列時容易遇到零概率問題。為了解決這個問題，可以采用數據平滑技術。
一種廣泛應用的平滑方法是加法平滑（Additive Smoothing），也被稱為拉普拉斯平滑（Laplace Smoothing），它通過對每個詞或詞序列的計數加一個小于1的常數（通常為1），然后重新計算概率分布來實現。
這樣即使某些詞或詞序列在訓練集中沒有出現，它們在預測時也會被賦予一個較小但非零的概率值，提高了模型的魯棒性和泛化能力。此外，還有其他多種平滑技術，如Good-Turing估計、Katz平滑等，它們在不同的應用場景下各有優勢。

16. 常見的數據平滑技術

Laplace法則（ 1814 ）
– 絕對折扣和線性折扣（ H.Ney,1994 ）
– 扣留估計（ Jekinekand Mercer, 1985 ）
– 刪除差值（ Jelinek-Mercer , 1980 ）

絕對折扣是一種基于頻率減法的平滑方法。它的核心思想是：從每個非零頻率中扣除一個固定值（通常為 0.5 或 1），然后將這些被扣除的概率質量重新分配給那些未出現的 n-gram。
線性折扣是對絕對折扣的一種擴展，它不是對所有 bigram 都使用相同的折扣值，而是根據 bigram 的頻率動態調整折扣比例。
這是一種利用訓練數據的一部分作為“驗證集”，來估計和調整模型參數的平滑方法。具體來說，將一部分訓練數據保留下來用于估計回退權重，而不是直接參與參數估計。

17. 語言模型的性能評價

在這里插入圖片描述

第四章-馬爾可夫模型

馬爾可夫模型應用舉例
在這里插入圖片描述

第五章字符編碼與字頻統計

18. 統計某中文語料中名詞出現次數-請簡述其處理過程。

1)分詞
2)標注詞性
3)統計名詞

要統計某中文語料中名詞的出現次數，其處理過程主要包括三個步驟：
首先對語料進行分詞，將連續的中文文本切分為一個個有意義的詞語；
然后進行詞性標注，為每個詞語標注其對應的詞性（如名詞、動詞、形容詞等），這一步通常基于已有的詞性標注標準和統計模型（如隱馬爾可夫模型或條件隨機場）來實現；
最后，在所有標注好的詞語中篩選出詞性為“名詞”的詞匯，并對其進行頻率統計，從而得出名詞在語料中的出現次數。整個過程依賴于高質量的分詞工具和詞性標注工具，同時需要考慮未登錄詞識別和歧義消解等問題，以提高統計結果的準確性。

第六章-詞法分析

19. 詞法分析的任務

在這里插入圖片描述

20. 簡述詞干提取與形態還原的區別

形態還原的目標是獲得詞元而詞干提取的目標是獲得詞干
詞干提取（Stemming）和形態還原（Lemmatization）都是自然語言處理中用于詞語歸一化的技術，但它們的處理方式和目標有所不同。
詞干提取是一種較為簡單和粗略的方法，它通過去除單詞的前綴或后綴，將單詞還原為其“詞干”形式，而不一定保證結果是一個合法的詞。例如，“running”可能被還原為“runn”。
而形態還原則更為精確，它基于詞性標注和詞匯知識，將單詞還原為其規范的詞典形式（即詞元），如將“running”還原為“run”（動詞）或“runner”還原為“runner”（名詞）。形態還原通常依賴于詞典或語料庫支持，因此計算成本較高，但其結果更準確、可解釋性更強，適用于需要高質量文本分析的任務。簡而言之，詞干提取注重速度與簡化，形態還原注重準確與語言正確性

21. 英語斷詞過程中容易引起歧義的符號

句點（period）
– 撇號（apostrophe）
– 連字符（hyphen

第七章-漢語自動分詞

22. 漢語自動分詞的基本問題有哪些-請簡述至少一種分詞方法及其處理過程。

分詞標準切分歧義未登錄詞
最大匹配法-

匹配
- 分詞過程中用文本中的候選詞去跟詞表中的詞匹配
- 匹配成功，則認為候選詞是詞，予以切分。否則就認為不是詞
最大匹配
- 盡可能地用最長的詞來匹配句子中的漢字串
- “社會”和“社會主義”
- 切出來的詞盡可能長，詞數盡可能少

漢語自動分詞的基本問題主要包括分詞標準的確定、切分歧義的解決以及未登錄詞（即詞表中未包含的新詞或專有名詞）的識別。
一種常見的分詞方法是最大匹配法，該方法分為正向最大匹配和逆向最大匹配。
在處理過程中，首先利用文本中的候選詞去與預先定義好的詞表進行匹配；如果匹配成功，則將該候選詞視為一個獨立的詞并予以切分；若不成功，則認為該序列不是詞。最大匹配法則強調盡可能使用最長的詞來匹配句子中的漢字串，以減少詞的數量并確保切分的準確性。例如，在處理“社會主義”時，相比于單獨切分為“社會”和“主義”，最大匹配法會優先選擇切分成“社會主義”這一整體，因為這樣可以使得切出來的詞盡可能長，同時詞數盡可能少。這種方法簡單高效，但在面對歧義或未登錄詞時可能表現不佳。

23. 分詞方法

最大匹配法
? 最少分詞法（最短路徑法）
? 最大概率法（最短加權路徑法）
? 與詞性標注相結合的分詞方法
? 基于互現信息的分詞方法
? 基于字分類的分詞方法
? 基于實例的漢語分詞方法

24. 漢語自動分詞的主要評測指標

在這里插入圖片描述

第八章-詞性標注

25. 詞性標注，句法分析的主要方法(NLP的基本方法)

基于規則的方法
? 基于統計的方法
? 統計與規則相結合的方法

基于規則的方法：

這種方法依賴語言學家手工編寫的語法規則和詞典資源，通過匹配上下文模式來確定詞語的詞性。例如，可以根據某個詞前后的詞性組合來判斷當前詞是否為動詞或名詞。這類方法在小規模、結構清晰的語言數據上效果較好，但開發成本高、維護困難，且難以適應新領域或未登錄詞。
2. 基于統計的方法：

統計方法利用大規模已標注的語料庫進行模型訓練，常見的模型包括隱馬爾可夫模型（HMM）、最大熵模型（MEMM）、條件隨機場（CRF）以及近年來廣泛使用的深度學習模型（如BiLSTM-CRF、Transformer等）。這些模型能夠從數據中自動學習詞語與詞性之間的概率關系，具有較強的泛化能力和適應性，尤其適用于開放域文本處理。
3. 統計與規則相結合的方法：

為了兼顧準確性和可解釋性，一些系統采用統計與規則相結合的方式。例如，在統計模型的基礎上引入語言規則作為約束或后處理手段，或者將規則用于處理統計模型無法覆蓋的特殊情況（如專有名詞識別、歧義消解等）。這種方法通常能提升整體標注性能，尤其是在處理低頻詞和未登錄詞時表現更優。