基本概念章節總結
一、語言學(Linguistics)
-
定義
- 研究語言的本質、結構和發展規律的科學,涵蓋語音、文字、語法等屬性。
- 分支包括歷時語言學、共時語言學、描述語言學等。
-
核心內容
- 分析語言的形態、句法、語義等層面,如詞素(詞根、前綴、后綴等)的構成規則。
二、計算語言學(Computational Linguistics, CL)
-
定義
- 通過建立形式化計算模型分析、理解和生成自然語言的交叉學科,涉及計算機科學、語言學、數學。
- 更側重基礎理論和方法研究,如算法設計與模型構建。
-
發展里程碑
- 1962年:美國成立“機器翻譯和計算語言學學會(ACL)”,召開首屆國際計算語言學學術年會。
- 1966年:術語“Computational Linguistics”在ALPAC報告中正式出現。
三、自然語言理解(Natural Language Understanding, NLU)
-
定義
- 探索人類語言認知過程,研究模仿人類語言理解的技術,是人工智能的核心目標之一,被譽為“人工智能皇冠上的明珠”。
-
評估標準
- 圖靈測試:通過人機對話判斷機器是否具備智能,但存在爭議。
四、自然語言處理(Natural Language Processing, NLP)
-
定義
- 研究利用計算機技術對文本進行處理和加工的學科,包括詞法分析、句法分析、語義提取等技術。
-
與其他學科的關系
- 與計算語言學(CL):CL側重理論,NLP側重工程實現,兩者常被視為同一領域。
- 與自然語言理解(NLU):NLU是NLP的終極目標,NLP是實現NLU的技術手段。
- 人類語言技術(HLT):涵蓋CL、NLP、NLU,是人工智能中最具挑戰性的方向之一。
五、中文信息處理
-
定義
- 針對中文的自然語言處理技術,因漢語屬于孤立語(幾乎無形態變化,依賴詞序和虛詞),處理方法具有特殊性。
-
漢語的特點
- 屬于孤立語(分析語),與屈折語(如英語)、黏著語(如日語)形成對比。
- 中文分詞、詞性標注等任務需考慮漢語的結構特性(如無空格分隔詞語)。
六、學科概念關系圖解
HLT(人類語言技術)├─ CL(計算語言學):理論基礎├─ NLP(自然語言處理):技術實現└─ NLU(自然語言理解):核心目標
七、關鍵區分點
概念 | 核心目標 | 研究方法 | 典型應用 |
---|---|---|---|
語言學 | 描述語言規律 | 理論分析 | 語法研究 |
計算語言學 | 建立語言計算模型 | 形式化算法與模型 | 句法分析模型 |
自然語言處理 | 實現文本自動化處理 | 工程技術(如分詞、翻譯) | 機器翻譯、信息檢索 |
自然語言理解 | 讓機器理解語義與意圖 | 人工智能算法(如深度學習) | 對話系統、問答系統 |
八、重要術語補充
- 圖靈測試:判斷機器是否具備智能的標準,通過人機對話區分機器與人類反應。
- 語系分類:
- 屈折語:英語、法語(用詞形變化表示語法關系);
- 黏著語:日語、韓語(用附加成分表示語法意義);
- 孤立語:漢語、越南語(靠詞序和虛詞表達語法關系)。
通過以上總結,可清晰梳理自然語言處理領域的核心概念及其相互關系,為后續學習奠定理論基礎。