1.1 什么是 NLP
-
定義:
自然語言處理(NLP)**是一種讓計算機理解、解釋和生成人類語言的技術。它是人工智能領域中極為活躍且重要的研究方向,旨在模擬人類對語言的認知和使用過程
-
特點:
多學科交叉:結合計算機科學、人工智能、語言學和心理學等多學科知識。
目標:打破人類語言與計算機語言之間的障礙,實現無縫交流與互動。
NLP技術可執行多種復雜任務,包括:中文分詞、子詞切分、詞性標注,文本分類、實體識別、關系抽取,文本摘要、機器翻譯、自動問答等。這些任務不僅涉及語言表層結構的處理,還要求理解語言的深層含義,如語義、語境、情感和文化等復雜因素。
1.2 NLP 發展歷程
NLP 的發展歷程是從早期的規則基礎方法,到統計方法,再到現在的機器學習和深度學習方法的演變過程。
1.3 NLP 任務
在NLP的廣闊研究領域中,有幾個核心任務構成了NLP領域的基礎,它們涵蓋了從文本的基本處理到復雜的語義理解和生成的各個方面。這些任務包括但不限于中文分詞、子詞切分、詞性標注、文本分類、實體識別、關系抽取、文本摘要、機器翻譯以及自動問答系統的開發。
1.4 文本表示的發展歷程
文本表示是NLP的基礎和必要工作,目的是將文本數據數字化,以便計算機處理。它涉及將語言單位及其關系轉化為向量、矩陣等數據結構,需保留語義信息并兼顧計算與存儲效率。其發展歷程包括基于規則、統計學習和深度學習等階段,不斷演進以支持NLP發展。
參考資料:https://github.com/datawhalechina/happy-llm?