自然語言處理的相關概念與問題

目錄

一、學科的產生與發展

1、什么是自然語言?

2、自然語言處理技術的誕生

二、技術挑戰

三、基本方法

1、方法概述

理性主義方法

經驗主義方法

2、傳統的統計學習方法

3、深度學習方法

詞向量表示

詞向量學習

開源工具

四、應用舉例

1、漢語分詞

(1)最大匹配法

(2)基于n-gram的分詞方法

(3)由字構詞的分詞方法

(4)基于神經網絡的分詞方法

(5)基于預訓練模型的分詞方法

2、機器翻譯【MT】

(1)基于模版的直接轉換法

(2)基于規則的翻譯方法

(3)基于中間語言的翻譯方法

(4)基于語料庫的翻譯方法

統計機器翻譯(SMT)

神經機器翻譯方法

3、語音翻譯/同聲傳譯

五、技術現狀

1、漢語自動分詞技術現狀

2、機器翻譯譯文的質量

3、做不到語言的深度理解,缺乏推理能力

書籍推薦


一、學科的產生與發展

1、什么是自然語言?

? ? ? ?自然語言是人類社會發展過程中自然產生的語言,是最能體現人類智慧和文明的產物。
? ? ? ?語言是思維的載體,是人類交流思想、表達感情最自然、最直接、最方便的工具;人類
歷史上以語言文字形式記載和流傳的知識站比達八成以上。

2、自然語言處理技術的誕生

  • 自W. Weaver 和A.D.Booth 提出機器翻譯概念后,美國和英國的學術界對機器翻譯(machine translation,MT)產生了濃厚的興趣,并得到了實業界的支持。

  • 1954年Georgetown大學在IBM協助下,用IBM-701計算機實現了世界上第一個MI系統,實現俄譯英翻譯,1954年1月該系統在紐約公開演示。系統只有250條俄語詞匯,6 條語法規則,可以翻譯簡單的俄語句子。
  • 隨后10 多年里,MT研究在國際上出現熱潮。
  • 1962年國際計算語言學學會(Association for Computational Linguistics,ACL)成立;
  • 1965年國際計算語言學委員會(International Committee on Computational Linguistics,ICCL)成立。
  • 1964年,美國科學院成立語言自動處理咨詢委員會(AutomaticLanguage Processing Advisory
    Committee,ALPAC),調查機器翻譯的研究情況,于1966年11月公布了一個題為“語言與機器”的調查報告,簡稱ALPAC 報告,宣稱:“在目前給機器翻譯以大力支持還沒有多少理由”
    “機器翻譯遇到了難以克服的語義障礙(semantic barrier)”。從此機器翻譯研究在世界范圍內進入低迷狀態。計算語言學(computational linguistic)術語首次以正式身份出現在這個報告里。
  • 1980S,隨著計算機網絡的快速發展和普及,以開發實用自然語言處理系統為目標的語言工程技術應運而生,自然語言處理(natural? language? ?processing,NLP)術語由此誕生

二、技術挑戰

  • 大量存在的未知語言現象如:高山、高升;吉林、武夷山、桂林、溫泉、溫馨、時光;虎蠅,埃博拉,奧特曼、悶騷 ;BoW,word2vec
  • 無處不在的歧義詞如:蘋果、粉絲:bank,interest……;那輛白色的車是黑車/臭豆腐真香啊!
  • 復雜或歧義結構比比皆是:喜歡鄉下的孩子;上大學子燭光追思錢偉長;’“動物保護警察”明年上崗。。。。
  • 普遍存在的隱喻表達:在微信圈里潛水;打鐵還要自身硬;你簡直是個木頭腦袋;
  • 對翻譯而言,不同語言之間的概念不對等: 饅頭 steamed bread

三、基本方法

1、方法概述

理性主義方法

  • 核心思路:將分析對象轉化為 “數據 + 算法”。其中,數據即語言符號,算法則是根據分析目的設計的方法、原則和過程。
  • 分析層面
    • 詞法分析:研究詞與詞、字與字之間的搭配規律及計算方式。
    • 句法分析:探討詞匯組成句子時,詞與詞之間、句子與句子之間的關系。
    • 語義分析:試圖解析語言文字所包含的意義(包括淺層和深層意義)。
  • 輔助手段
    • 構建詞典:存儲能組成詞的字或詞。
    • 總結規則:將詞與詞、字與字之間的搭配及連接關系總結為規則,以此說明符號間的邏輯關系。
  • 特點:依賴語言學理論,建立形式化的規則體系,進行基于符號的推理。

經驗主義方法

  • 核心思路:關注詞與詞之間的搭配情況,包括前后、并列等各種結構關系,其關注的結構相對寬泛,涉及共現關系(如哪些詞更容易同時出現在同一文本、上下文或存在前后關系等)。
  • 經驗來源:從大量以往的書寫文本(語料庫)中獲取,認為文本中如此使用,便可以這樣運用。
  • 方法特點
    • 基于統計:通過統計學方法從大規模語料庫中統計出規律,屬于數據驅動型。
    • 概率計算:計算符號(詞)前后出現的概率大小。

? ? ? ? ? 兩者都關注語言的結構,但理性主義方法側重人工構建詞典和規則,依賴語言學理論與符號推理;經驗主義方法則依賴大規模語料庫的統計數據,注重從實際使用經驗中挖掘規律。

也就是深度學習、大語言模型

2、傳統的統計學習方法

3、深度學習方法

? ? 對這個特征的描述等等發生了變化,變成一個序列的形式,也就是第一個詞、第二、第三個詞,直到第七個詞的時候,我們能夠通過前幾個字判斷一下第七個詞大最大的可能是哪一個詞....

詞向量表示

相近的詞之間距離小

? ? ? ? 而之前都是符號化的,變為詞向量后就可計算了【計算風趣和幽默兩個之間的向量的歐式距離,它的距離一定比風趣和這個之間的距離近】

不同詞語之間距離差異

不同的詞和詞之間的距離也會有差異,像表示親屬關系、血緣關系的這些詞會近一些,而表示身份地位【king\queen】這個詞,要遠離這些親屬這種特質的這個詞; 以男女不同性別之間區分時,發現他們之間的距離的=差不多一樣【如brother與sister的距離約等于 king和queen的距離】

詞向量學習

????????基于文本的詞向量學習就是要學這樣的一個語義空間 L ,認為每一個詞只要是包含在這個空間中了,它要對應的他的詞向量【詞表的規模V的確定是很重要的,不一定需要訓練數據中的所有詞,一般會采用頻率高于某閾值的詞,甚至也會在訓練前設置一些停用詞】

開源工具

四、應用舉例

1、漢語分詞

已有的方法:全切分方法/最短路徑切分方法/基于n-gram的統計方法/基于HMM的分詞與詞性標注一體化方法.....

(1)最大匹配法

?????????“他是研究生物的。”,先從最左邊開始,看看最長能組成詞典里有的詞語是幾個字。一開始找 6 個字 “他是研究生物”,發現詞典里沒有這個詞;然后減少一個字,找 5 個字 “他是研究生”,詞典里還是沒有;再減少一個字,找 4 個字 “他是研究” ,詞典里依然沒有;直到找到 “他”,詞典里有這個詞,就把 “他” 切出來,接著從剩下的部分 “是研究生物的。” 繼續用同樣的方法找,依次拆分出 “是”“研究”“生物”“的” 。簡單來說,就是從句子左邊起,每次盡可能找最長的、能在詞典里匹配上的詞語。

? ??逆向最大匹配法是從句子的最右邊開始 “切” 。

????雙向最大匹配法就是把正向最大匹配法和逆向最大匹配法結合起來用。先分別用正向和逆向最大匹配法對句子進行分詞,然后對比兩種方法得到的結果。如看哪種分詞方式得到的詞語數量更合理

(2)基于n-gram的分詞方法

(3)由字構詞的分詞方法

? ? ?B M E S相當于是標簽,這樣有樣本就可以訓練處一個分類器,之后針對一個新樣本的每一個字就可以預測出一個標簽,然后再進行分詞,但是這樣對字和字之間出現的前后距離會比較窄

(4)基于神經網絡的分詞方法

(5)基于預訓練模型的分詞方法

2、機器翻譯【MT】

(1)基于模版的直接轉換法

????????從源語言句子的表層出發,將單詞、短語或句子直接置換成目標語言譯文,必要時進行簡單的詞序調整。直接將源語言句子按照固定的模版或句型結構轉換為目標語言,不經過復雜的語法分析,屬于早期機器翻譯的基礎方法。為常見的短語、句子結構預先設定一一對應的翻譯模版(如 “Hello” 對應 “你好”,“I am...” 對應 “我是...”)

(2)基于規則的翻譯方法

?????通過人工定義源語言和目標語言的語法規則、詞匯規則及轉換規則,利用計算機對句子進行語法分析,再根據規則生成目標語言。

基于規則的翻譯過程分成6個步驟:
(a)對源語言句子進行詞法分析
(b)對源語言句子進行句法/語義分析
(c)源語言句子結構到譯文結構的轉換
(d)譯文句法結構生成
e)源語言詞匯到譯文詞匯的轉換
(f)譯文詞法選擇與生成

(3)基于中間語言的翻譯方法

????????引入一種獨立于源語言和目標語言的 “中間語言”(Interlingua),作為翻譯的中介。先將源語言轉換為中間語言,再將中間語言轉換為目標語言,避免直接處理雙語對應關系。

(4)基于語料庫的翻譯方法

????????依賴大規模雙語平行語料庫(即源語言文本及其對應的目標語言翻譯),通過統計或機器學習方法從語料中學習雙語對應規律,實現翻譯。是目前主流的機器翻譯方法。

統計機器翻譯(SMT)

神經機器翻譯方法

如:

方法核心依賴優勢主要局限適用場景
基于模版的直接轉換固定模版簡單易實現靈活性極差簡單短句、固定場景
基于規則人工語法規則可以較好的保持原文的結構規則覆蓋有限、人工量大,主觀性強語法嚴謹的小范圍翻譯
基于中間語言通用中間語言多語言擴展方便中間語言設計難、語義解析復雜理論上適合多語言互譯
基于語料庫大規模平行語料數據驅動、性能優、不需要對源語言進行深層次分析依賴語料、可解釋性弱通用場景、現代主流翻譯方法

3、語音翻譯/同聲傳譯

三個關鍵技術:語音識別、口語理解和翻譯、語音合成

五、技術現狀

1、漢語自動分詞技術現狀

2、機器翻譯譯文的質量

3、做不到語言的深度理解,缺乏推理能力

  • ? ??生詞識別和切分是漢語自動分詞技術面臨的最大問題
  • ? ? 跨領域和非規范是導致生詞大量出現的主要原因
  • ? ? 研究半監督學習、遷移學習等方法,解決領域的自適應問題,提高系統的魯棒性和準確率,盡量減少系統對標注樣本的依賴性,是未來漢語自動分詞技術研究的主要方向

書籍推薦

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/92211.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/92211.shtml
英文地址,請注明出處:http://en.pswp.cn/web/92211.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Anthropic MCP架構深度解析:下一代AI工具集成協議的設計哲學

本文深入剖析Anthropic提出的模型通信協議(MCP),揭示其如何重構AI與工具生態的交互范式,打造安全高效的智能體基礎設施。 引言:AI工具集成的"巴別塔困境" 當前AI生態面臨的核心挑戰: #mermaid-svg-lSpYBxzxD5oiYwcL {font-family:"trebuchet ms",verd…

【注意】HCIE-Datacom華為數通考試,第四季度將變題!

最近,數據通信圈子可熱鬧壞啦!好幾個渠道都證實了,HCIE - Datacom實驗考試馬上要有大變化咯! 這可不是啥小道消息,也不是那種試點的傳言,而是從IE內部技術交流會上得到的確切消息。 這邊聯系了華為認證的好…

MySql 硬核解析系列 一 MySQL的鎖機制

MySQL 的鎖機制是其并發控制的核心,直接影響數據庫的性能、一致性與可用性。本文將從底層原理、鎖的分類、實現機制、鎖的粒度、鎖的兼容性、死鎖處理、InnoDB 的行鎖實現、MVCC 與鎖的關系等多個維度,進行硬核、深度解析,適用于希望深入理解 MySQL 并發控制機制的開發者與 …

7.軟件工程

軟件生命周期軟件生命周期什么是軟件工程?以工程化的原則和方法來開發軟件,其目的是提高軟件生產率、提高軟件質量、降低軟件成本。軟件工程3大組成部分:方法、工具、過程。什么是軟件生命周期:經過開發、使用和維護,直…

C 語言結構體與 Java 類的異同點深度解析

在編程語言的發展歷程中,C 語言的結構體與 Java 的類扮演著至關重要的角色。作為面向過程編程的經典代表,C 語言的結構體為數據封裝提供了基礎形式;而 Java 作為純面向對象語言,類則是其核心語法結構。二者既存在一脈相承的設計思想,又因編程語言范式的差異呈現出顯著區別…

C++、STL面試題總結(二)

1. 必須實現拷貝構造函數的場景 核心問題:默認拷貝構造的缺陷 C 默認的拷貝構造函數(淺拷貝),會直接拷貝指針 / 引用成員的地址。若類包含引用成員或指向堆內存的指針,淺拷貝會導致 “多個對象共享同一份資源”&…

IntelliJ IDEA2024 錯誤‘http://start.spring.io/‘的初始化失敗,請檢查URL、網絡和代理設置。

下載新版本的intellij idea2024創建項目時,服務器URL報錯誤http://start.spring.io/的初始化失敗,請檢查URL、網絡和代理設置。錯誤消息:Cannot download http://start.spring.io/:Permission denied:getsockopt,具體如下圖&#…

從零開始的云計算生活——第三十八天,避坑落井,Docker容器模塊

一.故事背景 在綜合使用了之前全部的知識完成項目之后,接下來將學習更簡單的方法來對之前的命令進行使用,馬上進入容器模塊 二. Docker概述 Docker簡介 Docker,翻譯過來就是碼頭工人 Docker是一個開源的應用容器引擎,讓開發者…

Python與自動化運維:構建智能IT基礎設施的終極方案

Python與自動化運維:構建智能IT基礎設施的終極方案 引言:運維革命的Python引擎 在DevOps理念席卷全球的今天,企業IT基礎設施的復雜度呈指數級增長。某跨國銀行的數據顯示,采用Python構建的自動化運維體系使其服務器部署效率提升400%,故障響應時間縮短至原來的1/8。本文將…

HarmonyOS應用開發環境搭建以及快速入門介紹

下載并安裝DevEco Studio,這是華為官方提供的HarmonyOS應用開發IDE。訪問華為開發者聯盟官網下載對應操作系統的版本。安裝完成后,配置HarmonyOS SDK和必要的工具鏈。 確保計算機滿足開發環境要求,包括Windows 10 64位或macOS 10.14及以上操…

RocketMQ與Kafka 消費者組的?重平衡操作消息順序性對比

RocketMQ 的重平衡機制本身不會直接影響消息順序,但消費模式的選擇和使用需注意以下細節:重平衡機制RocketMQ消費者組的重平衡策略是每隔20秒從Broker獲取消費組的最新消費進度,并根據訂閱信息重新分配消息隊列。該策略主要影響消息拉取的均衡…

學習 Android(十四)NDK基礎

學習 Android(十四)NDK基礎 Android NDK 是一個工具集,可讓我們使用 C 和 C 等語言以原生代碼實現應用的各個部分。對于特定類型的應用,這可以幫助我們重復使用以這些語言編寫的代碼庫。 接下來,我們將按照以下步驟進行…

寶塔(免費版9.2.0)的docker拉取倉庫失敗的加速方法

寶塔docker拉取倉庫失敗 完美加速方法_寶塔docker加速-CSDN博客 版本:免費版 9.2.0 https://docker.1ms.run 其他的試了很多 都不行 最后不要用寶塔的控制面板(很卡),直接在linux中用命令行,效果就很好了。

文獻解讀-生境分析亞區域選擇+2D_DL+3D_DL-局部晚期食管鱗狀細胞癌新輔助化療免疫治療反應預測

研究標題:結合亞區域放射組學與多通道二維或三維深度學習模型預測局部晚期食管鱗狀細胞癌(LA-ESCC)患者對新輔助化療免疫治療(NACI)的反應借鑒點:建模思路(看流程圖理解就夠了)引言食…

機器學習第四課之決策樹

目錄 簡介 一.決策樹算法簡介 二. 決策樹分類原理 1.ID3算法 1.1 熵值 1.2 信息增益 1.3 案例分析 ?編輯 2.C4.5 2.1 信息增益率 2.2.案例分析 3.CART決策樹 3.1基尼值和基尼指數 3.2案例分析 三、決策樹剪枝 四、決策樹API 五、電信客戶流失 六、回歸樹 七. 回歸…

Java面試題和答案大全

一、Java基礎知識 1. Java語言特點 題目: 請說明Java語言的主要特點? 答案: 面向對象:Java是純面向對象的語言,支持封裝、繼承、多態 平臺無關性:一次編譯,到處運行(Write Once, Run Anywhere) 簡單性:語法簡潔,去掉了C++中的指針、多重繼承等復雜特性 安全性:提…

用NAS如何遠程訪問:詳細教程與實用技巧

在信息時代,家用NAS(網絡附加存儲)成為家庭數據存儲和管理的熱門設備。它不僅可以作為家庭照片、視頻、工作文件的集中存儲中心,還支持遠程訪問,方便用戶隨時隨地獲取數據。那么,如何配置和實現家用NAS的遠…

Qt-桌面寵物

目錄 一,演示(部分功能) 二,開發環境準備 三,部分代碼實現 1.創建基礎窗口 2.實現寵物動畫 3.添加交互功能 4.系統托盤集成 5.行為模式實現 6.狀態管理系統 7.資源打包部署 四,接受定制 一&…

C++編程學習(第19天)

局部變量和全局變量每一個變量都有其有效作用范圍,這就是變量的作用域,在作用域以外是不能訪問這些變量的。局部變量在一個函數內部定義的變量是局部變量,它只在本函數范圍內有效,也就是說只有在本函數內才能使用他們,…

客流特征識別準確率提升 29%:陌訊多模態融合算法在零售場景的實戰解析

原創聲明本文為原創技術解析文章,涉及的技術參數與架構設計引用自《陌訊技術白皮書》,禁止任何形式的抄襲與轉載。一、行業痛點:零售客流識別的技術瓶頸在零售數字化轉型過程中,客流特征識別(包括性別、年齡分層、停留…