NLP簡介

自然語言處理( Natural Language Processing, NLP)是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學的一部分。

一、AI和NLP的基本介紹

1.人工智能的分類

弱人工智能:限定領域解決特定問題

強人工智能:通用領域勝任人類所有工作

超人工智能:遠超人類智慧

2.人工智能研究方向

3.人工智能于機器學習的關系

人工智能的三駕馬車:算法、算力、數據

4.自然語言處理(Natural Language Processing)

集語言學、數學、計算機科學為一體

自然語言處理的目標:人機交互、數據分析/挖掘

二、算法行業介紹

1.算法相關工作

(1)落地型

主要負責業務場景的算法落地,動手能力強

需要熟悉業務場景常見問題,極端情況的處理

難點:小坑不斷,需求總改,數據常缺,效果老降

(2)研究型

主要負責發表論文及算法比賽等,理論知識扎實

研究內容可以脫離實際業務,在公開數據集上工作

難點:想好的思路已發表,比賽的分數被人超

2.項目人員構成

業務人員/甲方:一般是非程序員,根據業務場景需要,提出需求

產品經理:與業務對接,梳理需求,整理成開發的計劃;或根據用戶反饋等,提出自己的需求

開發人員:細分種類很多,人工智能方向一般大致分成算法開發和工程開發,合作處理整個項目

測試人員:專門進行測試,也可以進一步細分,一般也需要編程能力

運維人員:機器維護人員,服務器和數據庫的重啟、擴容、縮容等操作由他們進行,同時負責監控服務運行的狀況

Optional:部署人員、數據標注人員、項目管理人員、平臺維護人員等

3.項目主要流程&算法開發職責

①確認需求——業務發起需求評審

了解業務背景,以算法人員視角給出是否可行的意見

②確認技術方案——開發進行技術評審(算法方案+工程方案)

對問題的建模過程,需求轉化成哪(幾)種機器學習問題(或規則處理),需要哪些前置條件

③獲取標注數據——算法或業務提出數據需求

建立標注規范,校驗數據格式,抽樣評估效果,訓練集驗證集劃分;搜索開源數據;購買數據

④代碼開發——模型訓練、功能開發等

訓練/預測代碼開發,算法實驗,對比效果

⑤測試——測試用例評審

功能測試,效果測試,性能測試,開發可以自測,配合測試組發現的問題做修改

⑥部署上線/投入使用——開發上線,測試驗證,運維監控

每個公司使用框架有差異,根據實際情況處理

⑦后續迭代——業務提出優化需求

數據埋點,分析日志等

4.NLP面臨的困難

①口吃系列:劃分語義邊界

eg.過幾天天天天氣不好

②分詞系列:劃分語義邊界

eg.南京市長江大橋

③套娃系列:語言的遞歸性

eg.轉發《自治區教育廳辦公室關于轉發<教育部關于xxxx的通知>的通知》的通知

④同文歧義系列:常識認知/社會認知

eg.單身的原因有兩個,一是誰都看不上,二是誰都看不上

⑤反話正說系列:語序和語義的關聯

eg.屢敗屢戰? 屢戰屢敗

⑥崩潰系列

⑦英語系列

困難總結:NLP對于機器來說很困難,本質上是因為對人來說它也很困難。換句話說,這個任務本身的復雜度就非常高,遠遠高于下圍棋等看似復雜,但實際有明確規則的任務。語言本身具有創造力,在不同領域和時代不斷發生著變化。

三、發展歷程

1.NLP的發展歷程

圖靈測試:讓計算機來冒充人,與人展開對話。如果不足70%的人判對,也就是超過30%的人誤以為在和自己說話的是人而非計算機,那就可以認為這臺機器擁有人類智能。

1950年提出,是圖靈的個人看法,并非當前業界的追求

2.NLP的發展現狀

①深度學習大幅改變了NLP研究,極大的推進了NLP技術的發展。

②NLP技術已經深入生活的各個角落,輸入法、語音助手、搜索引擎、智能客服等大量依賴NLP技術的應用已經被推廣和使用。

③大語言模型的強大理解能力,讓人們看到了強人工智能的曙光。

四、常用工具和框架介紹

1.常用編輯器

推薦Pycharm、VSCode以及Linux中的vim

2.機器學習相關python框架

Tensorflow ?大名鼎鼎,工程配套完善

Pytorch ?學術界寵兒,調試方便,目前的主流

Keras ?高級封裝,簡單好用,現已和Tensorflow合體

Gensim ?訓練詞向量常用

Sklearn ?大量機器學習算法,如邏輯回歸,決策樹,支持向量機,隨機森林,KMeans等等,同時具有數據集劃分和各種評價指標的實現

Numpy ?各種向量矩陣操作

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/41973.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/41973.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/41973.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【算法】(C語言):冒泡排序、選擇排序、插入排序

冒泡排序 從第一個數據開始到第n-1個數據&#xff0c;依次和后面一個數據兩兩比較&#xff0c;數值小的在前。最終&#xff0c;最后一個數據&#xff08;第n個數據&#xff09;為最大值。從第一個數據開始到第n-2個數據&#xff0c;依次和后面一個數據兩兩比較&#xff0c;數值…

關于用戶咨詢華為擎云L410筆記本安裝Windows系統的說明

同樣也是單位購買的華為擎云L410 KLVU-WDU0筆記本電腦&#xff0c;國產UOS系統某些軟件用著不是很方便&#xff0c;用戶咨詢是否能夠安裝Windows10或者Windows7&#xff1f; 帶著種種疑問也做了一些查詢&#xff0c;之前也給一些國產設備更改過操作系統&#xff0c;之前的國產設…

計算機網絡淺談—什么是 OSI 模型?

開放系統通信&#xff08;OSI&#xff09;模型是一個代表網絡通信工作方式的概念模型。 思維導圖 什么是 OSI 模型&#xff1f; 開放系統互連 (OSI) 模型是由國際標準化組織創建的概念模型&#xff0c;支持各種通信系統使用標準協議進行通信。簡單而言&#xff0c;OSI 為保證…

智能交通(3)——Learning Phase Competition for Traffic Signal Control

論文分享 https://dl.acm.org/doi/pdf/10.1145/3357384.3357900https://dl.acm.org/doi/pdf/10.1145/3357384.3357900 論文代碼 https://github.com/gjzheng93/frap-pubhttps://github.com/gjzheng93/frap-pub 摘要 越來越多可用的城市數據和先進的學習技術使人們能夠提…

Laravel框架詳解及使用方法

Laravel是一款開源的PHP Web應用程序框架&#xff0c;它基于MVC&#xff08;模型-視圖-控制器&#xff09;架構&#xff0c;以其簡單易學、靈活性強、安全性高和強大的社區支持而廣受開發者喜愛。以下是對Laravel框架的詳細解析及使用方法&#xff1a; 一、Laravel框架簡介 1…

刷題——在二叉樹中找到最近公共祖先

在二叉樹中找到兩個節點的最近公共祖先_牛客題霸_牛客網 int lowestCommonAncestor(TreeNode* root, int o1, int o2) {if(root NULL) return -1;if((root->val o1) || (root->val o2)) return root->val;int left lowestCommonAncestor(root->left, o1, o2);i…

【pytorch19】交叉熵

分類問題的loss MSECross Entropy LossHinge Loss &#xff08;SVN用的比較多&#xff09; ∑ i m a x ( 0 , 1 ? y i ? h θ ( x i ) ) \sum_imax(0,1-y_i*h_\theta(x_i)) ∑i?max(0,1?yi??hθ?(xi?)) Entropy&#xff08;熵&#xff09; Uncertainty&#xff08;…

ESP32——物聯網小項目匯總

商品級ESP32智能手表 [文章鏈接] 用ESP32&#xff0c;做了個siri&#xff1f;&#xff01;開源了&#xff01; [文章鏈接]

IPsec連接 和 SSL連接

Psec和SSL連接是兩種用于保障網絡通信安全的技術 IPsec 通常用于連通兩個局域網&#xff0c;主要是網對網的連接&#xff0c;如分支機構與總部之間&#xff0c;或者本地IDC與云端VPC的子網連接。適合站點間的穩定通訊需求以及對網絡層安全有嚴格要求的場合。要求兩端有固定的網…

UDP協議:獨特之處及其在網絡通信中的應用

在網絡通信領域&#xff0c;UDP&#xff08;用戶數據報協議&#xff0c;User Datagram Protocol&#xff09;是一種廣泛使用的傳輸層協議。與TCP&#xff08;傳輸控制協議&#xff0c;Transmission Control Protocol&#xff09;相比&#xff0c;UDP具有其獨特的特點和適用場景…

對數據采集、數據存儲和數據處理流程

對數據采集、數據存儲和數據處理流程 數據采集是指從各種來源收集原始數據的過程&#xff0c;這通常包括傳感器、網站、社交媒體、API等。它涉及設置抓取工具、爬蟲技術或直接從數據庫獲取數據。數據存儲則涉及到將采集到的數據安全、高效地保存起來&#xff0c;常見的有關系型…

EDEM-FLUENT耦合報錯幾大原因總結(持續更新)

寫在前面,本篇內容主要是來源于自己做仿真時的個人總結,以及付費請教專業老師。每個人由于工況不一樣,所以報錯原因千奇百怪,不能一概而論,本篇內容主要是為本專欄讀者在報錯時提供大致的糾錯方向,從而達到少走彎路的效果,debug的過程需要大家一點點試算。問題解答在文 …

02STM32環境搭建新建工程

STM32環境搭建&新建工程 軟件安裝&#xff1a;開發方式&新建工程步驟&架構 個人心得 軟件安裝&#xff1a; 安裝Keil5 MDK 安裝器件支持包 軟件注冊 安裝STLINK驅動 安裝USB轉串口驅動 開發方式&新建工程步驟&架構 STM32開發方式&#xff1a; 1.寄存器 …

什么是倒退型自閉癥?

在星貝育園自閉癥兒童康復學校&#xff0c;作為一位致力于自閉癥兒童教育與康復的老師&#xff0c;我深知家長們面對“倒退型自閉癥”這一概念時的困惑與憂慮。今天&#xff0c;就讓我以專業的身份&#xff0c;為大家揭開倒退型自閉癥的神秘面紗&#xff0c;共同探討這一特殊現…

mysql中的遞歸函數recursive

遞歸部門 WITH recursive dept_tree AS (SELECTsd.mine_id AS mine_id,sd.dept_id AS dept_id,sd.tenant_id AS tenant_id,sd.order_num,sd.dept_name AS topName,sd.dept_id AS topIdFROMsys_dept sdWHERE<!-- 加上or后也會查詢出dept節點 sd.parent_id #{deptId} or sd.…

uniapp H5頁面設置跨域請求

記錄一下本地服務在uniapp H5頁面訪問請求報跨域的錯誤 這是我在本地起的服務端口號為8088 ip大家可打開cmd 輸入ipconfig 查看 第一種方法 在源碼視圖中配置 "devServer": {"https": false, // 是否啟用 https 協議&#xff0c;默認false"port&q…

跨界客戶服務:拓展服務邊界,創造更多價值

在當今這個日新月異的商業時代&#xff0c;跨界合作已不再是新鮮詞匯&#xff0c;它如同一股強勁的東風&#xff0c;吹散了行業間的壁壘&#xff0c;為企業服務創新開辟了前所未有的廣闊天地。特別是在客戶服務領域&#xff0c;跨界合作正以前所未有的深度和廣度&#xff0c;拓…

一文理解 Treelite,Treelite 為決策樹集成模型的部署和推理提供了高效、靈活的解決方案

&#x1f349; CSDN 葉庭云&#xff1a;https://yetingyun.blog.csdn.net/ 一、什么是 Treelite&#xff1f; Treelite 是一個專門用于將決策樹集成模型高效部署到生產環境中的機器學習模型編譯器&#xff0c;特別適合處理大批量數據的推理任務&#xff0c;能夠顯著提升推理性能…

[Vite]Vite插件生命周期了解

[Vite]Vite插件生命周期了解 Chunk和Bundle的概念 Chunk&#xff1a; 在 Vite 中&#xff0c;chunk 通常指的是應用程序中的一個代碼片段&#xff0c;它是通過 Rollup 或其他打包工具在構建過程中生成的。每個 chunk 通常包含應用程序的一部分邏輯&#xff0c;可能是一個路由視…

【刷題匯總--大數加法、 鏈表相加(二)、大數乘法】

C日常刷題積累 今日刷題匯總 - day0061、大數加法1.1、題目1.2、思路1.3、程序實現 2、 鏈表相加(二)2.1、題目2.2、思路2.3、程序實現 3、大數乘法3.1、題目3.2、思路3.3、程序實現 4、題目鏈接 今日刷題匯總 - day006 1、大數加法 1.1、題目 1.2、思路 讀完題,明白大數相加…