NLP基礎知識 與 詞向量的轉化方法 發展

目錄

1.NLP 基礎知識點

為什么需要自然語言處理?

自然語言處理有哪些分類?

自然語言處理有哪些實際應用?

為什么需要自然語言處理?

自然語言處理有哪些分類?

自然語言處理有哪些實際應用?

自然語言處理的技術/工作原理是什么?

2.NLP文本轉化為詞向量的方法 

2.1 one-hot

 2.1.1one-hot 優點

  2.1.2one-hot 缺點

2.2TF-IDF

 2.2.1TF-IDF優點

 2.2.2TF-IDF缺點

2.3 N-gram優缺點

2.3.1語言模型 

 2.4分布式 ?編輯

2.4.1分布式優缺點 

 2.4.2共現矩陣

2.4.3共現矩陣優缺點 

 2.4.4共現矩陣+SVD(奇異值降維)的代碼實現

2.4.4 .1共現矩陣+SVD的優缺點

 2.5NNLM(深度學習模型)

2.5.1NNLM模型主要流程 

2.5.2NNLM的優缺點

2.6word2vec 

2.6.1CBOW的word2vec框架  (哈夫曼樹優化)

 2.6.2skip-gram優化的word2vec框架

2.6.3 word2vec 的優缺點


 

1.NLP 基礎知識點

自然語言處理(Natural Language Processing,簡稱NLP)屬于人工智能的一個分支,旨在讓計算機能夠理解并處理人類語言,從中提取出有用的信息,幫助人類更高效地處理各種任務。

為什么需要自然語言處理?

自然語言處理通過對人類日常語言進行理解和響應,為人類帶來更多的便利和創新。隨著人工智能的不斷發展,自然語言處理也逐漸融入到電商、文娛、公安、醫療、電力等各大行業領域中,幫助人類高效地處理信息。

自然語言處理具有以下優勢:

  • 支持自然語言交互、簡便易用:NLP技術使得計算機可以理解和處理人類語言,從而實現了人與計算機的自然語言交互。用戶可以通過人類語言的方式表達自己的需求,無需使用計算機指令或編程知識,提高了人機交互的效率和易用性。

  • 支持海量信息分析和處理:NLP技術可以自動化處理大量的文本和語音信息,是處理、分析和挖掘數據中有價值信息的關鍵工具。

  • 提供個性化服務:NLP技術可以根據用戶的個人偏好和習慣進行個性化設置和推薦,提供更加個性化的服務。例如,智能客服可以根據用戶的語言風格和問題類型提供定制化的回答和解決方案。

自然語言處理有哪些分類?

  • 詞性標注:通過詞性標注服務,用戶可以快速為每一個詞附上對應的詞性,結合分詞服務,可以快速進行更深層次的文本挖掘處理,有效實現新詞發現、歧義消除等能力。

  • 命名實體識別:命名實體服務可以幫助您快速識別文本中的實體,進而挖掘各實體間的關系,是進行深度文本挖掘,知識庫構建等常用自然語言處理領域里的必備工具。

  • 情感分析:基于海量大數據研發,為有情感分析需求的產品提供服務。能夠對短文本情感的正負向及中性進行分析,識別和分析用戶的情感狀態和意圖,并給出結果。在輿情監控、話題審核、口碑分析聚類等商業領域有廣大的應用空間對于企業了解用戶滿意度、產品評價等方面非常有幫助。

  • 中心詞提取:基于海量數據,使用電商標題中心詞以及類目進行訓練,通過給每個詞計算一個相關性分數來衡量每個詞與句子的相關性程度,進而識別并提取出句子的中心詞。適用于提取電商搜索query、標題及其他類似短文本的中心詞。

  • 文本信息抽取:結合AI技術,通過自動閱讀文檔內容,將用戶關心的關鍵核心信息進行提取,簡化機械性和重復性的工作,協助企業完成文檔審閱及錄入工作。

  • 商品評價解析:商品評價解析主要用于分析消費者反饋的評價、點評內容,同時也可以對類似微博的口語化、短文本進行分析。

  • 關系抽取:從文本中提取實體之間的關系,例如人物關系、公司與股票價格之間的關系等。

  • 知識圖譜構建:自然語言處理技術可以自動抽取和整理知識圖譜,幫助人們更好地組織和理解復雜的信息,提高知識管理的效率和質量。

  • 商業決策支持:通過對市場和用戶需求的深入分析,自然語言處理技術可以為企業的商業決策提供有力支持,幫助企業做出更明智的決策。

自然語言處理有哪些實際應用?

自然語言在不同的行業中被廣泛應用。結合不同行業的特點,主要包含以下應用場景:

  • 金融-簡歷抽取于合同審核比對:依靠算法分析相關非結構化文本(文檔、描述、網頁等),并從文本中獲取結果,用于銀行簡歷抽取與合同審核比對等場景,快速高效縮短審批流程,極大減少了人工成本和時間成本。

  • 司法-信息抽取、分類:針對大量裁判文書中的判決時間、案發地點、原告信息、被告信息等信息的抽取,私有化部署,在本地化通過平臺進行文書的數據標注、模型訓練,快速對大量裁判文書進行結構化處理,大大提升審核效率。

  • 醫療-病歷質檢/DRGs:基于非結構化文本病歷數據,通過醫學知識圖譜能力構建醫學質檢引擎,支持病歷質量管理,做到事中提醒、事后檢查,減少醫療事故,提高服務質量;同時根據病案數據進行DRGs分組,保障醫院運營及醫保正常結算。

  • 互聯網-外呼意圖識別:在與客戶的通話過程中,通過實時語音識別客戶意圖,根據預設的流程話術精準回復,以真人語音或語音合成播報的形式與客戶進行溝通交流,從而幫助企業從海量用戶中高效、精準地觸達目標客戶,實現數據全鏈路管理。

  • 新零售-商品評價解析:用于分析消費者反饋的評價、點評內容,同時也可以對類似微博的口語化內容、短文本進行分析。品牌商從中可以解析出商品最吸引人的賣點,以及最需要改進的地方,進而獲知當前的消費者理念,預判流行趨勢,提高購買轉化。

  • 客戶服務:聊天機器人和虛擬客服代表利用NLP提供7x24小時的客戶服務,能夠理解和回應客戶的咨詢,減輕客服人員的工作負擔。

為什么需要自然語言處理?

自然語言處理通過對人類日常語言進行理解和響應,為人類帶來更多的便利和創新。隨著人工智能的不斷發展,自然語言處理也逐漸融入到電商、文娛、公安、醫療、電力等各大行業領域中,幫助人類高效地處理信息。

自然語言處理具有以下優勢:

  • 支持自然語言交互、簡便易用:NLP技術使得計算機可以理解和處理人類語言,從而實現了人與計算機的自然語言交互。用戶可以通過人類語言的方式表達自己的需求,無需使用計算機指令或編程知識,提高了人機交互的效率和易用性。

  • 支持海量信息分析和處理:NLP技術可以自動化處理大量的文本和語音信息,是處理、分析和挖掘數據中有價值信息的關鍵工具。

  • 提供個性化服務:NLP技術可以根據用戶的個人偏好和習慣進行個性化設置和推薦,提供更加個性化的服務。例如,智能客服可以根據用戶的語言風格和問題類型提供定制化的回答和解決方案。

自然語言處理有哪些分類?

  • 詞性標注:通過詞性標注服務,用戶可以快速為每一個詞附上對應的詞性,結合分詞服務,可以快速進行更深層次的文本挖掘處理,有效實現新詞發現、歧義消除等能力。

  • 命名實體識別:命名實體服務可以幫助您快速識別文本中的實體,進而挖掘各實體間的關系?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/76296.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/76296.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/76296.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【FPGA基礎學習】狀態機思想實現流水燈

目錄 一、用狀態機實現LED流水燈1.狀態機思想簡介1. 1基本概念1.2.核心要素1.3分類與模型 2.LED流水燈 二、CPLD與FPGA1.技術區別2.應用場景3.設計選擇建議 三、HDLbits組合邏輯題目 一、用狀態機實現LED流水燈 1.狀態機思想簡介 1. 1基本概念 ? 狀態機(Finite …

CSS語言的游戲AI

CSS語言的游戲AI探討 隨著技術的飛速發展,游戲行業也在不斷地革命和演變。游戲中的人工智能(AI)作為一種重要的設計元素,其復雜性和智能程度對游戲的體驗、玩法和整體表現都有著深遠的影響。近年來,CSS(Ca…

docker配置redis容器時配置文件docker-compose.yml示例

1.配置數據節點(主從節點) version: 3.7 services:master:image: redis:5.0.9container_name: redis-masterrestart: alwayscommand: redis-server --appendonly yesports:- 6379:6379slave1:image: redis:5.0.9container_name: redis-slave1restart: a…

【WPF】IOC控制反轉的應用:彈窗但不互相調用ViewModel

全稱:Inversion of Control,控制反轉 場景:A頁面需要調用B/C頁面等,防止直接在VM中新建別的頁面實例,使用IOC設計架構; 創建Service,在Service中實現頁面的實例創建和定義頁面輸入輸出參數。 在…

MySQL學習筆記十五

第十七章組合查詢 17.1組合查詢 MySQL允許執行多個查詢(多條SELECT語句),并將結果作為單個查詢結果集返回。這些組合查詢通常稱為并(union)或復合查詢(compound query)。 以下幾種情況需要使…

【MySQL】安裝

下載 MySQL :: MySQL Downloads 安裝 mysql 驗證

ffpyplayer+Qt,制作一個視頻播放器

ffpyplayerQt,制作一個視頻播放器 項目地址FFmpegMediaPlayerVideoWidget 項目地址 https://gitee.com/chiyaun/QtFFMediaPlayer FFmpegMediaPlayer 按照 QMediaPlayer的方法重寫一個ffpyplayer # coding:utf-8 import logging from typing import Unionfrom PySide…

Spring Boot 國際化配置項詳解

Spring Boot 國際化配置項詳解 1. 核心配置項分類 將配置項分為以下類別,便于快速定位: 1.1 消息源配置(MessageSource 相關) 控制屬性文件的加載、編碼、緩存等行為。 配置項作用默認值示例說明spring.messages.basename指定屬…

拍攝的婚慶視頻有些DAT的視頻文件打不開怎么辦

3-12 現在的婚慶公司大多提供結婚的拍攝服務,或者有一些第三方公司做這方面業務,對于視頻拍攝來說,有時候會遇到這樣一種問題,就是拍攝下來的視頻文件,然后會有一兩個視頻文件是損壞的,播放不了&#xff0…

【力扣hot100題】(073)數組中的第K個最大元素

花了兩天時間搞明白答案的快速排序和堆排序。 兩種都寫了一遍&#xff0c;感覺堆排序更簡單很多。 兩種都記錄一下&#xff0c;包括具體方法和易錯點。 快速排序 class Solution { public:vector<int> nums;int quicksort(int left,int right,int k){if(leftright) r…

【親測】Linux 使用 Matplotlib 顯示中文

文章目錄 安裝中文字體在Matplotlib中使用該字體來顯示中文 在 Linux 系統中使用 Matplotlib 繪制圖表時&#xff0c;如果需要顯示中文&#xff0c;可能會遇到中文字符顯示為方塊或者亂碼的問題。這是因為Matplotlib 默認使用的字體不支持中文。本文手把手帶你解決這個問題。 …

Redis Java 客戶端 之 SpringDataRedis

SpringDataRedis SpringData是Spring中數據操作的模塊&#xff0c;包含對各種數據庫的集成&#xff0c;其中對Redis集成模塊就叫做SpringDataRedis&#xff0c; 官方地址&#xff1a;https://spring.io/projects/spring-data-redis 特性&#xff1a; 提供了對不同Redis客戶端…

數字化轉型:重構生存邏輯,不止系統升級

數字化轉型不過是升級系統&#xff0c;砸了錢、耗了力&#xff0c;卻沒達到預期&#xff0c;競爭力也沒提升。實際上&#xff0c;數字化轉型是對企業生存邏輯的徹~底重構&#xff0c;關乎商業模式、運營流程等方方面面。? 很多企業覺得數字化轉型是 IT 部門的事&#xff0c;只…

C語言隊列的實現

目錄 ?編輯 &#xff08;一&#xff09;隊列的定義,初始化及創建結點 &#xff08;二&#xff09;入隊和出隊&#xff0c;以及取隊頭隊尾的數據 (三)銷毀隊列 隊列是指只允許在一端進行插入數據操作&#xff0c;在另?端進行刪除數據操作的特殊線性表&#xff0c;隊列具有先…

mapbox進階,使用本地dem數據,加載hillshade山體陰影圖層

????? 主頁: gis分享者 ????? 感謝各位大佬 點贊?? 收藏? 留言?? 加關注?! ????? 收錄于專欄:mapbox 從入門到精通 文章目錄 一、??前言1.1 ??mapboxgl.Map 地圖對象1.2 ??mapboxgl.Map style屬性1.3 ??hillshade 山體陰影圖層 api1.3.1 ??…

量子糾錯碼實戰:從Shor碼到表面碼

引言&#xff1a;量子糾錯的必要性 量子比特的脆弱性導致其易受退相干和噪聲影響&#xff0c;單量子門錯誤率通常在10?~10?量級。量子糾錯碼&#xff08;QEC&#xff09;通過冗余編碼測量校正的機制&#xff0c;將邏輯量子比特的錯誤率降低到可容忍水平。本文從首個量子糾錯…

10. git switch

基本概述 git switch是 Git 2.23 版本之后新增的命令&#xff0c;專門用于切換分支&#xff0c;目的是替代 git checkout 中與分支操作相關的功能&#xff0c;使命令語義更清晰、更安全。 基本用法 1.切換到已有分支 git switch <branch-name>常用選項 1.從當前分支…

LeetCode 熱題 100 堆

215. 數組中的第K個最大元素 給定整數數組 nums 和整數 k&#xff0c;請返回數組中第 **k** 個最大的元素。 請注意&#xff0c;你需要找的是數組排序后的第 k 個最大的元素&#xff0c;而不是第 k 個不同的元素。 你必須設計并實現時間復雜度為 O(n) 的算法解決此問題。 示例 …

PIXOR:基于LiDAR的3D檢測模型解析

目錄 1、前言 2、PIXOR介紹 2.1. 什么是PIXOR&#xff1f; 2.2. PIXOR如何工作&#xff1f; 3、表現和應用 3.1、PIXOR的性能表現 3.2、PIXOR的應用場景 3.3、PIXOR的局限性與挑戰 4. PIXOR的未來展望 5. 結語 1、前言 自動駕駛技術正以前所未有的速度發展&#xff…

Vue中權限控制的方案

文章目錄 源碼&#xff1a;一、頁面級1.1、路由守衛1.2、動態路由 二、按鈕級別2.1、通過v-if來判斷2.2、通過組件包裹的方式來判斷2.3、通過自定義指令的方式 三、接口級別 源碼&#xff1a; https://gitee.com/liu-qiang-yyds/sysPermission 一、頁面級 1.1、路由守衛 前端…