NLP——操作步驟講義與實踐鏈接

數據集與語料

  • 語料是NLP的生命之源,所有NLP問題都是從語料中學到數據分布的規律
  • 語料的分類:單語料,平行語料,復雜結構
    在這里插入圖片描述
  • 語料的例子:Penn Treebank, Daily Dialog, WMT-1x翻譯數據集,中文閑聊數據集,中國古詩數據集
  • 語料來源:公開數據集,爬蟲,社交工具埋點,數據庫,上述數據集如何獲取?這里 (吐槽一下,B站的這個視頻講得很一般,浪費好幾個小時時間,收獲甚微,作為科普快速拉一下可以)

句子理解

用計算機處理一個句子,主要包含以下幾個方面:分詞詞性識別命名實體識別依存句法分析

分詞

分詞與NLP的關系

  • 分詞是中文語言特有的需求,是中文NLP的基礎,沒有中文分詞,我們對于語言很難量化,進而很難運用數學的知識去解決問題。而對于拉丁語系是不需要分詞的,因為它們有空格天然的隔開

  • 中分分詞(Chinese Word Segmentation)指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規范重新組合成詞序列的過程。分詞操作的輸入是句子,輸出是詞序列,如在這里插入圖片描述

  • 關于分詞,可參閱B站上一個視頻動手學中文分詞,(這個視頻還不錯,理論部分講得不是很細,但代碼部分很細,通過debug幫助理解算法)該系列課程講解了三種分詞算法及其實現、中文分詞工具Jieba分詞的用法,最后實現了一個簡單的在線分詞工具,內嵌了自研的三種算法以及調用Jieba分詞工具,原視頻給的百度鏈接無效,我跟做的Flask項目online_fenci資源:鏈接:百度網盤 提取碼:ci07 。由于缺少原視頻中css, js等樣式文件,所有頁面畫風有點。。。丑,只能將就看。

詞性識別

詞性識別的輸入是一個句子,輸出是識別出的詞性,例如,對于特朗普昨天在推特上攻擊拜登這句話,在對其進行分詞后,緊接著做詞性識別,得出與詞序列一一對應的詞性序列,如:特朗普-名詞人名(nh), 昨天-名詞時間(nt),在-介詞(p)
在這里插入圖片描述
在這里插入圖片描述

命名實體識別

依存句法分析

在這里插入圖片描述

預處理

  • tokenize:把詞向量化,例如,把一個詞“apple”向量化成一個長度512的向量,以便用計算機能夠處理的方式進行計算處理
  • 命名實體識別:把詞中的實體找出來
    一些預處理工具:
    預處理的工具包括:
  • NLTK:官網地址,基本的英文操作都支持
  • SnowNLP:https://github.com/isnowfy/snowlp,中文NLP處理工具,可以進行一些基本操作,如情感分析(積極or消極),簡繁轉換,分詞,標注,計算指標等
  • Pyrouge:測評文本摘要好壞
  • LTP: https://ltp.ai/, https://github.com/HIT-SCIR.ltp, 哈工大做的開源工具
  • Gensim: 實現Tf-ldf, LSA, LDA, Word2vec等技能
  • TF-IDF,統計詞頻,詞的文檔頻率,制作詞云

詞向量模型——word2vec

詞向量的通俗理解,如果用CBOWSkip-gram模型訓練詞向量,參閱這里
兩種構建詞向量的模式:CBOW模型與Skip-gram模型

Skip-gram模型

Skip-gram模型構建訓練數據的方法如圖,對于Thou shalt not make a machine in the likeness of a human mind這句話,用一個長度為5(一般為奇數)的滑窗在句中掃過,將input_word前2個詞與后2個詞作為output_word(或者叫target_word),構建出的數據集如下所示。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/39114.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/39114.shtml
英文地址,請注明出處:http://en.pswp.cn/news/39114.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

大數據:Numpy基礎應用詳解

Numpy基礎應用 Numpy 是一個開源的 Python 科學計算庫,用于快速處理任意維度的數組。Numpy 支持常見的數組和矩陣操作,對于同樣的數值計算任務,使用 NumPy 不僅代碼要簡潔的多,而且 NumPy 的性能遠遠優于原生 Python,…

mysql-5.5.62-win32安裝與使用

1.為啥是這個版本而不是當前最新的8.0? 因為我要用32位。目前mysql支持win32的版本最新只到5.7.33。 首先,到官網MySQL :: MySQL Downloads 然后選 選一個自己喜歡的版本就好。我這里是如標題版本。下載32位的zip。然后回來解壓。 完了創建系統環境變…

項目實施方案案例模板-拿來即用

《項目實施方案》實際案例模板,拿來即用,原件可獲取。 項目背景 項目目標 項目范圍 項目總體計劃 項目組織架構 5.1. 項目職責分工 項目風險點 6.1. 項目風險分析 6.2. 項目實施關鍵點 項目管理規范 7.1. 項目實施約束 7.2. 項目變更凍結 7…

(三) CUDA 硬件實現

一組帶有on-chip 共享內存的SIMD多處理器 GPU可以被看作一組多處理器, 每個多處理器使用單一指令,多數據架構(SIMD)【單指令流多數據流】 在任何給定的時鐘周期內,多處理器的每個處理器執行同一指令,但操作不同的數據 每個多處理器使用以下…

HASH索引,AVL樹,B樹,B+樹的區別?

1. 什么是 Hash 1.1 Hash 函數 Hash 本身其實是一個函數,又被稱為散列函數,它可以大幅提高我們對數據的檢索效率。因為它是散列的,所以在存儲數據的時候,它也是無序的。 Hash 算法是通過某種確定性的算法(例如MD5,S…

virtualBox橋接模式下openEuler鏡像修改IP地址、openEule修改IP地址、openEule設置IP地址

安裝好openEuler后,設置遠程登入前,必不可少的一步,主機與虛擬機之間的通信要解決,下面給出詳細步驟: 第一步:檢查虛擬機適配器模式:橋接模式 第二步:登入虛擬機修改IP cd /etc/sysconfig/network-scripts vim ifcfg-enpgs3 沒有vim的安裝或者用vi代替:sudo dnf …

關于consul的下載方法

linux下 sudo yum install -y yum-utils sudo yum-config-manager --add-repo https://rpm.releases.hashicorp.com/RHEL/hashicorp.repo sudo yum -y install consulwindow下 https://developer.hashicorp.com/consul/downloads 然后把里面的exe文件放在gopath下就行了 驗證…

打造專屬花店展示小程序

在當今社會,微信小程序已經成為了各行各業拓展客戶資源的利器,而花店行業也不例外。通過打造一個獨特的花店小程序,你可以為你的花店帶來更多的曝光和客戶資源。那么,如何制作一個專屬的花店小程序呢?下面我們就來一步…

圖像像素梯度

梯度 在高數中,梯度是一個向量,是有方向有大小。假設一二元函數f(x,y),在某點的梯度有: 結果為: 即方向導數。梯度的方向是函數變化最快的方向,沿著梯度的方向容易找到最大值。 圖像梯度 在一幅模糊圖…

電子商務類網站需要什么配置的服務器?

隨著電子商務的迅猛發展,越來越多的企業和創業者選擇在互聯網上開設自己的電商網站。為了確保電商網站能夠高效運行,給用戶提供良好的體驗,選擇合適的服務器配置至關重要。今天飛飛將和你分享電子商務類網站所需的服務器配置,希望…

【實際開發19】- 壓測 / 調優準備

目錄 1. Jmeter 2. Jmeter 環境部署 1. 配置 : 臨時修改語言 ~ Options → Choose Language → Chinese 3. Jmeter 并發測試 0. 提示 : Postman 測試是“串行”的 , 無法測試并發請求 1. daiding 1. Jmeter 下載 : Apache JMeter - Download Apache JMeter 詳參&#xf…

Mac下編譯32位Qt

不建議,MAC新版不支持32位程序!!! Mac下編譯32位Qt 關于Mac10.11.4下編譯32bit Qt5.6.1的問題

【已解決】mac端 sourceTree 解決remote: HTTP Basic: Access denied報錯

又是在一次使用sourcetree拉取或者提交代碼時候,遇到了sourcetree報錯; 排查了一會,比如查看了SSH keys是否有問題、是否與sourcetree賬戶狀態有問題等等,最終才發現并解決問題 原因: 因為之前公司要求企業gitlab中…

【Java】異常處理 之 使用SLF4J 和 Logback

使用SLF4J和Logback 前面介紹了Commons Logging 和Log4j 這一對好基友,它們一個負責充當日志 API,一個負責實現日志底層,搭配使用非常便于開發。 有的童鞋可能還聽說過SLF4J和Logback。這兩個東東看上去也像日志,它們又是啥&…

JavaEE初階:多線程 - 編程

1.認識線程 我們在之前認識了什么是多進程,今天我們來了解線程。 一個線程就是一個 "執行流". 每個線程之間都可以按照順訊執行自己的代碼. 多個線程之間 "同時" 執行 著多份代碼. 引入進程這個概念,主要是為了解決并發編程這樣的…

編譯工具:CMake(三)| 最簡單的實例升級

編譯工具:CMake(三)| 最簡單的實例升級 前言過程語法解釋ADD_SUBDIRECTORY 指令 如何安裝目標文件的安裝普通文件的安裝:非目標文件的可執行程序安裝(比如腳本之類)目錄的安裝 修改 Helloworld 支持安裝測試 前言 本篇博客的任務…

utf-8和utf-8 mb4區別

UTF-8(Unicode Transformation Format-8)和UTF-8MB4(UTF-8 Multibyte 4-byte)是字符編碼方案,用于表示 Unicode 字符集中的字符。它們之間的主要區別在于編碼范圍。 UTF-8:UTF-8 是一種變長編碼方式&#x…

可視化繪圖技巧100篇進階篇(七)-三維堆積柱形圖(3D Stacked Bar Chart)

目錄 前言 適用場景 圖例 繪圖工具及代碼實現 HighCharts echarts MATLAB

學習Vue:安裝Vue.js和設置開發環境

當您決定進入現代前端開發的世界,Vue.js 無疑是一個令人激動的選擇。它以其簡潔、靈活和高效的特點在開發者社區中備受贊譽。本文將為您詳細介紹如何安裝 Vue.js 并設置開發環境,讓您能夠迅速開始編寫 Vue 應用程序。 步驟1:安裝 Node.js 和 …

解決右鍵打印html只能識別1頁的問題

hello,大家好久不見,昨天在開發中遇到了一個問題,就是在自己開發的網頁中右鍵-->打印,由于頁面內容過多,打印出來的內容只被識別到一頁。 針對這一問題,查閱了好多資料最終解決啦。 1.問題重現 大家可以看到這個是我們開發的頁面,公司需要…