python nlp data_Python nlpaug包_程序模塊 - PyPI - Python中文網

NLPAUG

這個python庫幫助您為機器學習項目增加nlp。訪問此簡介了解Data Augmentation in NLP。Augmenter是增廣的基本元素,而Flow是將多個增廣器組合在一起的管道。

起動指南

增強器TargetAugmenterActionDescriptionCharacterRandomAuginsertInsert character randomly

substituteSubstitute character randomly

swapSwap character randomly

deleteDelete character randomly

OcrAugsubstituteSimulate OCR engine error

KeyboardAugsubstituteSimulate keyboard distance error

WordRandomWordAugswapSwap word randomly

deleteDelete word randomly

SpellingAugsubstituteSubstitute word according to spelling mistake dictionary

WordNetAugsubstituteSubstitute word according to WordNet's synonym

WordEmbsAuginsertInsert word randomly from word2vec, GloVe or fasttext dictionary

substituteSubstitute word based on word2vec, GloVe or fasttext embeddings

TfIdfAuginsertInsert word randomly trained TF-IDF model

substituteSubstitute word based on TF-IDF score

BertAuginsertInsert word based by feeding surroundings word to BERT language model

substituteSubstitute word based by feeding surroundings word to BERT language model

SpectrogramFrequencyMaskingAugsubstituteSet block of values to zero according to frequency dimension

TimeMaskingAugsubstituteSet block of values to zero according to time dimension

AudioNoiseAugsubstituteInject noise

PitchAugsubstituteAdjust audio's pitch

ShiftAugsubstituteShift time dimension forward/ backward

SpeedAugsubstituteAdjust audio's speed

CropAugdeleteDelete audio's segment

LoudnessAugsubstituteAdjust audio's volume

MaskAugsubstituteMask audio's segment

流量PipelineDescriptionSequentialApply list of augmentation functions sequentially

SometimesApply some augmentation functions randomly

安裝

該庫在linux和windows平臺上支持python 3.5+。

要安裝庫:pip install nlpaug

或者直接從github安裝最新版本(包括beta版功能)pip install git+https://github.com/makcedward/nlpaug.git

如果您使用bertaug,請同時安裝以下依賴項pip install pytorch_pretrained_bert torch

如果使用wordembsaug(word2vec、glove或fasttext),請先下載經過培訓的模型from nlpaug.util.file.download import DownloadUtil

DownloadUtil.download_word2vec(dest_dir='.')# Download word2vec model

DownloadUtil.download_glove(model_name='glove.6B', dest_dir='.')# Download GloVe model

DownloadUtil.download_fasttext(model_name='wiki-news-300d-1M', dest_dir='.')# Download fasttext model

最近的更改

beta2019年8月16日添加新增強器(Cropaug、LoudnessAug、Maskaug)

QWERTYAUG已棄用。它將被鍵盤所取代

刪除StopWordSaug。它將被randomWordAug替換

代碼重構

為word2vec、glove和fasttext添加了模型下載功能

^{str 1}0.0.6美元2019年7月29日:

有關詳細信息,請參見changelog。

測試Word2vec, GloVe, Fasttext models are used in word insertion and substitution. Those model files are necessary in order to run test case. You have to add ".env" file in root directory and the content should be

- MODEL_DIR={MODEL FILE PATH}Folder structure of model should be

-- root directory

- glove.6B.50d.txt

- GoogleNews-vectors-negative300.bin

- wiki-news-300d-1M.vec

研究參考

以上的一些增強器是受到以下研究論文的啟發。但是,由于不同的原因,它并不總是遵循最初的實現。如果需要原始實現,請參考原始源代碼。

數據源

用于構建增強器/測試用例的來自Internet的飽和數據。

有關詳細信息,請參見data source。

歡迎加入QQ群-->: 979659372

推薦PyPI第三方庫

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/534773.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/534773.shtml
英文地址,請注明出處:http://en.pswp.cn/news/534773.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Linux創始人數據結構,Linux 通用數據結構說明

device_driver include/linux/device.h struct device_driver {const char * name; /* 驅動名稱 */struct bus_type * bus; /* 總線類型 */struct completion unloaded; /* 卸載事件通知機制 */ struct kobject kobj; /* sys 中…

python在瀏覽器運行一片空白_Webdriver啟動Firefox瀏覽器后,頁面顯示空白

在使用pycharm碼代碼時編譯總是出錯,后來驗證發現瀏覽器啟動后出現問題。白白耗了我2個小時。我把我的解決方案寫出來,希望對大家有幫助。1.現象:起初安裝的時候總是能正常運行,有一天突然發現Webdriver打開fFirefox瀏覽器后&…

centos linux7修改主機名,CentOS7操作系統下永久修改主機名

操作系統:CentOS Linux release 7.8任務:修改主機名為sky9899操作步驟如下:[root146 ~]# hostname*.*.*.*.adsl-pool.jx.chinaunicom.com[root146 ~]# hostnamectlStatic hostname: localhost.localdomainTransient hostname: *.*.*.*.adsl-…

稀疏自編碼器_自編碼(AutoEncoder)模型及幾種擴展之二

4. 稀疏自編碼假設我們只有一個沒有類別標簽的訓練樣本集合{x(1),x(2)...},一個自編碼神經網絡就是一種非監督學習算法,它使用BP算法,并將目標值設為: y(i)x(i)。我們的目標是希望得到hW,b(X)≈x。用aj(2)(x)表示輸入向量x對隱藏層單元j的激活…

linux x86 關機 過程,linux在x86上的中斷處理過程(詳細)

Linux在x86上的中斷處理過程一:引言在Intel的文檔中,把中斷分為兩種。一種是異常,也叫同步同斷。一種稱之為中斷,也叫異常中斷。同步中斷指的是由CPU控制單元產生,之所以稱之為同步,是因為只有一條指令執行完畢后才會發出中斷。例如除法運算中,除數為零的時候,就會產…

thymealf 高級用法_Thymeleaf

JSP 已經存在很長時間了,很多公司還在用,它看起來像 HTML,但其實并不是,它有一些缺陷。比如,每個頁面頂部都需要有如下聲明與 Servlet 規范緊密耦合的,依賴 Servlet 容器(意味著無法直接瀏覽效果)。工作過的…

linux 顯卡轉碼,ffmpeg用GPU轉碼

8種機械鍵盤軸體對比本人程序員,要買一個寫代碼的鍵盤,請問紅軸和茶軸怎么選?有些視頻編碼太屌,播放起來對CPU消耗巨大,而在電視上或者電視盒子上看視頻,編碼就需要合適,樓主用的FireTV Stick&a…

ant實例 jmeter_Jmeter+ant搭建環境

1.將jmeter3.3和ant1.9.6放在一個文件夾下2.配置環境a、安裝jdk,配置環境變量變量名: JAVA_HOME變量值: C:\Program Files\Java\jdk1.8.0_91 (即jdk安裝的位置)變量名: Path (這個變量名已在系統變量中存在,現只需在這…

c語言課程設計作業五子棋,C語言課程設計報告五子棋游戲課程設計

C語言課程設計報告五子棋游戲課程設計 C語言課程設計報告_五子棋游戲-課程設計C語言課程設計報告_五子棋游戲|c語言程序代碼編程小程序設計|c語言課程設計報告課程案例**********************************************************//* 本程序在Turbo C或Borland C下編譯通過 */…

sqlmap圖形化_Web安全:SQL注入工具

原標題:Web安全:SQL注入工具SQL注入工具主要是針對Web服務器后臺數據庫的注入,其主要目的是獲取數據庫中的數據。以前常用的SQL注入工具有啊D注入工具及Domain(明小子注入工具),現在常用的SQL注入工具有HackBar、SQLMap、Pangolin…

在c語言程序中 對文件進行操作首先要,《C語言程序設計》試題八及答案

版權聲明:以上文章中所選用的圖片及文字來源于網絡以及用戶投稿,由于未聯系到知識產權人或未發現有關知識產權的登記,如有知識產權人并不愿意我們使用,如果有侵權請立即聯系:55525090qq.com,我們立即下架或…

vue中多行文本標簽_vue控制多行文字展開收起的實現示例

這里講一下,如何使用vue控制多行文字展開收起(也叫控制文字展開隱藏)。效果:這里設置了控制三行,如果超過三行會展示,“顯示更多” 超出文字顯示省略號。點擊“顯示更多”會展開所有文案,按鈕變成“收起”(未超出三行的…

c語言什么時候需要加分號,歸納一下html中什么時候需要分號什么時候需要冒

公告: 為響應國家凈網行動,部分內容已經刪除,感謝讀者理解。話題:歸納一下html中什么時候需要分號什么時候需要冒號什么時候問題詳情:最近初學html和php,弄暈了回答:一般情況下,HTML…

python wheel使用_【轉載】Python,使用Wheel打包

轉載自: http://blog.sina.com.cn/s/blog_1318255b00102wbtz.htmlPython的第一個主流打包格式是.egg文件,現在大家庭中又有了一個叫做Wheel(*.whl)的新成員。wheel“被設計成包含PEP 376兼容安裝(一種非常接近于磁盤上的格式)的所有文件”。在本文中&…

c語言提取七位數講解,C語言-體育彩票7位數,感受身中500萬的fell

//體育彩票7位數,感受身中500萬的fell#include #include #include #include //用到隨機數函數#include int main(){int iUser[7]; //保存我們購買彩票的號碼int iSys[7];//保存開獎的號碼int i, j;int count 0;//保存我們中獎號碼的個數//srand((unsigned)time(0…

cuda linux編譯器_linux下如何編譯CUDA+QT(qtcreator下)

具體操作,修改qt項目配置文件pro,在配置后面加入如下代碼,我們就實現了qtcuda的交叉編譯。# 讓你的項目可以看到后綴cu的cuda代碼文件OTHER_FILES ./Bll/ImageReconstruction/Cuda/CudaFDK.cu \./Bll/ImageReconstruction/Cuda/CudaFDK_ker…

linux的sonar安裝,Linux安裝sonar

前置依賴? mysql 5.6 or 5.7? jdk 1.81.下載2.安裝unzip并解壓sonarqube并移動到/usr/localyum install unzipunzip sonarqube-6.7.4.zipmv sonarqube-6.7.4 /usr/local/3.mysql里新增數據庫CREATE DATABASE sonar DEFAULT CHARACTER SET utf8;4.修改sonarqube相應的配置vim …

redis內存淘汰和持久化_redis 持久化

一、RDB持久化(一)、RDB介紹可以在指定的時間間隔內生成數據集的 時間點快照(point-in-time snapshot),新快照會覆蓋老快照(二)、優點壓縮格式,恢復速度快,適合于用做備份…

android實現后臺靜默安裝,Android 靜默安裝實現方法

Android靜默安裝的方法,靜默安裝就是繞過安裝程序時的提示窗口,直接在后臺安裝。注意:靜默安裝的前提是設備有ROOT權限。代碼如下:/*** 靜默安裝* param file* return*/public boolean slientInstall(File file) {boolean result …

pythonwrite連續寫入_python文件寫入write()的操作

本文實例為大家分享了python文件寫入write()的操作的具體代碼,供大家參考,具體內容如下filename pragramming.txtwith open(filename,w) as fileobject: #使用‘w來提醒python用寫入的方式打開fileobject.write(i love your name!\ni love your cloth!\…