word2vec應用場景_word2vec的使用參數解釋和應用場景

" > corpus.txt

```

因為這些數據雖然去除了其他標簽的數據,但是卻把保留下來了,所以后來作者在分詞程序中去除了這個標簽

我在這個[網頁](http://www.jb51.net/article/65497.htm)上找到了一個python去標簽的簡單代碼。但是沒有實驗過,不知效果怎么樣:

這段代碼可以用于去除文本里的字符串標簽,不包括標簽里面的內容

```

import re

html='腳本之家,Python學習!'

dr = re.compile(r']+>',re.S)

dd = dr.sub('',html)

print(dd)

```

運行結果如下:

```

腳本之家,Python學習!

```

##實驗

整理之后就可以在bin文件夾下運行程序了,圖片和參數解釋來自[這里](http://blog.csdn.net/heyongluoyao8/article/details/43488765),代碼如下:

```

time ./word2vec -train text8 -output vectors.bin -cbow 1 -size 200 -window 8 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 0 -iter 15

```

![這里寫圖片描述](https://img-blog.csdn.net/20150204220148669?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvaGV5b25nbHVveWFvOA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/Center)

-time 會在結果前輸出實驗用的時間,當然如果不需要的話,可以去掉

-train 訓練數據

-output 結果輸入文件,即每個詞的向量,也可以output為txt文件,但是txt文件沒有直接用./distance

-cbow 是否使用cbow模型,0表示使用skip-gram模型,1表示使用cbow模型,默認情況下是skip-gram模型,cbow模型快一些,skip-gram模型效果好一些(0的情況跑了2個小時,1的時候跑了50分鐘)

-size 表示輸出的詞向量維數

-window 為訓練的窗口大小,8表示每個詞考慮前8個詞與后8個詞(實際代碼中還有一個隨機選窗口的過程,窗口大小<=5)

-negative 表示是否使用NEG方,0表示不使用,其它的值目前還不是很清楚

-hs 是否使用HS方法,0表示不使用,1表示使用

-sample 表示 采樣的閾值,如果一個詞在訓練樣本中出現的頻率越大,那么就越會被采樣

-binary 表示輸出的結果文件是否采用二進制存儲,0表示不使用(即普通的文本存儲,可以打開查看),1表示使用,即vectors.bin的存儲類型

-iter 迭代次數

除了上面所講的參數,還有:

-alpha 表示 學習速率

-min-count 表示設置最低頻率,默認為5,如果一個詞語在文檔中出現的次數小于該閾值,那么該詞就會被舍棄

-classes 表示詞聚類簇的個數,從相關源碼中可以得出該聚類是采用k-means

跑完后,用下面的命令啟動距離計算,然后輸入文字

```

./distance vectors.bin

```

至于聚類,只需要另一個命令即可:

```

./word2vec -train resultbig.txt -output classes.txt -cbow 0 -size 200 -window 5 -negative 0 -hs 1 -sample 1e-3 -threads 12 -classes 500

```

按類別排序:

```

sort classes.txt -k 2 -n > classes.sorted.txt

```

##應用

[深度學習word2vec筆記之應用篇](https://www.52ml.net/16951.html)

這篇文章介紹了word2vec如何應用在廣告推薦中

#2. Tensorflow中的word2vec

現在word2vec已經集成到了tensorflow中

使用tensorflow下的word2vec模型

[官網](https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/embedding)中給的例子:

**Word2Vec Tutorial**

To download the example text and evaluation data:

```

wget http://mattmahoney.net/dc/text8.zip -O text8.zip

unzip text8.zip

wget https://storage.googleapis.com/google-code-archive-source/v2/code.google.com/word2vec/source-archive.zip

unzip -p source-archive.zip word2vec/trunk/questions-words.txt > questions-words.txt

rm source-archive.zip

```

Assuming you are using the pip package install and have cloned the git repository, navigate into this directory and run using:

```

cd tensorflow/models/embedding

python word2vec_optimized.py \

--train_data=text8 \

--eval_data=questions-words.txt \

--save_path=/tmp/

```

To run the code from sources using bazel:

```

bazel run -c opt tensorflow/models/embedding/word2vec_optimized -- \

--train_data=text8 \

--eval_data=questions-words.txt \

--save_path=/tmp/

```

我雖然跑通了程序,在tmp文件夾中也生成了幾個文件,但是完全不知道怎么用。。。。。

#3. gensim的word2vec

請參考這篇教程

http://blog.csdn.net/Star_Bob/article/details/47808499

##參考

[Windows下使用Word2vec繼續詞向量訓練](http://blog.csdn.net/heyongluoyao8/article/details/43488765)

[利用word2vec對關鍵詞進行聚類](http://blog.csdn.net/zhaoxinfan/article/details/11069485)

https://github.com/tensorflow/tensorflow/tree/master/tensorflow/models/embedding

[深度學習word2vec筆記之應用篇](https://www.52ml.net/16951.html)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/276217.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/276217.shtml
英文地址,請注明出處:http://en.pswp.cn/news/276217.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

usb 驅動

usb 驅動學習總結&#xff1a; usb 采用分層的拓撲結構&#xff0c;金字塔型&#xff0c;最多是7層。usb 是主從結構&#xff0c;主和主或者從和從之間不能交換數據。理論上一個usb主控制器最多可接127個設備&#xff0c;協議規定每個usb設備具有一個7bit的地址&#xff0c;范圍…

讓Spring架構減化事務配置(轉)

讓Spring架構減化事務配置(轉) 注&#xff1a;原文章曾發表在it168Spring顛覆了以前的編程模式&#xff0c;引入了IOC等全新的概念&#xff0c;廣受大家的喜愛。目前大多數j2ee項目都已經采用Spring框架。Spring最大的問題是太多的配置文件&#xff0c;使得你不僅需要維護程序代…

面試字節跳動后的2點總結,建議收藏!

首先我來辟個謠&#xff1a;隨便打開一個招聘網站&#xff0c;你會發現前端工程師的崗位需求依舊龐大&#xff0c;大廠人才奇缺&#xff0c;就業薪資起點高&#xff0c;無行業限制。&#xff08;數據來源&#xff1a;職友集&#xff09;前端開發的行業大環境行業升級&#xff0…

phpexcel中文教程-設置表格字體顏色背景樣式、數據格式、對齊方式、添加圖片、批注、文字塊、合并拆分單元格、單元格密碼保護

轉載連接&#xff1a;http://www.cnblogs.com/huangcong/p/3687665.html phpexcel中文教程-設置表格字體顏色背景樣式、數據格式、對齊方式、添加圖片、批注、文字塊、合并拆分單元格、單元格密碼保護 首先到phpexcel官網上下載最新的phpexcel類&#xff0c;下周解壓縮一個cla…

對比倆個字符串的相似度

package com.opslab.util.algorithmImpl; import com.opslab.util.CharsetUtil;import com.opslab.util.SysUtil; import java.io.ByteArrayInputStream;import java.io.InputStream;import java.io.UnsupportedEncodingException; /** * 對比倆個字符串的相似度 */public clas…

如何下載python2.7.16_CENTOS6.5 安裝PYTHON2.7.16

前言Centos6.5默認自帶python2.6.6&#xff0c;很多模塊無法使用&#xff0c;建議安裝2.7以后版本較為穩定&#xff0c;需要升級到2.7。一、安裝過程1. 先安裝相應的依賴yum -y install gcc openssl-devel bzip2-devel2. 下載軟件包cd /optwget https://www.python.org/ftp/pyt…

2021年的今天,如何成為一名專業的前端工程師?

大家好&#xff0c;我是若川。今天給分享一篇來自阿里克軍大佬的好文。以下是正文~如果你想成為一名專業的前端工程師&#xff0c;那么你需要了解要學什么&#xff0c;學到什么程度&#xff0c;以及如何有效地學習。大學里沒有正規的前端技術課程&#xff0c;普遍缺少比較權威的…

“劣質”的PHP代碼簡化

下面這一小段“劣質”的PHP代碼是一道簡化了的測試題。這種問題就像在問&#xff1a;你該怎樣優化這段代碼&#xff1f;<?echo("<p>search results for query:").$_GET[query].".</p>";?>這段代碼的主要問題在于它把用戶提交的數據直接…

nc65右鍵生成菜單_DbSchema生成表單和報表,原來如此簡單

DbSchema 8 for Mac是mac上一款非常實用的商業數據庫ER圖繪制軟件&#xff0c;可以輕松的對文檔進行注釋或標注&#xff0c;而且Dbschema集成了SQL和數據工具&#xff0c;能生成直觀的圖表、PDF文件或HTML 5文檔等&#xff0c;非常的實用。現在就來給大家分享DbSchema如何生成表…

Java行為參數化(一)

一.什么是行為參數化呢 說白了就是將一段行為當作參數傳入一個方法中唄&#xff0c;那么這段行為是什么呢&#xff1f; 答&#xff1a;那也是一個方法咯。 Java在1.8版本引入了行為參數化的概念&#xff0c;首先&#xff0c;我們先看一小段代碼 public class test { public sta…

猴子排圈求最后編號問題

轉載鏈接&#xff1a;http://www.cnblogs.com/mztest/archive/2013/01/30/2882829.html 一群猴子排成一圈&#xff0c;按1&#xff0c;2&#xff0c;...&#xff0c;n依次編號。然后從第1只開始數&#xff0c;數到第m只,把它踢出圈&#xff0c;從它后面再開始數&#xff0c;再…

若川的2020年度總結,水波不興

前言從2014年開始&#xff0c;每一年都會寫年度總結&#xff0c;堅持了6個年頭。回顧2014&#xff0c;約定2015&#xff08;QQ空間日志&#xff09;2015年總結&#xff0c;淡化舊標簽&#xff0c;無懼未來&#xff08;QQ空間日志&#xff09;2016年度總結&#xff0c;畢業工作2…

sql修改表字段數據類型

--加 ALTER TABLE table2 ADD row_id bigint --刪 ALTER TABLE table2 DROP COLUMN row_id --改 ALTER TABLE 你的表 ALTER COLUMN 列名 你的類型 null declare a varchar(200) select ac.name fr…

關于敏捷開發方法(Agile Software Development)的閱讀筆記

對“敏捷開發”&#xff08;Agile Software Development&#xff09;這個詞&#xff0c;我是在這學期鄒欣老師《現代程序設計》課上第一次聽到的&#xff0c;剛聽到時并不知道其具體指什么&#xff0c;只是從字面上直覺其意思應該是快速開發之類的。這次從 Agile Guide 、 The …

phpbreak跳出幾層循環_PHP跳出循環之“break”

前面給大家講解了PHP控制循環語句&#xff0c;知道了&#xff0c;當我們的程序塊滿足一定的條件后才會跳出循環&#xff0c;而跳出循環則是使用我們的break或者continue關鍵字。本章&#xff0c;將會先給大家講解“break”跳出循環。在前面的講解PHP循環控制語句“while”循環的…

Vuex 4.0 正式發布!新年,官方生態齊聚一堂。

Vuex 4 官方版本正式發布。Vuex 4 的重點是兼容性。Vuex 4 支持 Vue 3&#xff0c;但是仍然提供了與 Vuex 3 完全相同的 API&#xff0c;因此用戶可以在 Vue 3 中直接復用他們現有的 Vuex 代碼。下文會把破壞性的改動列出來&#xff0c;請注意查看。在源碼的 example 文件夾[1]…

原生js實現給指定元素的后面追加內容

參考鏈接&#xff1a;http://www.jb51.net/article/35412.htm 原生js實現給指定元素的后面追加內容 var header1 document.getElementById("header"); var p document.createElement("p"); // 創建一個元素節點 insertAfter(p,header1); // 因為js沒有…

文檔中根元素后面的標記格式必須正確。

文檔中根元素后面的標記格式必須正確。 php或其它語言動態輸出的xml&#xff0c;最開始<標記 前面有空格&#xff0c;最后面>標記 后面有 空格 導致xml解析出錯 解決辦法: var data:String evt.target.data;//兼容FireFox, php輸出的xml data data.substr(data…

lstm數學推導_如何在訓練LSTM的同時訓練詞向量?

你本來也不用自己手動進行詞向量更新啊&#xff0c;你搞這么一出最后收斂到0那不是必然的么&#xff1f; 霍華德 老師的答案已經給你推導出來了。實際上你問的這個問題很簡單——只要把Embedding層本身也當成模型參數的一部分就可以了&#xff0c;一開始不使用外部詞向量&#…

Javascript在頁面加載時的執行順序(轉載)

原文&#xff1a;http://dancewithnet.com/2007/03/22/order-of-execution-of-javascript-on-web/ 一、在HTML中嵌入Javasript的方法 直接在Javascript代碼放在標記對<script>和</script>之間由<script />標記的src屬性制定外部的js文件放在事件處理程序中&a…