fasttext的基本使用 java 、python為例子

fasttext的基本使用 java 、python為例子

?

今天早上在地鐵上看到知乎上看到有人使用fasttext進行文本分類,到公司試了下情況在GitHub上找了下,最開始是c++版本的實現,不過有Java、Python版本的實現了,正好拿下來試試手,

?

python情況:

python版本參考,作者提供了詳細的實現,并且提供了中文分詞之后的數據,正好拿下來用用,感謝作者,代碼提供的數據作者都提供了,點后鏈接在上面有百度盤,可下載,java接口用到的數據也一樣:

?

[html]?view plaincopy
  1. http://blog.csdn.net/lxg0807/article/details/52960072??

[python]?view plaincopy
  1. import?logging??
  2. import?fasttext??
  3. logging.basicConfig(format='%(asctime)s?:?%(levelname)s?:?%(message)s',?level=logging.INFO)??
  4. #classifier?=?fasttext.supervised("fasttext/news_fasttext_train.txt","fasttext/news_fasttext.model",label_prefix="__label__")??
  5. #load訓練好的模型??
  6. classifier?=?fasttext.load_model('fasttext/news_fasttext.model.bin',?label_prefix='__label__')??
  7. result?=?classifier.test("fasttext/news_fasttext_test.txt")??
  8. print(result.precision)??
  9. print(result.recall)??
  10. labels_right?=?[]??
  11. texts?=?[]??
  12. with?open("fasttext/news_fasttext_test.txt")?as?fr:??
  13. ????lines?=?fr.readlines()??
  14. for?line?in?lines:??
  15. ????labels_right.append(line.split("\t")[1].rstrip().replace("__label__",""))??
  16. ????texts.append(line.split("\t")[0])??
  17. #?????print?labels??
  18. #?????print?texts??
  19. #?????break??
  20. labels_predict?=?[e[0]?for?e?in?classifier.predict(texts)]?#預測輸出結果為二維形式??
  21. #?print?labels_predict??
  22. text_labels?=?list(set(labels_right))??
  23. text_predict_labels?=?list(set(labels_predict))??
  24. print(text_predict_labels)??
  25. print(text_labels)??
  26. A?=?dict.fromkeys(text_labels,0)??#預測正確的各個類的數目??
  27. B?=?dict.fromkeys(text_labels,0)???#測試數據集中各個類的數目??
  28. C?=?dict.fromkeys(text_predict_labels,0)?#預測結果中各個類的數目??
  29. for?i?in?range(0,len(labels_right)):??
  30. ????B[labels_right[i]]?+=?1??
  31. ????C[labels_predict[i]]?+=?1??
  32. ????if?labels_right[i]?==?labels_predict[i]:??
  33. ????????A[labels_right[i]]?+=?1??
  34. print(A?)??
  35. print(B)??
  36. print(?C)??
  37. #計算準確率,召回率,F值??
  38. for?key?in?B:??
  39. ????p?=?float(A[key])?/?float(B[key])??
  40. ????r?=?float(A[key])?/?float(C[key])??
  41. ????f?=?p?*?r?*?2?/?(p?+?r)??
  42. ????print?("%s:\tp:%f\t%fr:\t%f"?%?(key,p,r,f))??

?

java版本情況:

githup上下載地址:
[html]?view plaincopy
  1. https://github.com/ivanhk/fastText_java??


看了下sh腳本的使用方法,自己簡單些了個text的方法,正好用用,后面會拿xgboost進行對比,看看效果,效果可以的寫成service進行上線:
[java]?view plaincopy
  1. package?test;??
  2. import?java.util.List;??
  3. ??
  4. import?fasttext.FastText;??
  5. import?fasttext.Main;??
  6. import?fasttext.Pair;??
  7. ??
  8. public?class?Test?{??
  9. ????public?static?void?main(String[]?args)?throws?Exception?{??
  10. ??
  11. ????????String[]?text?=?{??
  12. ????????????????"supervised",??
  13. ????????????????"-input",??
  14. ????????????????"/Users/shuubiasahi/Documents/python/fasttext/news_fasttext_train.txt",??
  15. ????????????????"-output",?"/Users/shuubiasahi/Documents/faste.model",?"-dim",??
  16. ????????????????"10",?"-lr",?"0.1",?"-wordNgrams",?"2",?"-minCount",?"1",??
  17. ????????????????"-bucket",?"10000000",?"-epoch",?"5",?"-thread",?"4"?};??
  18. ????????Main?op?=?new?Main();??
  19. ????????op.train(text);??
  20. ????????FastText?fasttext?=?new?FastText();??
  21. ????????String[]?test?=?{?"就讀",?"科技",?"學生"?,"學生","學生"};??
  22. ????????fasttext.loadModel("/Users/shuubiasahi/Documents/faste.model.bin");??
  23. ????????List<Pair<Float,?String>>?list?=?fasttext.predict(test,?6);??//得到最大可能的六個預測概率??
  24. ????????for?(Pair<Float,?String>?parir?:?list)?{??
  25. ????????????System.out.println("key?is:"?+?parir.getKey()?+?"???value?is:"??
  26. ????????????????????+?parir.getValue());??
  27. ????????}??
  28. ????????System.out.println(Math.exp(list.get(0).getKey()));??//得到最大預測概率??
  29. ??
  30. ????}??
  31. ??
  32. }??


這里設置bucket不適用設置過大,過大會產生OOM,而且模型保存太大,上面的設置模型保存就有1個g,-wordNgrams可以設置為2比設置為1能提高模型分類的準確性,
結果情況:

?

?

key is:0.0 ? value is:__label__edu

key is:-17.75125 ? value is:__label__affairs

key is:-17.75125 ? value is:__label__economic

key is:-17.75125 ? value is:__label__ent

key is:-17.75125 ? value is:__label__fashion

key is:-17.75125 ? value is:__label__game

1.0


?

注意fasttext對輸入格式有要求,label標簽使用 ?“__label__”+實際標簽的形式, ? over

有問題聯系我

?

?

?

?

2016年5月26 ? 我的模型已經上線了 ? ?效果還不錯 ??

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/258000.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/258000.shtml
英文地址,請注明出處:http://en.pswp.cn/news/258000.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

oracle spring 分頁查詢,SpringJDBC 調用oracle 通用存儲過程分頁

我博客前面有寫道SpringJDBC調用通用的Oracle存儲過程,今天來講一下通用的Java存儲過程帶分頁的功能,其中里面還有動態查詢的SQL拼接,好的,先上代碼1.Java代碼Autowiredprivate JdbcTemplate jdbcTemplate;/**分頁查詢* return*/ResponseBodyRequestMapping(value "/find…

寶寶頭三年至關重要,不看悔掉腸子

http://www.nowamagic.net/librarys/eight/posts/1885以下是一個早教工作者分享他關于現代父母早期教育中出現的問題和多數父母的誤區。正如作者問自己的&#xff1a;“在孩子人生最重要的頭三年&#xff0c;我做對了嗎&#xff1f;在我的引導下&#xff0c;她能保持強烈的探索…

2015年底總結

2015-12-06 16:17&#xff0c;今天是周日&#xff0c;不需要加班的&#xff0c;到公司看看書&#xff0c;寫寫代碼的&#xff0c;突然想到又是年底了&#xff01;需要寫點東西來記錄總結一下2015年了 年初的時候&#xff0c;入職現在這家成都游戲公司&#xff0c;到現在差不多也…

python腳本

01.用戶三次登錄鎖定猜年齡游戲02.購物車省縣市三級聯動03.函數、文件操作實現數據增刪改查---low版本04.ATM購物商城05.模擬計算器持續更新中...腳本很low&#xff0c;但我一直在學。。。轉載于:https://blog.51cto.com/lyndon/1947437

oracle 命令日志輸出,ORACLE常用命令日志

第一章&#xff1a;日志管理1.forcing log switchessql> alter system switch logfile;2.forcing checkpointssql> alter system checkpoint;3.adding online redo log groupssql> alter database add logfile [group 4]sql> (/disk3/log4a.rdo,/disk4/log4b.rdo) …

[VMware WorkStation]虛擬機網絡

1、簡介&#xff1a; vmware為我們提供了三種網絡工作模式&#xff0c;它們分別是&#xff1a;Bridged&#xff08;橋接模式&#xff09;、NAT&#xff08;網絡地址轉換模式&#xff09;、Host-Only&#xff08;僅主機模式&#xff09;。在我安裝了vmware workstation player 1…

阿里查出售假店主并索賠140萬,這次是大數據幫的忙

阿里巴巴將平臺上一家曾出售假貨的網店起訴至深圳市龍崗區法院&#xff0c;以“違背平臺不得售假約定、侵犯平臺商譽”為由索賠140萬元人民幣。此案為國內首例電商平臺起訴售假店主案。 阿里巴巴目前已經準備了一份超長起訴清單&#xff0c;計劃以違背合同約定、侵犯商譽為由&a…

oracle 升級前備份,rac(exadata)升級前的備份及LVM快照的恢復

1、熱備所有數據庫熱備腳本&#xff1a;10.1.1.200&#xff0c;/backup/scripts/whole_db_backup.sh2、在每個計算節點執行dbserver_backup.sh腳本Run script "dbserver_backup.sh" in each compute node. The script takes backup of "/boot" (to ROOT f…

我心中的MySQL DBA

原文網址鏈接&#xff1a;http://wangwei007.blog.51cto.com/68019/1718311 MySQL是一個跨平臺的開源關系型數據庫管理系統&#xff0c;目前MySQL被廣泛地應用在Internet上的中小型網站中。由于其體積小、速度快、總體擁有成本低&#xff0c;尤其是開放源碼這一特點&#xff0c…

Visual Studio 2015 前瞻 屬性初始化賦值!

通常我們建立屬性的時候如果帶初始化值的時候我們經常會這樣處理。 class MyClass{private string _name "hello world!";public string Name {get{return _name;}set{_name value;}}} 或者也可以這樣寫 &#xff1a; class MyClass{public string Name { set; get…

火狐中的CSS Grid Inspector新增強大的功能

2019獨角獸企業重金招聘Python工程師標準>>> 上周&#xff0c;我談到了日常的網站瀏覽我用Firefox&#xff0c;但是在切圖網做前端開發的時候我會用Chrome。 隨著每個版本&#xff0c;FF Nightly在開發工具箱中有一些越來越棒的工具&#xff0c;這些更新使Firefox成…

Linux內核態之間進程通信,內核態和用戶態通信(二)--實現

本文主要使用netlink套接字實現中斷環境與用戶態進程通信。系統環境&#xff1a;基于linux 2.6.32.27 和 linux 3.16.36Linux內核態和用戶態進程通信方法的提出和實現用戶上下文環境運行在用戶上下文環境中的代碼是可以阻塞的&#xff0c;這樣&#xff0c;便可以使用消息隊列和…

上下文無關文法

在計算機科學中&#xff0c;若一個形式文法 G (N, Σ, P, S) 的產生式規則都取如下的形式&#xff1a;V -> w&#xff0c;則稱之為上下文無關文法&#xff08;英語&#xff1a;context-free grammar&#xff0c;縮寫為CFG&#xff09;&#xff0c;其中 V∈N &#xff0c;w∈…

centos 安裝mysql時錯誤unknown variable #39;defaults-file=/opt/redmine-2.6.0-2/mysql/my.cnf#39;...

找到my.cnf所在目錄。運行 chmod 664 my.cnf&#xff0c;再啟動mysql成功

p5js可以在linux上運行嗎,在linux上使用python運行phantomjs

我跟隨this link&#xff0c;現在當我輸入phan然后輸入tab(\t)時&#xff0c;它會自動完成幻影JS。在但是&#xff0c;如果我運行phantomJS -v或phantomJS --version&#xff0c;我得到&#xff1a;bash: /usr/local/bin/phantomjs: /lib/ld-linux.so.2: bad ELF interpreter: …

使用Instant Client配置PL/SQL Developer

之前使用PL/SQL Developer都是直接在本機安裝完整版的Oracle Database&#xff0c;一是省事&#xff0c;二是可以在本機做一些demo測試&#xff1b;最近換了臺電腦&#xff0c;感覺Instant Client更簡單一些&#xff0c;分分鐘配好。 先下載Instant Client&#xff0c;注意&…

linux腳本轉換exe,Ps1 To Exe(powershell腳本轉換EXE工具) V3.0.6 官方版

Ps1 To Exe是款將PowerShell腳本轉換為EXE可執行文件的軟件。同時軟件非常小巧&#xff0c;功能實用&#xff0c;軟件還支持各國的語言&#xff0c;有需要的小伙伴們不要錯過了。(點擊圖片查看高清大圖)【軟件特色】1、Ps1 To Exe 支持多種語言2、Ps1 To Exe使用簡單&#xff0…

標C編程筆記day04 預處理、宏定義、條件編譯、makefile、結構體使用

預處理&#xff1a;也就是包括須要的頭文件&#xff0c;用#include<標準頭文件>或#include "自己定義的頭文件"宏定義&#xff0c;如&#xff1a;#define PI 3.1415926查看用宏定義的值替換宏名稱,如&#xff1a;gcc -E test.c帶參數的宏&#xff1a;MAX(x,y) …

java數據結構系列——排列(2):有序陣列

package Array;/*** 對數組排序。當添加到陣列保持有序數組元素&#xff1b;* author wl**/ public class MyOrderArray {private long array[];private int elements;//用于記錄數組中實際數據的個數public MyOrderArray(){arraynew long[50];//數組默認長度為50&#xff1b;}…

NSString 練習

//將“?文藝?青年”改成“213?青年”。 NSString *str "文藝青年"; NSString *str1 [str stringByReplacingOccurrencesOfString:"文藝" withString:"213"]; NSLog("%",str1); //將 整數123 轉換為字符串“123”。 NSString *s …