Python 數據分析10

2.3.3其他
除了前面所介紹的常用語數據挖掘建模的庫之外，還有許多庫也運用于數據挖掘建模，如jieba、SciPy、OpenCV、Pillow等。
1.jieba
jieba是一個被廣泛使用的Python第三方中文分詞庫。jieba使用簡單，并且支持Python、R、C++等多種編程語言的實現，對新手而言是一個較好的的入門粉刺工具。在GitHub社區，jieba長期有著較高的討論度，社區中也有不少與jieba相關的實例。
相比其他分詞工具，jieba不僅提供了分詞工具，還提供了粉刺以外的其他功能，如磁性標注、添加自定義詞典、關鍵詞提取等。
jieba庫可提供精確模式、全模式和搜索引擎3種分詞模式。
a.精確模式采用精確的方式將于切分，適用于文本分析。
b.全模式可以快速地掃描語句中所有可以成詞的部分，但無法解決歧義問題。
c.搜索引擎模式在精確模式的基礎上再切分長詞，適用于搜索引擎的的分詞。
jieba磁性標注是基于規則與統計相結合的磁性標注方法。jieba詞性標注與其分詞的過程類似，即利用詞典分配與隱馬爾可夫模型共同合作實現。而且，通過jieba庫進行詞性標注，具有效率高、處理能力強等特點。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/85370.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/85370.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/85370.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！