2.3.3其他
除了前面所介紹的常用語數據挖掘建模的庫之外,還有許多庫也運用于數據挖掘建模,如jieba、SciPy、OpenCV、Pillow等。
1.jieba
jieba是一個被廣泛使用的Python第三方中文分詞庫。jieba使用簡單,并且支持Python、R、C++等多種編程語言的實現,對新手而言是一個較好的的入門粉刺工具。在GitHub社區,jieba長期有著較高的討論度,社區中也有不少與jieba相關的實例。
相比其他分詞工具,jieba不僅提供了分詞工具,還提供了粉刺以外的其他功能,如磁性標注、添加自定義詞典、關鍵詞提取等。
jieba庫可提供精確模式、全模式和搜索引擎3種分詞模式。
a.精確模式采用精確的方式將于切分,適用于文本分析。
b.全模式可以快速地掃描語句中所有可以成詞的部分,但無法解決歧義問題。
c.搜索引擎模式在精確模式的基礎上再切分長詞,適用于搜索引擎的的分詞。
jieba磁性標注是基于規則與統計相結合的磁性標注方法。jieba詞性標注與其分詞的過程類似,即利用詞典分配與隱馬爾可夫模型共同合作實現。而且,通過jieba庫進行詞性標注,具有效率高、處理能力強等特點。