Ictclas50是一個分詞庫,我嘛主要用來做中文分詞,其也能分出詞性等東西。
1.環境搭建
進入到下載頁面進行下載:
如下圖: 因為我的系統是64位的windows,所以選擇了到數第三行進行下載。其JAVA版本是通過JNI去調用dll庫,所以下載下來后沒有jar包。看到沒有,這就是下載下來后的所有東西,里面有Demo,Doc,API,Sample,主要就是Doc里面的文檔要去看一下,里面有實例代碼啥的。還有就是API,自然是用來開發用的。
把API文件夾里面的東西都拖入到你的工程中,其中ICTCLAS文件夾拖入工程目錄下的src文件夾中,這樣之后就可以開始使用里ICTCLAS50這個類進行分詞了。
2.測試:
查看下ICTCLAS50這個類里面的代碼可以看出,其很簡單,里面就幾個函數,具體用法參見doc文件夾里的文檔,里面都有說明和示例。
下面就是那幾個函數:
以下為測試代碼:
package test;
import java.io.UnsupportedEncodingException;
import ICTCLAS.I3S.AC.ICTCLAS50;
public class test {
/**
* @param args
*/
public static void main(String[] args) {
ICTCLAS50 ictclas50 = new ICTCLAS50();
String argu = ".";
try {
if (ictclas50.ICTCLAS_Init(argu.getBytes("GB2312")) == false)
{
System.out.println("Init Fail!");
}
String text = "loma在做一個分詞測試";
//分詞處理
byte nativeBytes1[] = ictclas50.ICTCLAS_ParagraphProcess(text.getBytes("GB2312"), 2, 0);
String nativeStr1 = new String(nativeBytes1, 0, nativeBytes1.length, "GB2312");
System.out.println(nativeStr1);
ictclas50.ICTCLAS_Exit();
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
}
}
}
輸出結果:
空格有點小,要睜大眼睛哦~
里面還能輸出詞性啥的,請看doc里面的文檔。