比如一些行業專業詞匯、簡單無意義詞(例如:的、得、地、是等)、網絡流行詞、后來形成的詞、再或者一些禁忌詞(比如:領導人的名字、黃賭毒犯罪等詞要排除的)
在es的插件目錄下查找配置文件:
?找到IKAnalyzer.cfg.xml文件并進行修改:
?
向stopword.dic文件中添加如下詞:
以上修改完成后,需要重啟ES。
注意:創建ext.dic文件時候,注意文件的編碼格式,最好拷貝?IKAnalyzer.cfg.xml文件進行修改。
使用file命令查看:
POST /_analyze
{
? "text":"想白嫖嗎?我是比較奧利給的",
? "analyzer": "ik_smart"
}
{
? "tokens" : [
? ? {
? ? ? "token" : "想",
? ? ? "start_offset" : 0,
? ? ? "end_offset" : 1,
? ? ? "type" : "CN_CHAR",
? ? ? "position" : 0
? ? },
? ? {
? ? ? "token" : "白嫖",
? ? ? "start_offset" : 1,
? ? ? "end_offset" : 3,
? ? ? "type" : "CN_WORD",
? ? ? "position" : 1
? ? },
? ? {
? ? ? "token" : "嗎",
? ? ? "start_offset" : 3,
? ? ? "end_offset" : 4,
? ? ? "type" : "CN_CHAR",
? ? ? "position" : 2
? ? },
? ? {
? ? ? "token" : "我",
? ? ? "start_offset" : 5,
? ? ? "end_offset" : 6,
? ? ? "type" : "CN_CHAR",
? ? ? "position" : 3
? ? },
? ? {
? ? ? "token" : "是",
? ? ? "start_offset" : 6,
? ? ? "end_offset" : 7,
? ? ? "type" : "CN_CHAR",
? ? ? "position" : 4
? ? },
? ? {
? ? ? "token" : "比較",
? ? ? "start_offset" : 7,
? ? ? "end_offset" : 9,
? ? ? "type" : "CN_WORD",
? ? ? "position" : 5
? ? },
? ? {
? ? ? "token" : "奧利給",
? ? ? "start_offset" : 9,
? ? ? "end_offset" : 12,
? ? ? "type" : "CN_WORD",
? ? ? "position" : 6
? ? }
? ]
}
?