一、在開始之前,完成數據準備:
# 創建映射
PUT /tehero_index
{"settings": {"index": {"number_of_shards": 1,"number_of_replicas": 1}},"mappings": {"_doc": {"dynamic": false,"properties": {"id": {"type": "integer"},"content": {"type": "keyword","fields": {"ik_max_analyzer": {"type": "text","analyzer": "ik_max_word","search_analyzer": "ik_max_word"},"ik_smart_analyzer": {"type": "text","analyzer": "ik_smart"}}},"name":{"type":"text"},"createAt": {"type": "date"}}}}
}
# 導入測試數據
POST _bulk
{ "index" : { "_index" : "tehero_index", "_type" : "_doc", "_id" : "1" } }
{ "id" : 1,"content":"關注我,系統學編程" }
{ "index" : { "_index" : "tehero_index", "_type" : "_doc", "_id" : "2" } }
{ "id" : 2,"content":"系統學編程,關注我" }
{ "index" : { "_index" : "tehero_index", "_type" : "_doc", "_id" : "3" } }
{ "id" : 3,"content":"系統編程,關注我" }
{ "index" : { "_index" : "tehero_index", "_type" : "_doc", "_id" : "4" } }
{ "id" : 4,"content":"關注我,間隔系統學編程" }
二、根據ik_smart分詞和content字段建立倒排序索引
原始數據:
{ "id" : 1,"content":"關注我,系統學編程" }
{ "id" : 2,"content":"系統學編程,關注我" }
{ "id" : 3,"content":"系統編程,關注我" }
{ "id" : 4,"content":"關注我,間隔系統學編程" }
ps:如果看不懂上圖,請先閱讀學習:ElasticSearch系列05:倒排序索引與分詞Analysis
三、match query 對應到mysql
昨天有小伙伴反饋說,match query 的實例寫得太枯燥,建議和mysql對比講解,今天它來了!
# DSL 語句
GET /tehero_index/_doc/_search
{"query":{"match":{"content.ik_smart_analyzer":"系統編程"}}
}
DSL執行步驟分析:
- 1)檢索詞“系統編程”被ik_smart分詞器分詞為兩個Token【系統】【編程】;
- 2)將這兩個Token在【倒排索引】中,針對Token字段進行檢索,等價于sql:【where Token = 系統 or Token = 編程】;
- 3)對照圖【數據的倒排序索引】,可見,該DSL能檢索到所有文檔,文檔3的評分最高(因為它包含兩個Token),其他3個文檔評分相同。
有了對應到mysql 的例子,我想大家對match query 這個查詢語句,就應該有一個很好的理解。那么接下來,開始學習今天的新知識: match_phrase query 和match_phrase_prefix query
四、match_phrase query
match_phrase查詢分 析文本并根據分析的文本創建一個短語查詢。match_phrase? 會將檢索關鍵詞分詞。match_phrase的分詞結果必 須在被檢索字段的分詞中都包含,而且 順序必須相同,而且 默認必須都是連續的。
簡單看個例子,與match query 對比下,就很好理解了:
使用 match_phrase 查詢:
# 使用match_phrase查詢,ik_smart分詞
GET /tehero_index/_doc/_search
{"query": {"match_phrase": {"content.ik_smart_analyzer": {"query": "關注我,系統學"}}}
}# 結果:只有文檔1
{"took": 1,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": 1,"max_score": 0.7370664,"hits": [{"_index": "tehero_index","_type": "_doc","_id": "1","_score": 0.7370664,"_source": {"id": 1,"content": "關注我,系統學編程"}}]}
}
使用 match 查詢:
# 使用match查詢,ik_smart分詞
GET /tehero_index/_doc/_search
{"query": {"match": {"content.ik_smart_analyzer": {"query": "關注我,系統學"}}}
}
# 可以查詢出所有結果
分析:上面的例子使用的 分詞器是ik_smart,所以 檢索詞“關注我,系統學”會被分詞為3個Token【關注、我、系統學】;而文檔1、文檔2和文檔4 的content被分詞后 都包含這3個關鍵詞,但是 只有文檔1的Token的順序和檢索詞一致,且連續。所以使用 match_phrase 查詢 只能查詢到文檔1(ps:文檔2 Token順序不一致;文檔4 Token不連續;文檔3 Token沒有完全包含)。 使用 match查詢可以查詢到所有文檔,是因為所有文檔 都有【關注、我】這兩個Token。
- 4.1 match_phrase 核心參數:slop 參數-Token之間的位置距離容差值
# 將上面的 match_phrase 查詢新增一個 slop參數
GET /tehero_index/_doc/_search
{"query": {"match_phrase": {"content.ik_smart_analyzer": {"query": "關注我,系統學","slop":1}}}
}
# 結果:文檔1和文檔4都被檢索出來
分析:使用 analyze 接口 分析下文檔4的Token
# 文檔4 content 的分詞
GET /_analyze
{"text": ["關注我,間隔系統學編程"],"analyzer": "ik_smart"
}
# 結果
{"tokens": [{"token": "關注","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 0},{"token": "我","start_offset": 2,"end_offset": 3,"type": "CN_CHAR","position": 1},{"token": "間隔","start_offset": 4,"end_offset": 6,"type": "CN_WORD","position": 2},{"token": "系統學","start_offset": 6,"end_offset": 9,"type": "CN_WORD","position": 3},{"token": "編程","start_offset": 9,"end_offset": 11,"type": "CN_WORD","position": 4}]
}
通過分詞測試,發現Token【我】與【系統學】的 position差值為1(等于slop的值 ), 所以文檔4也被檢索出來了。
ps:如果沒看明白,那就來看下match_phrase query對應到mysql是怎樣的吧!
- 4.2match_phrase query對應到mysql
# DSL語句
GET /tehero_index/_doc/_search
{"query":{"match_phrase":{"content.ik_smart_analyzer":"系統編程"}}
}
DSL執行步驟分析:
- 1)檢索詞“系統編程”被分詞為兩個Token【系統,Position=0】【編程,Position=1】;
- 2)倒排索引檢索時,等價于sql:【where Token = 系統 and?系統_Position=0?and Token = 編程 and?編程_Position=1】;
- 3)對照圖【數據的倒排序索引】,只有文檔3滿足條件,所以該DSL語句只能查詢到文檔3。
五、match_phrase_prefix query
與match_phrase查詢類似,但是 會對最后一個Token在倒排序索引列表中進行通配符搜索。Token的模糊匹配數控制: max_expansions 默認值為50。我們使用 content.ik_smart_analyzer?這個字段中的 【系統學】(文檔1、2、4 包含)和 【系統】(文檔3包含)這 兩個Token來講解match_phraseprefix 的用法:(因為 使用的是ik_smart分詞器,所以【系統學】就只能被分詞為一個Token)
# 1、先使用match_phrase查詢,沒有結果
GET tehero_index/_doc/_search
{"query": {"match_phrase": {"content.ik_smart_analyzer": {"query": "系"}}}
}# 2、使用match_phrase_prefix查詢, "max_expansions": 1,得到文檔3
GET tehero_index/_doc/_search
{"query": {"match_phrase_prefix": {"content.ik_smart_analyzer": {"query": "系","max_expansions": 1}}}
}# 3、使用match_phrase_prefix查詢, "max_expansions": 2,得到所有文檔
GET tehero_index/_doc/_search
{"query": {"match_phrase_prefix": {"content.ik_smart_analyzer": {"query": "系","max_expansions": 2}}}
}
結果分析:【語句1】查不到結果,是因為 根據ik_smart分詞器生成的倒排序索引中,所有文檔中都 不包含Token【系】;【語句2】查詢到文檔3,是因為 文檔3包含Token【系統】,同時?"max_expansions": 1,所以 檢索關鍵詞【系】+ 1個通配符匹配,就可以匹配到 一個Token【系統】;【語句3】查詢到所有文檔,是因為"max_expansions": 2,所以 檢索關鍵詞【系】+ 2個通配符匹配,就可以匹配到 兩個Token【系統、系統學】,所以就可以查詢到所有。回憶下,之前所講的es倒排序索引原理: 先分詞創建倒排序索引,再檢索倒排序索引得到文檔,就很好理解了 。
注意:"max_expansions"的值最小為1,哪怕你設置為0,依然會 + 1個通配符匹配;所以,盡量不要用該語句,因為,最后一個Token始終要去掃描大量的索引,性能可能會很差。
- 5.1 match_phrase_prefix query 對應到mysql
GET tehero_index/_doc/_search
{"query": {"match_phrase_prefix": {"content.ik_smart_analyzer": {"query": "系","max_expansions": 1}}}
}
DSL執行步驟分析:
- 1)檢索詞“系”被分詞為一個個Token【系】+ 1個通配符;
- 2)倒排索引檢索時,等價于sql:【where Token = 系 or Token?like “系_”】;
- 3)對照圖【數據的倒排序索引】,只有文檔3滿足條件包含Token【系統】,所以該DSL語句只能查詢到文檔3。
六、總結
到此,我們已經學習了 Full text queries最常用的3種查詢:
1)match query:用于執行全文查詢的標準查詢,包括 模糊匹配和短語或接近查詢。重要參數:控制Token之間的布爾關系:operator:or/and
2)match_phrase query:與match查詢類似, 但用于匹配確切的短語或單詞接近匹配。重要參數:Token之間的位置距離:slop 參數
3)match_phrase_prefix query:與match_phrase查詢類似,但是會 對最后一個Token在倒排序索引列表中進行通配符搜索。重要參數:模糊匹配數控制:max_expansions 默認值50,最小值為1