一文搞懂match、match_phrase與match_phrase

一、在開始之前，完成數據準備：

# 創建映射
PUT /tehero_index
{"settings": {"index": {"number_of_shards": 1,"number_of_replicas": 1}},"mappings": {"_doc": {"dynamic": false,"properties": {"id": {"type": "integer"},"content": {"type": "keyword","fields": {"ik_max_analyzer": {"type": "text","analyzer": "ik_max_word","search_analyzer": "ik_max_word"},"ik_smart_analyzer": {"type": "text","analyzer": "ik_smart"}}},"name":{"type":"text"},"createAt": {"type": "date"}}}}
}
# 導入測試數據
POST _bulk
{ "index" : { "_index" : "tehero_index", "_type" : "_doc", "_id" : "1" } }
{ "id" : 1,"content":"關注我,系統學編程" }
{ "index" : { "_index" : "tehero_index", "_type" : "_doc", "_id" : "2" } }
{ "id" : 2,"content":"系統學編程,關注我" }
{ "index" : { "_index" : "tehero_index", "_type" : "_doc", "_id" : "3" } }
{ "id" : 3,"content":"系統編程,關注我" }
{ "index" : { "_index" : "tehero_index", "_type" : "_doc", "_id" : "4" } }
{ "id" : 4,"content":"關注我,間隔系統學編程" }

二、根據ik_smart分詞和content字段建立倒排序索引

原始數據：

{ "id" : 1,"content":"關注我,系統學編程" }
{ "id" : 2,"content":"系統學編程,關注我" }
{ "id" : 3,"content":"系統編程,關注我" }
{ "id" : 4,"content":"關注我,間隔系統學編程" }

ps：如果看不懂上圖，請先閱讀學習：ElasticSearch系列05：倒排序索引與分詞Analysis

三、match query 對應到mysql

昨天有小伙伴反饋說，match query 的實例寫得太枯燥，建議和mysql對比講解，今天它來了！

# DSL 語句
GET /tehero_index/_doc/_search
{"query":{"match":{"content.ik_smart_analyzer":"系統編程"}}
}

DSL執行步驟分析：

1）檢索詞“系統編程”被ik_smart分詞器分詞為兩個Token【系統】【編程】；
2）將這兩個Token在【倒排索引】中，針對Token字段進行檢索，等價于sql：【where Token = 系統 or Token = 編程】；
3）對照圖【數據的倒排序索引】，可見，該DSL能檢索到所有文檔，文檔3的評分最高（因為它包含兩個Token），其他3個文檔評分相同。

有了對應到mysql 的例子，我想大家對match query 這個查詢語句，就應該有一個很好的理解。那么接下來，開始學習今天的新知識： match_phrase query 和match_phrase_prefix query

四、match_phrase query

match_phrase查詢分 析文本并根據分析的文本創建一個短語查詢。match_phrase? 會將檢索關鍵詞分詞。match_phrase的分詞結果必 須在被檢索字段的分詞中都包含，而且 順序必須相同，而且 默認必須都是連續的。

簡單看個例子，與match query 對比下，就很好理解了：

使用 match_phrase 查詢：

# 使用match_phrase查詢，ik_smart分詞
GET /tehero_index/_doc/_search
{"query": {"match_phrase": {"content.ik_smart_analyzer": {"query": "關注我,系統學"}}}
}# 結果：只有文檔1
{"took": 1,"timed_out": false,"_shards": {"total": 1,"successful": 1,"skipped": 0,"failed": 0},"hits": {"total": 1,"max_score": 0.7370664,"hits": [{"_index": "tehero_index","_type": "_doc","_id": "1","_score": 0.7370664,"_source": {"id": 1,"content": "關注我,系統學編程"}}]}
}

使用 match 查詢：

# 使用match查詢，ik_smart分詞
GET /tehero_index/_doc/_search
{"query": {"match": {"content.ik_smart_analyzer": {"query": "關注我,系統學"}}}
}
# 可以查詢出所有結果

分析：上面的例子使用的 分詞器是ik_smart，所以 檢索詞“關注我，系統學”會被分詞為3個Token【關注、我、系統學】；而文檔1、文檔2和文檔4 的content被分詞后 都包含這3個關鍵詞，但是 只有文檔1的Token的順序和檢索詞一致，且連續。所以使用 match_phrase 查詢 只能查詢到文檔1（ps：文檔2 Token順序不一致；文檔4 Token不連續；文檔3 Token沒有完全包含）。 使用 match查詢可以查詢到所有文檔，是因為所有文檔 都有【關注、我】這兩個Token。

4.1 match_phrase 核心參數：slop 參數-Token之間的位置距離容差值

# 將上面的 match_phrase 查詢新增一個 slop參數
GET /tehero_index/_doc/_search
{"query": {"match_phrase": {"content.ik_smart_analyzer": {"query": "關注我,系統學","slop":1}}}
}
# 結果：文檔1和文檔4都被檢索出來

分析：使用 analyze 接口分析下文檔4的Token

# 文檔4 content 的分詞
GET /_analyze
{"text": ["關注我,間隔系統學編程"],"analyzer": "ik_smart"
}
# 結果
{"tokens": [{"token": "關注","start_offset": 0,"end_offset": 2,"type": "CN_WORD","position": 0},{"token": "我","start_offset": 2,"end_offset": 3,"type": "CN_CHAR","position": 1},{"token": "間隔","start_offset": 4,"end_offset": 6,"type": "CN_WORD","position": 2},{"token": "系統學","start_offset": 6,"end_offset": 9,"type": "CN_WORD","position": 3},{"token": "編程","start_offset": 9,"end_offset": 11,"type": "CN_WORD","position": 4}]
}

通過分詞測試，發現Token【我】與【系統學】的 position差值為1(等于slop的值 )， 所以文檔4也被檢索出來了。

ps：如果沒看明白，那就來看下match_phrase query對應到mysql是怎樣的吧！

4.2match_phrase query對應到mysql

# DSL語句
GET /tehero_index/_doc/_search
{"query":{"match_phrase":{"content.ik_smart_analyzer":"系統編程"}}
}

DSL執行步驟分析：

1）檢索詞“系統編程”被分詞為兩個Token【系統，Position=0】【編程，Position=1】；
2）倒排索引檢索時，等價于sql：【where Token = 系統 and?系統_Position=0?and Token = 編程 and?編程_Position=1】；
3）對照圖【數據的倒排序索引】，只有文檔3滿足條件，所以該DSL語句只能查詢到文檔3。

五、match_phrase_prefix query

與match_phrase查詢類似，但是 會對最后一個Token在倒排序索引列表中進行通配符搜索。Token的模糊匹配數控制： max_expansions 默認值為50。我們使用 content.ik_smart_analyzer?這個字段中的 【系統學】（文檔1、2、4 包含）和 【系統】（文檔3包含）這 兩個Token來講解match_phraseprefix 的用法：（因為 使用的是ik_smart分詞器，所以【系統學】就只能被分詞為一個Token）

# 1、先使用match_phrase查詢，沒有結果
GET tehero_index/_doc/_search
{"query": {"match_phrase": {"content.ik_smart_analyzer": {"query": "系"}}}
}# 2、使用match_phrase_prefix查詢， "max_expansions": 1，得到文檔3
GET tehero_index/_doc/_search
{"query": {"match_phrase_prefix": {"content.ik_smart_analyzer": {"query": "系","max_expansions": 1}}}
}# 3、使用match_phrase_prefix查詢， "max_expansions": 2，得到所有文檔
GET tehero_index/_doc/_search
{"query": {"match_phrase_prefix": {"content.ik_smart_analyzer": {"query": "系","max_expansions": 2}}}
}

結果分析：【語句1】查不到結果，是因為 根據ik_smart分詞器生成的倒排序索引中，所有文檔中都 不包含Token【系】；【語句2】查詢到文檔3，是因為 文檔3包含Token【系統】，同時?"max_expansions": 1，所以 檢索關鍵詞【系】+ 1個通配符匹配，就可以匹配到 一個Token【系統】；【語句3】查詢到所有文檔，是因為"max_expansions": 2，所以 檢索關鍵詞【系】+ 2個通配符匹配，就可以匹配到 兩個Token【系統、系統學】，所以就可以查詢到所有。回憶下，之前所講的es倒排序索引原理： 先分詞創建倒排序索引，再檢索倒排序索引得到文檔，就很好理解了。

注意："max_expansions"的值最小為1，哪怕你設置為0，依然會 + 1個通配符匹配；所以，盡量不要用該語句，因為，最后一個Token始終要去掃描大量的索引，性能可能會很差。

5.1 match_phrase_prefix query 對應到mysql

GET tehero_index/_doc/_search
{"query": {"match_phrase_prefix": {"content.ik_smart_analyzer": {"query": "系","max_expansions": 1}}}
}

DSL執行步驟分析：

1）檢索詞“系”被分詞為一個個Token【系】+ 1個通配符；
2）倒排索引檢索時，等價于sql：【where Token = 系 or Token?like “系_”】；
3）對照圖【數據的倒排序索引】，只有文檔3滿足條件包含Token【系統】，所以該DSL語句只能查詢到文檔3。

六、總結

到此，我們已經學習了 Full text queries最常用的3種查詢：

1）match query：用于執行全文查詢的標準查詢，包括 模糊匹配和短語或接近查詢。重要參數：控制Token之間的布爾關系：operator：or/and
2）match_phrase query：與match查詢類似， 但用于匹配確切的短語或單詞接近匹配。重要參數：Token之間的位置距離：slop 參數
3）match_phrase_prefix query：與match_phrase查詢類似，但是會 對最后一個Token在倒排序索引列表中進行通配符搜索。重要參數：模糊匹配數控制：max_expansions 默認值50，最小值為1