SpringCloud 微服務全棧體系（十六）

第十一章分布式搜索引擎 elasticsearch

六、DSL 查詢文檔

elasticsearch 的查詢依然是基于 JSON 風格的 DSL 來實現的。

1. DSL 查詢分類

Elasticsearch 提供了基于 JSON 的 DSL（Domain Specific Language）來定義查詢。常見的查詢類型包括：
- 查詢所有：查詢出所有數據，一般測試用。例如：match_all
- 全文檢索（full text）查詢：利用分詞器對用戶輸入內容分詞，然后去倒排索引庫中匹配。例如：
  - match_query
  - multi_match_query
- 精確查詢：根據精確詞條值查找數據，一般是查找 keyword、數值、日期、boolean 等類型字段。例如：
  - ids
  - range
  - term
- 地理（geo）查詢：根據經緯度查詢。例如：
  - geo_distance
  - geo_bounding_box
- 復合（compound）查詢：復合查詢可以將上述各種查詢條件組合起來，合并查詢條件。例如：
  - bool
  - function_score
查詢的語法基本一致：

GET /indexName/_search
{"query": {"查詢類型": {"查詢條件": "條件值"}}
}

以查詢所有為例，其中：
- 查詢類型為 match_all
- 沒有查詢條件

// 查詢所有
GET /indexName/_search
{"query": {"match_all": {}}
}

其它查詢無非就是查詢類型、查詢條件的變化。

2. 全文檢索查詢

2.1 使用場景

全文檢索查詢的基本流程如下：
- 對用戶搜索的內容做分詞，得到詞條
- 根據詞條去倒排索引庫中匹配，得到文檔 id
- 根據文檔 id 找到文檔，返回給用戶
比較常用的場景包括：
- 商城的輸入框搜索
- 百度輸入框搜索
例如京東：

在這里插入圖片描述

因為是拿著詞條去匹配，因此參與搜索的字段也必須是可分詞的 text 類型的字段。

2.2 基本語法

常見的全文檢索查詢包括：
- match 查詢：單字段查詢
- multi_match 查詢：多字段查詢，任意一個字段符合條件就算符合查詢條件
match 查詢語法如下：

GET /indexName/_search
{"query": {"match": {"FIELD": "TEXT"}}
}

mulit_match 語法如下：

GET /indexName/_search
{"query": {"multi_match": {"query": "TEXT","fields": ["FIELD1", " FIELD12"]}}
}

2.3 示例

match 查詢示例：

在這里插入圖片描述

multi_match 查詢和 match 查詢結果是一樣的。
因為我們將 brand、name、business 值都利用 copy_to 復制到了 all 字段中。因此你根據三個字段搜索，和根據 all 字段搜索效果當然一樣了。
但是，搜索字段越多，對查詢性能影響越大，因此建議采用 copy_to，然后單字段查詢的方式。

2.4.總結

match 和 multi_match 的區別是什么？
- match：根據一個字段查詢
- multi_match：根據多個字段查詢，參與查詢字段越多，查詢性能越差

3. 精準查詢

精確查詢一般是查找 keyword、數值、日期、boolean 等類型字段。所以不會對搜索條件分詞。常見的有：
- term：根據詞條精確值查詢
- range：根據值的范圍查詢

3.1 term 查詢

因為精確查詢的字段是搜不分詞的字段，因此查詢的條件也必須是不分詞的詞條。查詢時，用戶輸入的內容跟自動值完全匹配時才認為符合條件。如果用戶輸入的內容過多，反而搜索不到數據。
語法說明：

// term查詢
GET /indexName/_search
{"query": {"term": {"FIELD": {"value": "VALUE"}}}
}

3.2 range 查詢

范圍查詢，一般應用在對數值類型做范圍過濾的時候。比如做價格范圍過濾。
基本語法：

// range查詢
GET /indexName/_search
{"query": {"range": {"FIELD": {"gte": 10, // 這里的gte代表大于等于，gt則代表大于"lte": 20 // lte代表小于等于，lt則代表小于}}}
}

示例：

在這里插入圖片描述

3.3 總結

精確查詢常見的有哪些？
- term 查詢：根據詞條精確匹配，一般搜索 keyword 類型、數值類型、布爾類型、日期類型字段
- range 查詢：根據數值范圍查詢，可以是數值、日期的范圍

4. 地理坐標查詢

所謂的地理坐標查詢，其實就是根據經緯度查詢，官方文檔：https://www.elastic.co/guide/en/elasticsearch/reference/current/geo-queries.html
常見的使用場景包括：
- 攜程：搜索我附近的酒店
- 滴滴：搜索我附近的出租車
- 微信：搜索我附近的人

4.1 矩形范圍查詢

矩形范圍查詢，也就是 geo_bounding_box 查詢，查詢坐標落在某個矩形范圍的所有文檔
查詢時，需要指定矩形的左上、右下兩個點的坐標，然后畫出一個矩形，落在該矩形內的都是符合條件的點。
語法如下：

// geo_bounding_box查詢
GET /indexName/_search
{"query": {"geo_bounding_box": {"FIELD": {"top_left": { // 左上點"lat": 31.1,"lon": 121.5},"bottom_right": { // 右下點"lat": 30.9,"lon": 121.7}}}}
}

4.2 附近查詢

附近查詢，也叫做距離查詢（geo_distance）：查詢到指定中心點小于某個距離值的所有文檔。
換句話來說，在地圖上找一個點作為圓心，以指定距離為半徑，畫一個圓，落在圓內的坐標都算符合條件
語法說明：

// geo_distance 查詢
GET /indexName/_search
{"query": {"geo_distance": {"distance": "15km", // 半徑"FIELD": "31.21,121.5" // 圓心}}
}

5. 復合查詢

復合（compound）查詢：復合查詢可以將其它簡單查詢組合起來，實現更復雜的搜索邏輯。常見的有兩種：
- fuction score：算分函數查詢，可以控制文檔相關性算分，控制文檔排名
- bool query：布爾查詢，利用邏輯關系組合多個其它的查詢，實現復雜搜索

5.1 相關性算分

當我們利用 match 查詢時，文檔結果會根據與搜索詞條的關聯度打分（_score），返回結果時按照分值降序排列。
例如，我們搜索 “虹橋如家”，結果如下：

[{"_score" : 17.850193,"_source" : {"name" : "虹橋如家酒店真不錯",}},{"_score" : 12.259849,"_source" : {"name" : "外灘如家酒店真不錯",}},{"_score" : 11.91091,"_source" : {"name" : "迪士尼如家酒店真不錯",}}
]

在 elasticsearch 中，早期使用的打分算法是 TF-IDF 算法，公式如下：

在這里插入圖片描述

在后來的 5.1 版本升級中，elasticsearch 將算法改進為 BM25 算法，公式如下：

在這里插入圖片描述

TF-IDF 算法有一個缺陷，就是詞條頻率越高，文檔得分也會越高，單個詞條對文檔影響較大。而 BM25 則會讓單個詞條的算分有一個上限，曲線更加平滑：

在這里插入圖片描述

小結：elasticsearch 會根據詞條和文檔的相關度做打分，算法由兩種：
- TF-IDF 算法
- BM25 算法，elasticsearch5.1 版本后采用的算法

5.2 算分函數查詢

根據相關度打分是比較合理的需求，但合理的不一定是產品經理需要的。
以百度為例，你搜索的結果中，并不是相關度越高排名越靠前，而是誰掏的錢多排名就越靠前。如圖：

在這里插入圖片描述

要想人為控制相關性算分，就需要利用 elasticsearch 中的 function score 查詢了。

5.2.1 語法說明

在這里插入圖片描述

function score 查詢中包含四部分內容：
- 原始查詢條件：query 部分，基于這個條件搜索文檔，并且基于 BM25 算法給文檔打分，原始算分（query score)
- 過濾條件：filter 部分，符合該條件的文檔才會重新算分
- 算分函數：符合 filter 條件的文檔要根據這個函數做運算，得到的函數算分（function score），有四種函數
  - weight：函數結果是常量
  - field_value_factor：以文檔中的某個字段值作為函數結果
  - random_score：以隨機數作為函數結果
  - script_score：自定義算分函數算法
- 運算模式：算分函數的結果、原始查詢的相關性算分，兩者之間的運算方式，包括：
  - multiply：相乘
  - replace：用 function score 替換 query score
  - 其它，例如：sum、avg、max、min
function score 的運行流程如下：
- 根據原始條件查詢搜索文檔，并且計算相關性算分，稱為原始算分（query score）
- 根據過濾條件，過濾文檔
- 符合過濾條件的文檔，基于算分函數運算，得到函數算分（function score）
- 將原始算分（query score）和函數算分（function score）基于運算模式做運算，得到最終結果，作為相關性算分。
因此，其中的關鍵點是：
- 過濾條件：決定哪些文檔的算分被修改
- 算分函數：決定函數算分的算法
- 運算模式：決定最終算分結果

5.2.2 示例

需求：給“如家”這個品牌的酒店排名靠前一些
翻譯一下這個需求，轉換為之前說的四個要點：
- 原始條件：不確定，可以任意變化
- 過濾條件：brand = “如家”
- 算分函數：可以簡單粗暴，直接給固定的算分結果，weight
- 運算模式：比如求和
因此最終的 DSL 語句如下：

GET /hotel/_search
{"query": {"function_score": {"query": {  .... }, // 原始查詢，可以是任意條件"functions": [ // 算分函數{"filter": { // 滿足的條件，品牌必須是如家"term": {"brand": "如家"}},"weight": 2 // 算分權重為2}],"boost_mode": "sum" // 加權模式，求和}}
}

測試，在未添加算分函數時，如家得分如下：

在這里插入圖片描述

添加了算分函數后，如家得分就提升了：

在這里插入圖片描述

5.2.3 小結

function score query 定義的三要素是什么？
- 過濾條件：哪些文檔要加分
- 算分函數：如何計算 function score
- 加權方式：function score 與 query score 如何運算

5.3 布爾查詢

布爾查詢是一個或多個查詢子句的組合，每一個子句就是一個子查詢。子查詢的組合方式有：
- must：必須匹配每個子查詢，類似“與”
- should：選擇性匹配子查詢，類似“或”
- must_not：必須不匹配，不參與算分，類似“非”
- filter：必須匹配，不參與算分
比如在搜索酒店時，除了關鍵字搜索外，我們還可能根據品牌、價格、城市等字段做過濾。

請添加圖片描述

每一個不同的字段，其查詢的條件、方式都不一樣，必須是多個不同的查詢，而要組合這些查詢，就必須用 bool 查詢了。
需要注意的是，搜索時，參與打分的字段越多，查詢的性能也越差。因此這種多條件查詢時，建議這樣做：
- 搜索框的關鍵字搜索，是全文檢索查詢，使用 must 查詢，參與算分
- 其它過濾條件，采用 filter 查詢。不參與算分

5.3.1 語法示例

GET /hotel/_search
{"query": {"bool": {"must": [{"term": {"city": "上海" }}],"should": [{"term": {"brand": "皇冠假日" }},{"term": {"brand": "華美達" }}],"must_not": [{ "range": { "price": { "lte": 500 } }}],"filter": [{ "range": {"score": { "gte": 45 } }}]}}
}

5.3.2 示例

需求：搜索名字包含“如家”，價格不高于 400，在坐標 31.21,121.5 周圍 10km 范圍內的酒店。
分析：
- 名稱搜索，屬于全文檢索查詢，應該參與算分。放到 must 中
- 價格不高于 400，用 range 查詢，屬于過濾條件，不參與算分。放到 must_not 中
- 周圍 10km 范圍內，用 geo_distance 查詢，屬于過濾條件，不參與算分。放到 filter 中

在這里插入圖片描述