【Elasticsearch】全文搜索與相關性排序

🧑 博主簡介：CSDN博客專家，歷代文學網（PC端可以訪問：https://literature.sinhy.com/#/?__c=1000，移動端可微信小程序搜索“歷代文學”）總架構師，15年工作經驗，精通Java編程，高并發設計，Springboot和微服務，熟悉Linux，ESXI虛擬化以及云原生Docker和K8s，熱衷于探索科技的邊界，并將理論知識轉化為實際應用。保持對新技術的好奇心，樂于分享所學，希望通過我的實踐經歷和見解，啟發他人的創新思維。在這里，我希望能與志同道合的朋友交流探討，共同進步，一起在技術的世界里不斷學習成長。
技術合作請加本人wx（注明來自csdn）：foreast_sea

在這里插入圖片描述

【Elasticsearch】全文搜索與相關性排序

引言

在當今數字化信息爆炸的時代，高效準確的搜索功能成為了眾多應用不可或缺的一部分。無論是電商平臺上查找心儀的商品，還是在海量文檔庫中迅速定位所需資料，強大的搜索能力都能極大提升用戶體驗和工作效率。而 Elasticsearch 作為一款流行的分布式搜索引擎，以其卓越的全文搜索和靈活的相關性排序功能脫穎而出，成為了眾多開發者和企業的首選。

全文搜索，簡單來說，就是在文本數據中根據用戶輸入的關鍵詞找到與之相關的文檔。但這一過程背后卻蘊含著復雜而精妙的技術原理。從用戶輸入關鍵詞的那一刻起，Elasticsearch 需要經過多個步驟來理解用戶意圖，并從海量數據中篩選出最相關的結果。這其中涉及到文本分析，即將輸入的文本轉化為計算機能夠理解和處理的形式；倒排索引的構建與使用，它是實現快速搜索的關鍵數據結構。

相關性排序則是另一個關鍵環節。搜索結果的排序直接影響用戶獲取信息的效率和滿意度。Elasticsearch 提供了豐富的排序策略，可以根據關鍵詞的匹配程度、文檔的新鮮度、字段的權重等多種因素進行綜合排序。通過合理運用這些排序機制，我們能夠讓搜索結果更加符合用戶的期望，將最有價值的信息呈現給用戶。

在接下來的文章中，我們將深入探索 Elasticsearch 的全文搜索原理和相關性排序機制。通過詳細的理論闡述、實際案例分析以及代碼示例，幫助讀者全面掌握這兩項核心技術，為開發出高效智能的搜索應用奠定堅實的基礎。

一、Elasticsearch 簡介

Elasticsearch 是一個基于 Lucene 的分布式、RESTful 風格的開源搜索引擎。它旨在提供分布式環境下的全文搜索、結構化搜索以及分析功能。Elasticsearch 具備高可用性、可擴展性和高性能等特點，能夠處理 PB 級別的數據。

1.1 分布式架構

Elasticsearch 采用分布式架構，允許將數據分散存儲在多個節點上。一個 Elasticsearch 集群可以包含多個節點，每個節點可以存儲數據的一部分。這種分布式存儲方式不僅提高了數據的可靠性和可用性，還能夠通過并行處理提高搜索性能。

1.2 RESTful API

Elasticsearch 通過 RESTful API 與外部系統進行交互。開發者可以使用 HTTP 請求來創建索引、插入文檔、執行搜索查詢等操作。這種簡單易用的 API 使得 Elasticsearch 能夠方便地集成到各種應用程序中。

二、Elasticsearch 的 Maven 依賴

在使用 Elasticsearch 進行開發時，我們需要在項目中引入相應的 Maven 依賴。以下是一些常用的依賴：

2.1 Elasticsearch 客戶端依賴

<dependency><groupId>org.elasticsearch.client</groupId><artifactId>elasticsearch-rest-high-level-client</artifactId><version>7.17.4</version>
</dependency>

這個依賴提供了高級 REST 客戶端，用于與 Elasticsearch 集群進行交互。它封裝了底層的 HTTP 操作，提供了更方便的 API 來執行各種操作，如索引管理、文檔操作和搜索查詢等。

2.2 Elasticsearch 核心依賴

<dependency><groupId>org.elasticsearch</groupId><artifactId>elasticsearch</artifactId><version>7.17.4</version>
</dependency>

Elasticsearch 核心依賴包含了 Elasticsearch 的核心功能和類庫。它是整個 Elasticsearch 運行的基礎，提供了數據存儲、索引構建、搜索算法等核心功能。

2.3 其他依賴

根據項目的具體需求，可能還需要引入其他依賴，如 JSON 處理庫、日志庫等。例如，Jackson 庫用于處理 JSON 數據，在 Elasticsearch 中用于文檔的序列化和反序列化：

<dependency><groupId>com.fasterxml.jackson.core</groupId><artifactId>jackson-databind</artifactId><version>2.13.4</version>
</dependency>

日志庫如 Log4j 或 SLF4J 可以幫助我們記錄 Elasticsearch 客戶端的運行日志，方便調試和監控：

<dependency><groupId>org.slf4j</groupId><artifactId>slf4j-api</artifactId><version>1.7.32</version>
</dependency>
<dependency><groupId>org.slf4j</groupId><artifactId>slf4j-log4j12</artifactId><version>1.7.32</version>
</dependency>
<dependency><groupId>log4j</groupId><artifactId>log4j</artifactId><version>1.2.17</version>
</dependency>

三、全文搜索原理

3.1 文本分析過程

文本分析是 Elasticsearch 全文搜索的第一步，它的目的是將輸入的文本轉化為適合搜索的形式。文本分析主要包括以下幾個階段：

3.1.1 字符過濾（Character Filter）

字符過濾階段會對輸入的原始文本進行預處理，例如去除 HTML 標簽、轉換特殊字符等。Elasticsearch 提供了多種字符過濾器，如 html_strip 字符過濾器可以去除文本中的 HTML 標簽。

3.1.2 分詞（Tokenizer）

分詞是將文本分割成一個個獨立的詞（token）的過程。不同的語言和應用場景需要不同的分詞器。例如，對于英文文本，常用的分詞器有 standard 分詞器，它會根據空格和標點符號進行分詞；對于中文文本，常用的分詞器有 ik 分詞器，它能夠對中文進行智能分詞。

3.1.3 詞元轉換（Token Filter）

詞元轉換階段會對分詞后的詞元進行進一步處理，例如將詞元轉換為小寫、去除停用詞（如“的”“是”“在”等無實際意義的詞）、進行詞干提取（將單詞轉換為其基本形式）等。

3.2 倒排索引的構建

倒排索引是 Elasticsearch 實現快速搜索的核心數據結構。它與傳統的正向索引相反，正向索引是從文檔到詞的映射，而倒排索引是從詞到文檔的映射。

假設我們有以下三個文檔：

文檔 1：“Elasticsearch is a powerful search engine”
文檔 2：“Lucene is the foundation of Elasticsearch”
文檔 3：“Search engines are essential for information retrieval”

經過文本分析后，我們得到了一系列的詞元。倒排索引會將每個詞元映射到包含該詞元的文檔列表。例如，“Elasticsearch”這個詞元會映射到文檔 1 和文檔 2；“search”這個詞元會映射到文檔 1 和文檔 3。

在 Elasticsearch 中，倒排索引以段（Segment）的形式存儲在磁盤上。每個段都是一個獨立的倒排索引，隨著新文檔的不斷插入，會生成多個段。為了提高搜索效率，Elasticsearch 會定期將多個段合并成一個更大的段。

3.3 倒排索引的使用

當用戶發起一個搜索請求時，Elasticsearch 首先會對用戶輸入的關鍵詞進行文本分析，得到相應的詞元。然后，根據這些詞元在倒排索引中查找包含這些詞元的文檔列表。

例如，用戶搜索“Elasticsearch search”，Elasticsearch 會對這兩個關鍵詞進行文本分析，得到“elasticsearch”和“search”這兩個詞元。接著，在倒排索引中查找這兩個詞元對應的文檔列表，最后將兩個文檔列表進行合并和排序，得到最終的搜索結果。

四、相關性排序

4.1 根據關鍵詞匹配程度排序

關鍵詞的匹配程度是影響相關性排序的重要因素之一。Elasticsearch 使用 BM25 算法來計算文檔與關鍵詞的匹配程度。BM25 算法考慮了多個因素，如詞頻（關鍵詞在文檔中出現的次數）、文檔長度、逆文檔頻率（關鍵詞在整個索引中出現的文檔數的倒數）等。

以下是一個簡單的搜索請求示例，使用 match 查詢來搜索“Elasticsearch”，并按照默認的相關性排序返回結果：

SearchRequest searchRequest = new SearchRequest("your_index");
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
searchSourceBuilder.query(QueryBuilders.matchQuery("content", "Elasticsearch"));
searchRequest.source(searchSourceBuilder);RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));
SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);

4.2 根據文檔新鮮度排序

在一些應用場景中，我們希望最新的文檔排在前面。Elasticsearch 可以通過文檔的時間戳字段來實現按新鮮度排序。

假設我們的文檔中有一個 timestamp 字段記錄文檔的創建時間，以下是一個按新鮮度排序的搜索請求示例：

SearchRequest searchRequest = new SearchRequest("your_index");
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
searchSourceBuilder.query(QueryBuilders.matchAllQuery());
searchSourceBuilder.sort(new FieldSortBuilder("timestamp").order(SortOrder.DESC));
searchRequest.source(searchSourceBuilder);RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));
SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);

4.3 根據字段權重排序

不同的字段在搜索結果中的重要性可能不同。我們可以通過設置字段的權重來影響相關性排序。例如，在一個商品搜索應用中，商品標題字段可能比商品描述字段更重要，我們可以給標題字段設置更高的權重。

以下是一個設置字段權重的搜索請求示例：

SearchRequest searchRequest = new SearchRequest("your_index");
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
searchSourceBuilder.query(QueryBuilders.multiMatchQuery("keyword", "title^3", "description"));
searchRequest.source(searchSourceBuilder);RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));
SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);

在這個示例中，title^3 表示給 title 字段設置了 3 倍的權重。

4.4 綜合排序

在實際應用中，我們通常需要綜合考慮多個因素進行排序。例如，我們希望先按關鍵詞匹配程度排序，然后在匹配程度相同的情況下按文檔新鮮度排序。

以下是一個綜合排序的搜索請求示例：

SearchRequest searchRequest = new SearchRequest("your_index");
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
searchSourceBuilder.query(QueryBuilders.matchQuery("content", "keyword"));
searchSourceBuilder.sort(new FieldSortBuilder("timestamp").order(SortOrder.DESC));
searchRequest.source(searchSourceBuilder);RestHighLevelClient client = new RestHighLevelClient(RestClient.builder(new HttpHost("localhost", 9200, "http")));
SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);