【Elasticsearch】BM25的discount_overlaps參數

【Elasticsearch】BM25的discount_overlaps參數

bicheng/2025/7/26 18:10:04/文章來源:https://blog.csdn.net/risc123456/article/details/149506911

`discount_overlaps` 是 Elasticsearch/Lucene 相似度模型（Similarity）里的一個布爾參數，用來決定：

> 在計算文檔長度歸一化因子（norm）時，是否忽略“重疊 token”（即位置增量 positionIncrement=0 的 token）。

---

? 默認值與含義

參數值含義?

`true`（默認）重疊 token 不計入文檔長度，不影響 norm?

`false` 重疊 token 會計入文檔長度，參與 norm 計算?

---

? 使用場景舉例

- 如果你使用了同義詞過濾器（synonym filter），多個同義詞可能會落在同一位置，這些 token 的 `positionIncrement=0`。

- 默認 `discount_overlaps=true` 會讓這些 token 不影響文檔長度，從而避免重復同義詞“人為”拉長文檔。

- 如果你希望這些 token 也參與長度計算，可設為 `false`。

---

? 配置示例（BM25）

```json

PUT /my_index

{

? "settings": {

? ? "index": {

? ? ? "similarity": {

? ? ? ? "my_bm25": {

? ? ? ? ? "type": "BM25",

? ? ? ? ? "k1": 1.2,

? ? ? ? ? "b": 0.75,

? ? ? ? ? "discount_overlaps": false

? ? ? ? }

? ? ? }

? ? }

? },

? "mappings": {

? ? "properties": {

? ? ? "title": {

? ? ? ? "type": "text",

? ? ? ? "similarity": "my_bm25"

? ? ? }

? ? }

? }

}

```

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/90345.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/90345.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/90345.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Linux | LVS--Linux虛擬服務器知識點（上）

Linux | LVS--Linux虛擬服務器知識點（上）

一. 集群與分布式1.1 系統性能擴展方式當系統面臨性能瓶頸時，通常有以下兩種主流擴展思路：Scale Up（向上擴展）：通過增強單臺服務器的硬件配置來提升性能，這種方式簡單直接，但受限于硬件物理極限…

閱讀更多...

【Linux-云原生-筆記】keepalived相關

【Linux-云原生-筆記】keepalived相關

一、概念Keepalived 是一個用 C 語言編寫的、輕量級的高可用性和負載均衡解決方案軟件。它的主要目標是在基于 Linux 的系統上提供簡單而強大的故障轉移功能，并可以結合 Linux Virtual Server 提供負載均衡。1、Keepalived 主要提供兩大功能：高可用性&a…

閱讀更多...

計算機網絡：概述層---計算機網絡的組成和功能

計算機網絡：概述層---計算機網絡的組成和功能

🌐 計算機網絡基礎全景梳理：組成、功能與核心機制 📅 更新時間：2025年7月21日 🏷? 標簽：計算機網絡 | 網絡組成 | 分布式 | 負載均衡 | 資源共享 | 網絡可靠性 | 計網基礎文章目錄前言一、組成1.從組成部…

閱讀更多...

Linux中scp命令傳輸文件到服務器報錯

Linux中scp命令傳輸文件到服務器報錯

上傳本地文件到Linux服務器使用scp命令報錯解決辦法使用scp命令報錯 Could not resolve hostname e: Name or service not known 解決辦法不使用登錄服務器的工具傳輸，打開本地cmd，使用scp命令傳輸即可。 scp E:\dcm-admin.jar root127.0.0.1:/

閱讀更多...

歷史數據分析——國藥現代

歷史數據分析——國藥現代

醫藥板塊走勢分析：從月線級別來看 2008年11月到2021年2月，月線上走出了兩個震蕩中樞的月線級別2085-20349的上漲段； 2021年2月到2024年9月，月線上走出了20349-6702的下跌段；目前月線級別放巨量，總體還在震蕩區間內，后續還有震蕩和上漲的概率。從周線級別來看從…

閱讀更多...

#Linux內存管理# 在一個播放系統中同時打開幾十個不同的高清視頻文件，發現播放有些卡頓，打開視頻文件是用mmap函數，請簡單分析原因。

#Linux內存管理# 在一個播放系統中同時打開幾十個不同的高清視頻文件，發現播放有些卡頓，打開視頻文件是用mmap函數，請簡單分析原因。

在播放系統中同時使用mmap打開幾十個高清視頻文件出現卡頓，主要原因如下：1. 內存映射（mmap）的缺頁中斷開銷按需加載機制：mmap將文件映射到虛擬地址空間，但實際數據加載由“缺頁中斷（Page Fault&…

閱讀更多...

AI黑科技：GAN如何生成逼真人臉

AI黑科技：GAN如何生成逼真人臉

GAN的概念 GAN（Generative Adversarial Network，生成對抗網絡）是一種深度學習模型，由生成器（Generator）和判別器（Discriminator）兩部分組成。生成器負責生成 synthetic data（如假圖像、文本等），判別器則試圖區分生成數據和真實數據。兩者通過對抗訓練不斷優化，最終…

閱讀更多...

FireFox一些設置

FireFox一些設置

firefox后臺打開新的鏈接，例如中鍵打開一個鏈接地址欄輸入about:config 找到下面三項，全部設為true browser.tabs.loadInBackground browser.tabs.loadDivertedInBackground browser.tabs.loadBookmarksInBackground 參考：FireFox/chrome…

閱讀更多...

【黑馬SpringCloud微服務開發與實戰】（六）分布式事務

【黑馬SpringCloud微服務開發與實戰】（六）分布式事務

1. 什么是分布式事務下單失敗，購物車還被清理了。不符合一致性。2. seata的架構和原理3. 部署TC服務docker network ls docker inspect mysql mysql 在hm-net下，這里我的ncaos不是跟著視頻配的，因此需要。 docker network connect hm-net nac…

閱讀更多...

【力扣】第15題：三數之和

【力扣】第15題：三數之和

原文鏈接：15. 三數之和 - 力扣（LeetCode） 思路解析雙指針： （1）頭尾指針對應值相加如果大于目標值(target)，那么只能尾指針-1；如果小于target，那么只能頭指針1。 &#x…

閱讀更多...

Linux PCI總線子系統

Linux PCI總線子系統

The Linux Kernel Archives Linux PCI總線子系統 — The Linux Kernel documentation

閱讀更多...

LeetCode熱題100--24. 兩兩交換鏈表中的節點--中等

LeetCode熱題100--24. 兩兩交換鏈表中的節點--中等

1. 題目給你一個鏈表，兩兩交換其中相鄰的節點，并返回交換后鏈表的頭節點。你必須在不修改節點內部的值的情況下完成本題（即，只能進行節點交換）。示例 1： 輸入：head [1,2,3,4] 輸出&#x…

閱讀更多...

京東視覺算法面試30問全景精解

京東視覺算法面試30問全景精解

京東視覺算法面試30問全景精解 ——零售智能供應鏈創新工業落地：京東視覺算法面試核心考點全覽前言京東作為中國領先的零售科技企業，在智能物流、供應鏈管理、智能倉儲、商品識別、工業質檢等領域持續推動視覺AI的創新與大規模落地。京東視覺算法崗位面試不僅關注候…

閱讀更多...

【設計模式】觀察者模式（發布-訂閱模式，模型-視圖模式，源-監聽器模式，從屬者模式）

【設計模式】觀察者模式（發布-訂閱模式，模型-視圖模式，源-監聽器模式，從屬者模式）

觀察者模式（Observer Pattern）詳解一、觀察者模式簡介觀察者模式（Observer Pattern） 是一種行為型設計模式（對象行為型模式），它定義了一種一對多的依賴關系，讓多個觀察者對象同時監…

閱讀更多...

Linux的`＜＜ EOF`(Here-Document)詳解多回答筆記250722

Linux的`＜＜ EOF`(Here-Document)詳解多回答筆記250722

Linux的<< EOF(Here-Document)詳解多回答筆記250722 Linux 中的 << EOF 結構稱為 Here Document（立即文檔或嵌入文檔），它是一種在 Shell 腳本中直接嵌入多行文本輸入流（通常作為命令的標準輸入）的方式。E…

閱讀更多...

Go語言實戰案例-簡單配置文件（INI格式）解析器

Go語言實戰案例-簡單配置文件（INI格式）解析器

以下是《Go語言100個實戰案例》中的文件與IO操作篇 - 案例20：簡單配置文件（INI格式）解析器的完整內容，適合入門學習如何用 Go 語言解析常見的 .ini 配置文件格式。🎯 案例目標使用 Go 語言解析一個 .ini 格式的配置文…

閱讀更多...

用 PyTorch 實現全連接網絡識別 MNIST 手寫數字

用 PyTorch 實現全連接網絡識別 MNIST 手寫數字

目錄一、什么是全連接網絡二、代碼實現步驟 1. 導入必要的庫 2. 數據準備 3. 定義網絡結構 4. 模型訓練 5. 模型保存和加載 6. 預測單張圖片 7. 主函數三、運行結果說明四、小結一、什么是全連接網絡全連接神經網絡（Fully Connected Neural Networ…

閱讀更多...

vscode怎么安裝MINGW

vscode怎么安裝MINGW

下載： 第一步選擇MINGW官網：MinGW-w64 - for 32 and 64 bit Windows - SourceForge.net 點擊Files 點擊Toolchains targetting Win64 點擊第一個 Personal Builds 點擊mingw-builds 選擇8.1.0 點擊第二個 threads-posix 點擊第二個seh 最后左鍵點擊下…

閱讀更多...

CSS圖片分層設置

CSS圖片分層設置

在CSS中實現圖片分層效果，主要通過定位屬性和層疊上下文控制。以下是核心實現方法和示例： 一、核心實現原理定位方式使用 position: relative/absolute/fixed 使圖片脫離文檔流 .layer {position: absolute; /* 關鍵屬性 */top: 0;left: 0; }層疊控制通…

閱讀更多...

GEMINUS 和 Move to Understand a 3D Scene

GEMINUS 和 Move to Understand a 3D Scene

論文鏈接：https://arxiv.org/abs/2507.14456 代碼鏈接：https://github.com/newbrains1/GEMINUS 端到端自動駕駛的挑戰端到端自動駕駛是一種“一站式”方法：模型直接從傳感器輸入（如攝像頭圖像）生成駕駛軌跡或控制信號…

閱讀更多...

最新文章