【lucene】lucene常用查詢一覽

Lucene 里除了常見的 **TermQuery / BooleanQuery / PhraseQuery / FuzzyQuery / SpanNearQuery** 之外,還有不少“特殊家族”。下面按“族”歸納,一眼就能知道它們各自解決什么問題、跟普通倒排檢索的差別在哪。

────────────────── ?
1. **Span 族(位置級)** ?
已在上面講過 SpanNearQuery,再補兩個常用成員: ?
- `SpanOrQuery`??—— 多個 SpanQuery 取并集(位置層面 OR)。 ?
- `SpanNotQuery`?—— 先匹配 include,再剔除與 exclude 重疊的位置。 ?
- `SpanContainingQuery`、`SpanWithinQuery`(sandbox)—— 判斷一個 span 是否包含 / 位于另一個 span 內。

2. **Point 族(數值/多維數值)** ?
基于 BKD 樹,不是倒排表。 ?
- `PointRangeQuery`(Int/Long/Float/DoubleRange) ?
- `LatLonPoint.newDistanceQuery` / `newBoxQuery`(地理距離、矩形) ?
- `XYPoint.newBoxQuery`(二維笛卡爾坐標)

3. **DocValues 族(列存)** ?
直接掃列存,用于排序、聚合、過濾,不做倒排: ?
- `SortedSetSortField`、`LongDocValuesField.newRangeQuery` ?
- `DocValuesFieldExistsQuery`(過濾某列非空)

4. **Join 族(跨文檔/跨字段 join)** ?
- `TermsQuery`?(“大 ID 列表”查詢,用于 filter cache) ?
- `ParentChildrenBlockJoinQuery`?(嵌套文檔父子關系) ?
- `ScoreMode.Avg/Total` 控制如何把子文檔分數合并到父文檔

5. **Vector 族(向量檢索)** ?
基于 HNSW 圖: ?
- `KnnVectorQuery`(TopK 近似最近鄰) ?
- `FloatVectorSimilarityQuery`(顯式指定相似度函數)

6. **Intervals 族(Lucene 8+ 新短語引擎)** ?
官方定位是“SpanQuery 的繼任者”,語法更直觀: ?
- `Intervals.phrase(...)` ?
- `Intervals.unordered()` / `ordered()` / `maxgaps(n)` ?
- `Intervals.notContain()` / `before()` / `after()`

7. **FunctionScore / Feature 族(評分公式可編程)** ?
- `FunctionScoreQuery`(把任意查詢包起來,再用腳本函數改分) ?
- `FeatureField.newSaturationQuery`(用 BM25 + 飽和度特征)

8. **Script 族(腳本查詢)** ?
- `ScriptScoreQuery`(完全由腳本決定文檔是否命中、得多少分) ?
- `MatchAllDocsQuery` 的腳本版本:`_score = doc['price'].value * 0.7`

9. **Wildcard / Prefix / Regexp 族(通配正則)** ?
底層都是 **AutomatonQuery**(用 DFA 和 FST 交集): ?
- `WildcardQuery`??—— 通配符 `te?t` ?
- `PrefixQuery`???—— 前綴 `abc*` ?
- `RegexpQuery`???—— 正則 `ab+c.*`

10. **DisjunctionMaxQuery 族(取 max 而不是 sum)** ?
常用于“多字段同義搜索”,只取子句最高分,避免簡單疊加導致的暴漲。

────────────────── ?
速查表

| 家族 | 數據結構 | 典型場景 | 是否走倒排 |
|---|---|---|---|
| Span | positions | 短語/鄰近 | 是(positions) |
| Point | BKD 樹 | 數值范圍、地理 | 否 |
| DocValues | 列存 | 排序、聚合、存在性 | 否 |
| Join | 倒排 + 塊結構 | 父子/嵌套 | 是 |
| Vector | HNSW | 向量檢索 | 否 |
| Intervals | positions | 新短語 API | 是 |
| FunctionScore | 包裝任意 Query | 自定義評分 | 取決于被包查詢 |
| Script | 腳本引擎 | 任意規則 | 通常繞開倒排 |
| Automaton | FST+DFA 交集 | 通配/正則/模糊 | 是 |

把這 10 張“王牌”記住,基本能覆蓋 Lucene 里 90% 的特殊查詢場景。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/94179.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/94179.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/94179.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

base64認識實際使用

Base64是網絡上最常見的用于傳輸8Bit字節碼的編碼方式之一,Base64就是一種基于64個可打印字符來表示二進制數據的方法。 Base64,就是包括小寫字母a-z、大寫字母A-Z、數字0-9、符號"“、”/"一共64個字符的字符集,(任何…

LX8201微孔霧化驅動芯片應用筆記一DC5V供電

前言LX8201是深圳市樂?信科技服務有限公司最新?研的?款微孔霧化?專?驅動芯?,結合標準外圍電路,能有效驅動控制市?上各種微孔霧化?,基于獨特的電路設計和軟件算法,其在功耗以及成本上均具有明顯的優勢。本應用筆記將幫助用…

MySQL索引優化之索引條件字段類型不同

在sql的聯表查詢中,on后面相等的兩個字段如果字段類型不一致,盡管它們都加了索引,最終查詢的時候也不會走索引,這是因為會觸發隱式類型轉換導致索引失效。 例如 Select * from Orders o left join User u on o.user_id u.id; 假如…

【Linux】信號(二):Linux原生線程庫相關接口

【Linux】信號的控制使用一.線程的創建pthread_create()接口二.線程等待1.為什么要線程等待?2.pthread_join()三.線程中止1.return2.pthread_exit五.線程應用C自帶多線程在上次的博客中主要講解了什么是線程 這次的博客主要是帶大家把線程的相關接口簡單的使用一下 …

小程序被爬蟲攻擊,使用waf能防護嗎?

在移動互聯網時代,小程序以輕量化、高便捷性成為流量入口新寵,但也因此成為爬蟲攻擊的重災區。從電商平臺的價格數據爬取到內容平臺的版權盜用,爬蟲攻擊不僅消耗服務器資源,更可能導致商業機密泄露與用戶權益受損。面對這類威脅&a…

通過自動化本地計算磁盤與塊存儲卷加密保護數據安全

作為打造開發者首選云平臺使命的一部分,我們持續推出免費的智能化功能與產品來加強云資源安全。最新推出的本地磁盤加密功能是我們正在所有核心計算區域逐步部署的最新計算特性。當您在首選區域啟用本地磁盤加密功能后,新部署的計算實例將默認自動啟用數…

中文房間悖論:人工智能理解力的哲學拷問

本文由「大千AI助手」原創發布,專注用真話講AI,回歸技術本質。拒絕神話或妖魔化。搜索「大千AI助手」關注我,一起撕掉過度包裝,學習真實的AI技術!1 思想實驗闡述中文房間(Chinese Room)思想實驗…

mac如何運行windows程序?性能黨vs便捷黨選擇指南

macOS的流暢穩定雖讓人青睞,但系統的不兼容性是個大問題。有的用戶想要使用某個專業程序,發現只有Windows版本,然而沒法直接在mac上運行,非常懊惱!mac如何運行windows程序?本文將提供多個可行的方法&#x…

設置電機數據(閉環驅動器C5-E) ——易格斯igus

4.3 設置電機數據 在調試之前,電機控制器需要電機數據表中的一些值。 ■ 極對數:對象 2030h:00h(極對數) 電機極對數應在此處輸入。對于步進電機,極對數使用步距角計算,例如,1.8 …

藥品追溯碼(溯源碼)采集系統(二):門診發藥后端

門診發退藥追溯碼采集系統解析:一、門診發退藥追溯碼數據表1.1、Wm_ware_dispense_bill表:該表用于存儲處方信息1.2 Wm_ware_dispense_tracecode:追溯碼采集表二、發退藥后端代碼后端代碼基于Springboot架構和mybatis-plus,先看主要接口信息&…

Unity編輯器相關

前言繼承EditorWindow。 GUILayout類與EditorGUILayout類的應用區別&#xff1a;//TODO創建窗口的方法1&#xff09;GetWindow<T>() 已開則聚焦、未開則創建。無需再手動調用 Show()。GetWindow<T>() 提供多個重載。2&#xff09;CreateInstance<T>()始終創建…

ES支持哪些數據類型,和MySQL之間的映射關系是怎么樣的?

Elasticsearch&#xff08;簡稱 ES&#xff09;是一個分布式搜索和分析引擎&#xff0c;支持豐富的數據類型來適應不同場景。MySQL 是一個關系型數據庫&#xff0c;兩者在數據類型上存在差異&#xff0c;但可以通過映射實現數據同步或集成。下面我將逐步解釋 ES 支持的數據類型…

8.21IPSEC安全基礎后篇,IKE工作過程

一、數據存儲完整性校驗數據存儲完整性校驗需通過加密密鑰實現。數據存儲前還需通過身份認證&#xff0c;該過程同樣依賴密鑰完成。二、對稱key的產生、傳遞、管理VPN中需使用多組對稱密鑰&#xff1a;數據加解密需獨立密鑰數據完整性校驗需獨立密鑰身份認證需獨立密鑰不同功能…

網絡連接的核心機制

一、網絡連接全流程拆解&#xff08;含7大步驟動態交互&#xff09; 1. 用戶輸入網址&#xff1a;從域名到IP的跨越 操作觸發&#xff1a;用戶在瀏覽器輸入 www.example.com&#xff0c;觸發 DNS域名解析。核心協議&#xff1a;DNS&#xff08;基于UDP/TCP&#xff09;。硬件設…

小程序個人信息安全檢測技術:從監管視角看加密與傳輸合規

1. 前言 在監管通報中&#xff0c;小程序因“未采取加密、去標識化等安全技術措施”被處罰的案例屢見不鮮。很多開發者疑惑&#xff1a;明明用了HTTPS&#xff0c;為什么還會被判定“未加密”&#xff1f;監管機構是如何通過技術手段發現這些問題的&#xff1f;本文將從技術原…

ansible playbook 實戰案例roles | 實現db2自動安裝

文章目錄一、核心功能描述二、roles內容2.1 文件結構2.2 主配置文件2.3 tasks文件內容三、files文件內容四、vars文件內容免費個人運維知識庫&#xff0c;歡迎您的訂閱&#xff1a;literator_ray.flowus.cn 一、核心功能描述 這個 Ansible Role 的核心功能是&#xff1a;?自動…

webrtc中win端音頻---windows Core Audio

一、Core Audio 系統內核框架 圖中顯示的是渲染的音頻數據如何從大多數應用程序流向揚聲器的簡化表示。對于采集來說,音頻數據的路徑是完全相同,但流向是相反的。從圖中可以看到,一些高階API(例如MME,DirectSound等),對 Core Audio APIs 進行了封裝,使用這些API能夠更容…

【數據可視化-96】使用 Pyecharts 繪制主題河流圖(ThemeRiver):步驟與數據組織形式

&#x1f9d1; 博主簡介&#xff1a;曾任某智慧城市類企業算法總監&#xff0c;目前在美國市場的物流公司從事高級算法工程師一職&#xff0c;深耕人工智能領域&#xff0c;精通python數據挖掘、可視化、機器學習等&#xff0c;發表過AI相關的專利并多次在AI類比賽中獲獎。CSDN…

【Android】Activity 如何進行數據傳輸

三三要成為安卓糕手 一&#xff1a;Activity之間的數據傳輸 問題&#xff1a;不同的Activity之間怎么進行數據傳輸呢? 比如第一個頁面中有一些字符串數據之類的要通過數據傳輸&#xff0c;傳遞給第二個頁面進行顯示的 1&#xff1a;MainActivity做處理 在定義一個按鈕&#xf…

C#語言的語法(數據類型)

數據類型 表2.1給出了C#的主要數據類型。注意&#xff0c;基本類型的長度與計算機或操作系統的類型無關。C# 中的字符是16位的寬度&#xff0c;可以表示非拉丁語言中的所有字符。它使用一種叫雙字節碼的字符編碼 系統&#xff0c;其中定義了絕大多數可書寫語言的數以千計的字符…