Elasticsearch過濾與聚合的先后順序java實現

2019獨角獸企業重金招聘Python工程師標準>>> hot3.png

一、Elasticsearch的聚合

ES的聚合相當于關系型數據庫里面的group by,例如查找在性別字段男女人數的多少并且按照人數的多少進行排序,在使用MySQL的時候,可以使用如下的句子

  1. select?sex,count(*)?from?table_name?group?by?sex?order?by?count(*)??

在ES里面想要實現這種的語句,就叫做聚合,比如這種的聚合使用DSL語句的話如下所示:

  1. GET?/index/type/_search??
  2. {??
  3. ????"size"?:?0,??
  4. ????"aggs"?:?{???
  5. ????????"agg_sex"?:?{???
  6. ????????????"terms"?:?{???
  7. ??????????????"field"?:?"sex"??
  8. ????????????}??
  9. ????????}??
  10. ????}??
  11. }??

這樣就可以實現最以上例子中的group by的功能,當然這只是最簡單的聚合的使用,在ES里面的聚合有多重多樣的,比如說有度量聚合,可以用來計算某一個字段的平均值最大值等,在此給出一個簡單的度量聚合的例子

  1. GET?/index/type/_search??
  2. {??
  3. ???"size"?:?0,??
  4. ???"aggs":?{??
  5. ??????"agg_sex":?{??
  6. ?????????"terms":?{??
  7. ????????????"field":?"sex"??
  8. ?????????},??
  9. ?????????"agg_age":?{???
  10. ????????????"avg_age":?{???
  11. ???????????????"avg":?{??
  12. ??????????????????"field":?"age"???
  13. ???????????????}??
  14. ????????????}??
  15. ?????????}??
  16. ??????}??
  17. ???}??
  18. }??

這個DSL語句就是將先按照性別進行聚合,并且對不同的性別給出一個平均的年齡,使用之后ES的給出結果如下所示:

  1. {??
  2. ...??
  3. ???"aggregations":?{??
  4. ??????"agg_sex":?{??
  5. ?????????"buckets":?[??
  6. ????????????{??
  7. ???????????????"key":?"male",??
  8. ???????????????"doc_count":?4,??
  9. ???????????????"avg_age":?{???
  10. ??????????????????"value":?25??
  11. ???????????????}??
  12. ????????????},??
  13. ????????????{??
  14. ???????????????"key":?"female",??
  15. ???????????????"doc_count":?2,??
  16. ???????????????"avg_age":?{??
  17. ??????????????????"value":?23??
  18. ???????????????}??
  19. ????????????}??
  20. ?????????]??
  21. ??????}??
  22. ???}??
  23. ...??
  24. }??

?

在度量聚合里面有min,max,sum,avg聚合等,還有stats,extern_stats等聚合,其中stats的聚合給出的信息會包括min,max,count等基本的信息,更多詳細的細節請參考ES官網給出的指導https://www.elastic.co/guide/en/elasticsearch/guide/current/aggregations.html

以上只是給出的度量聚合,但是在實際中我們經常使用的是桶聚合,什么是桶聚合呢,個人理解就是將符合某一類條件的文檔選出來,所有的某一類的聚合就稱為桶,例如你可以按照某一個分類將所有的商品聚合起來,這種情況下就可以認為某一個分類的商品稱為一個桶,下面將詳細介紹幾個常用的桶聚合,并且會給出Java使用時候的代碼

二、桶聚合

桶聚合是在實際使用時候用處比較多的一種聚合,簡單的桶聚合包括term聚合,range聚合,date聚合,IPV4聚合等聚合,因為自己使用的僅僅是其中的三個,在此就簡單的介紹三個,分別是term聚合,range聚合,以及date聚合

1、term聚合

term聚合就是第一部分給出的簡單的例子,按照不同的字段進行聚合

2、range聚合

range聚合為按照自定義的范圍來創造桶,將每一個范圍的數據進行聚合,并且這個聚合一般適用于字段類型為long或者int,double的字段,可以進行直接的聚合,例如,我們想統計不同年齡段的人的個數,DSL如下所示:

  1. GET?/index/type/_search??
  2. {??
  3. ????"aggs"?:?{???
  4. ????????"agg_age"?:?{???
  5. ?????????"field":"age"??
  6. ????????????"ranges"?:?[??
  7. ?????????????{?"to"?:?18},??
  8. ?????????????{?"from"?:?19,"to"?:?50},??
  9. ?????????????{"from"?:?51}??
  10. ????????????]??
  11. ????????}??
  12. ????}??
  13. }??

?

3、daterange聚合

?

date range聚合和range聚合類似,但是所使用的類型是datetime這種類型,使用的時候與range有些區別,給出一個簡單的使用date range聚合的DSL例子,如下所示:

  1. GET?/index/type/_search??
  2. {??
  3. ????"aggs"?:?{???
  4. ????????"agg_year"?:?{???
  5. ?????????"field":"date"??
  6. ????????????"ranges"?:?[??
  7. ?????????????{?"to"?:?"2008-08-08"},??
  8. ?????????????{?"from"?:?"2008-08-09","to"?:?"2012-09-01"},??
  9. ?????????????{"from"?:?"2012-09-02"}??
  10. ????????????]??
  11. ????????}??
  12. ????}??
  13. }??

上面的DSL是簡單的按照時間格式進行區間的聚合,但是有些時候我們可能想要一些按照年份聚合或者月份聚合的情況,這個時候應該怎么辦呢?在date range里面可以指定日期的格式,例如下面給出一個按照年份進行聚合的例子:

  1. GET?/index/type/_search??
  2. {??
  3. ????"aggs"?:?{???
  4. ????????"agg_year"?:?{???
  5. ?????????"field":"date"??
  6. ?????????"format":"YYYY",??
  7. ????????????"ranges"?:?[??
  8. ?????????????{?"to"?:?"1970"},??
  9. ?????????????{?"from"?:?"1971","to"?:?"2012"},??
  10. ?????????????{"from"?:?"2013"}??
  11. ????????????]??
  12. ????????}??
  13. ????}??
  14. }??

我們可以指定格式來進行聚合

?

三、對于上述三種聚合java的實現

首先先給出一個具體的使用ES java api實現搜索并且聚合的完整例子,例子中使用的是terms聚合,按照分類id,將所有的分類進行聚合

  1. ????public?void?aggsearch()?{??
  2. ????????init();??
  3. ????????SearchResponse?response?=?null;??
  4. ??
  5. ????????SearchRequestBuilder?responsebuilder?=?client.prepareSearch("iktest")??
  6. ????????????????.setTypes("iktest").setFrom(0).setSize(250);??
  7. ????????AggregationBuilder?aggregation?=?AggregationBuilders??
  8. ????????????????.terms("agg")??
  9. ????????????????.field("category_id")??
  10. ????????????????.subAggregation(??
  11. ????????????????????????AggregationBuilders.topHits("top").setFrom(0)??
  12. ????????????????????????????????.setSize(10)).size(100);??
  13. ????????response?=?responsebuilder.setQuery(QueryBuilders.boolQuery()??
  14. ??
  15. ????????.must(QueryBuilders.matchPhraseQuery("name",?"中學歷史")))??
  16. ????????????????.addSort("category_id",?SortOrder.ASC)??
  17. ????????????????.addAggregation(aggregation)//?.setSearchType(SearchType.DFS_QUERY_THEN_FETCH)??
  18. ????????????????.setExplain(true).execute().actionGet();??
  19. ??
  20. ????????SearchHits?hits?=?response.getHits();??
  21. ??
  22. ????????Terms?agg?=?response.getAggregations().get("agg");??
  23. ????????System.out.println(agg.getBuckets().size());??
  24. ????????for?(Terms.Bucket?entry?:?agg.getBuckets())?{??
  25. ????????????String?key?=?(String)?entry.getKey();?//?bucket?key??
  26. ????????????long?docCount?=?entry.getDocCount();?//?Doc?count??
  27. ????????????System.out.println("key?"?+?key?+?"?doc_count?"?+?docCount);??
  28. ??
  29. ????????????//?We?ask?for?top_hits?for?each?bucket??
  30. ????????????TopHits?topHits?=?entry.getAggregations().get("top");??
  31. ????????????for?(SearchHit?hit?:?topHits.getHits().getHits())?{??
  32. ????????????????System.out.println("?->?id?"?+?hit.getId()?+?"?_source?[{}]"??
  33. ????????????????????????+?hit.getSource().get("category_name"));??
  34. ????????????????;??
  35. ????????????}??
  36. ????????}??
  37. ????????System.out.println(hits.getTotalHits());??
  38. ????????int?temp?=?0;??
  39. ????????for?(int?i?=?0;?i?<?hits.getHits().length;?i++)?{??
  40. ????????????//?System.out.println(hits.getHits()[i].getSourceAsString());??
  41. ????????????System.out.print(hits.getHits()[i].getSource().get("product_id"));??
  42. ????????????//?if(orderfield!=null&&(!orderfield.isEmpty()))??
  43. ????????????//?System.out.print("\t"+hits.getHits()[i].getSource().get(orderfield));??
  44. ????????????System.out.print("\t"??
  45. ????????????????????+?hits.getHits()[i].getSource().get("category_id"));??
  46. ????????????System.out.print("\t"??
  47. ????????????????????+?hits.getHits()[i].getSource().get("category_name"));??
  48. ????????????System.out.println("\t"??
  49. ????????????????????+?hits.getHits()[i].getSource().get("name"));??
  50. ????????}??
  51. ????}??
  52. }??

以上的例子實現的是按照category_id字段進行分類的聚合,并且將在name字段查找包含“中學歷史”的這個詞,并且按照category_id進行排序,在此給出的只是一個搜索實現的函數,里面的字段名字,以及index,type等很多字段均為自己定義的index里面的名字,上面給出的是terms聚合時候的代碼,如果使用的是range聚合或者date range聚合,只需要改變aggregation就可以

?

使用range聚合的時候:

  1. aggregation?=?AggregationBuilders.range("agg")??
  2. ????????????????????.field("price").addUnboundedTo(50)??
  3. ????????????????????.addRange(51,?100).addRange(101,?1000)??
  4. ????????????????????.addUnboundedFrom(1001);??

使用date range聚合的時候:

  1. aggregation?=?AggregationBuilders.dateRange("agg")??
  2. ????????????????????.field("date").format("yyyy")??
  3. ????????????????????.addUnboundedTo("1970").addRange("1970",?"2000")??
  4. ????????????????????.addRange("2000",?"2010").addUnboundedFrom("2009");??

以上所有的聚合均是先過濾搜索,然后對于召回得到的結果進行一個聚合,例如我們在name字段搜索中學歷史這個詞,最終得到四個分類分別為1,2,3,4那么聚合的時候就是這四個分類,但是有時候我們可能會需要對于搜索的結果進行一個過濾,但是我們不想對聚合的結果進行過濾,那么我們就要使用一下的部分了

?

四、先聚合再過濾

以上將的簡單的聚合都是先過濾或者搜索,然后對結果進行聚合,但是有時候我們需要先進行聚合,然后再對結果進行一次過濾,但是我們不希望這個時候聚合會發生變化,什么時候會遇到這種情況呢,我們以美團為例做一個說明,在主頁我們直接點解美食,得到如下所示的圖

點美食之后出現全部的分類,包括各種的菜系,下面我們點一個具體的菜系

?

從程序上來說,我們點第二次菜系的時候,出現的所有的菜品均是烤串之類的菜品了,但是在分類里面還是所有的分類都會有,如果按照之前的ES的聚合,會將所有搜索出來的品的分類進行一個聚合,但是點完烤串之后,所有的分類都是烤串了,那么就應該所有的分類只有一個烤串了,不應該有其他的,這樣的話肯定是不可以的,那么如何才能實現這種聚合的,這個時候我們就需要先聚合,然后進行再次的過濾,但是過濾的時候并不影響之前的聚合結果,這就是先聚合再過濾,在ES里面也有這種情況的考慮,這個時候使用的是postfilter

postfilter解決了僅僅過濾搜索結果,但是并不影響聚合結果,下面給出一個java使用時候的例子以及比較

函數一為第三部分給出的完整的搜索函數,按照分類聚合

函數二的改變只是對于一的

  1. response?=?responsebuilder.setQuery(QueryBuilders.boolQuery()??
  2. ??
  3. ????????.must(QueryBuilders.matchPhraseQuery("name",?"中學歷史")))??
  4. ????????????????.addSort("category_id",?SortOrder.ASC)??
  5. ????????????????.addAggregation(aggregation)??
  6. ????????????????????????????????.setPostFilter(QueryBuilders.rangeQuery("price").gt(1000).lt(5000))??
  7. ????????????????.setExplain(true).execute().actionGet();??

添加了按照price進行過濾,最后結果顯示,聚合的結果兩次完全一樣,但是函數二召回的結果為函數一結果的子集。

?

五、后續學習

如何多次的過濾以及召回,比如先過濾后聚合再過濾再次聚合然后再次過濾這種的應該如何實現,需要學習。

轉載于:https://my.oschina.net/u/2429470/blog/795309

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/542160.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/542160.shtml
英文地址,請注明出處:http://en.pswp.cn/news/542160.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

js手機號中間四位_11位手機號碼隱藏中間四位數,學會Substitute函數一鍵搞定!...

相信許多朋友都有見過手機號碼被*號隱藏中間四位數的情況。許多地方為了保護個人信息&#xff0c;都會將手機號的中間四位數用星號代替。如上圖所示&#xff0c;我們需要將原來的手機號碼&#xff0c;通過*號的方式變為隱藏后的加密模式。下面我們就來學習一下如何利用substitu…

python 整數最大_Python程序使用floor()方法查找最大整數

python 整數最大The greatest integer function is a function (real numbers function) to itself that is defined as follows: it sends any real number to the largest integer that is less than or equal to it. 最大整數函數是一個對其自身定義的函數(實數函數)&#x…

selinux對ftp的影響

1.啥是selinux 安全增強型Linux&#xff08;Security-Enhanced Linux&#xff09;簡稱selinux&#xff0c;它是一個Linux內核模塊&#xff0c;也是Linux的一個安全子系統。 selinux的狀態&#xff1a; Enforcing:強制模式&#xff0c;在selinux運作時&#xff0c;已經開始限制d…

ES6的class方法基本用法

為什么80%的碼農都做不了架構師&#xff1f;>>> 在ES5中我們通常通過構造函數&#xff0c;定義并生成新對象。 例如: function Point(name,age){this.namename;this.ageage;}Point.prototype{Who:function(){return "My name is "this.name",My age…

celery的中文_celery異步任務框架

目錄Celery一、官方二、Celery異步任務框架Celery架構圖消息中間件任務執行單元任務結果存儲三、使用場景四、Celery的安裝配置五、兩種celery任務結構&#xff1a;提倡用包管理&#xff0c;結構更清晰七、Celery執行異步任務包架構封裝八、基本使用celery.py 基本配置tasks.py…

關于linux mv指令機制

最近在mv文件的時候&#xff0c;操作失誤將生產服務器一個1TB的文件夾mv到了/opt/test目錄&#xff0c;因為最后/opt/目錄被沾滿所以1TB的文件夾沒有遷移過來&#xff0c;寫入了30GB數據到了/opt/test目錄&#xff0c;因為系統分區被沾滿&#xff0c;所以把test目錄給刪除了。 …

數據庫的管理

1. 數據庫的簡介 定義&#xff1a;數據庫&#xff08;Database&#xff09;就是一種按數據結構來組織&#xff0c;存儲和管理數據的倉庫&#xff0c;其中包含數據挖掘&#xff0c;大數據信息的推送。 mariadb數據庫管理系統是mysql的一個分支&#xff0c;主要由開源社區在維護&…

C#中的Dictionary字典類介紹(轉載)

C#中的Dictionary字典類介紹 關鍵字&#xff1a;C# Dictionary 字典 作者&#xff1a;txw1958原文&#xff1a;http://www.cnblogs.com/txw1958/archive/2012/11/07/csharp-dictionary.html 說明 必須包含名空間System.Collection.Generic Dictionary里面的每一個元素都…

求階乘的第一個非零數字_查找數字階乘中的尾隨零

求階乘的第一個非零數字Problem statement: 問題陳述&#xff1a; Find the number of trailing zeros in n! (Where, n is the given input). 在n中找到尾隨零的數目&#xff01; (其中&#xff0c; n是給定的輸入)。 Solution: 解&#xff1a; Computing a factorial is o…

高速緩存dns

1. DNS&#xff1a; Domain Name System&#xff0c;域名系統。 萬維網上作為域名和IP地址相互映射的一個分布式數據庫&#xff0c;能夠使用戶更方便的訪問互聯網。他主要負責把域名和IP的相互轉換&#xff0c;DNS運行與TCP|UDP的53端口上。 2. 高速緩存DNS&#xff1a;DNS服務…

python log日志級別_python – 日志記錄:如何為處理程序設置最大日志級別

您可以向文件處理程序添加過濾器.這樣,您可以將特定級別重定向到不同的文件.import loggingclass LevelFilter(logging.Filter):def __init__(self, low, high):self._low lowself._high highlogging.Filter.__init__(self)def filter(self, record):if self._low < recor…

Python Pandas –合并,聯接和串聯

There are three main ways to combine dataFrames i.e., merging, joining and concatenating. The following examples will illustrate merging, joining and concatenation. 組合dataFrames的主要方法有三種&#xff0c;即合并&#xff0c;聯接和串聯 。 以下示例將說明合并…

Apache服務配置

1. apache 企業中常用的web服務。用來提供http&#xff1a;//&#xff08;超文本傳輸協議&#xff09; 基礎信息&#xff1a; 主配置目錄&#xff1a; /etc/httpd/conf 主配置文件&#xff1a; /etc/httpd/conf/httpd.conf 子配置目錄&#xff1a; /etc/httpd/conf.d/ 子配置文…

git 怎么查看合并過來哪些代碼_git整理紛亂的歷史合并記錄

https://github.com/Epix37/Hearthstone-Deck-Tracker以上面版本庫的master分支為例父節點1SHA-1: a21142968282ae49720cf30a0f18290b2ce74b3a* remove hotkey from config if action could not be found, fix hotkey menu item name父節點2SHA-1: 86a824e8f46005db91f334dfc57…

如何安裝Genymotion虛擬機以及Genmotion的eclipse插件

---內容開始--- - 首先去genymotion的官網去下載其安裝文件 資源下載 Genymotion官網必須注冊一個賬號這個賬號安裝之后還有用的&#xff0c;用戶名最好用網易126郵箱注冊----我下載的是2.8.0的版本(注&#xff1a;注冊前先開個代理服務器不然頁面打不開下載時最好用迅雷下載這…

java system類_Java System類mapLibraryName()方法及示例

java system類系統類mapLibraryName()方法 (System class mapLibraryName() method) mapLibraryName() method is available in java.lang package. mapLibraryName()方法在java.lang包中可用。 mapLibraryName() method is used to map a given library name into a platform-…

squid服務配置(正向、反向代理)

代理&#xff1a; 就是代理網絡用戶去取得網絡信息。 Squid是一種用來緩沖Internet數據的軟件。安裝Squid服務實現代理緩存服務器功能。 正向代理&#xff1a;意思是一個位于客戶端和原始服務器之間的服務器&#xff0c;為了從原始服務器取得內容&#xff0c;客戶端向代理發送一…

家譜整站源碼php_mysql家譜表查詢某人所有后代

CREATE TABLE people (id INT(11) NOT NULL,name VARCHAR(50) NULL DEFAULT NULL,pid INT(11) NOT NULL DEFAULT 0,PRIMARY KEY (id));CREATE DEFINERroot% PROCEDURE getChildren(IN parentId INT)LANGUAGE SQLNOT DETERMINISTICCONTAINS SQLSQL SECURITY DEFINERCOMMENT 獲取…

React 入門學習筆記2

摘自阮一峰&#xff1a;React入門實例教程&#xff0c;轉載請注明出處。 一、獲取真實的DOM節點 組件并不是真實的 DOM 節點&#xff0c;而是存在于內存之中的一種數據結構&#xff0c;叫做虛擬 DOM &#xff08;virtual DOM&#xff09;。只有當它插入文檔以后&#xff0c;才會…

c語言getchar函數_C語言中帶有示例的getchar()函數

c語言getchar函數C語言中的getchar()函數 (getchar() function in C) The getchar() function is defined in the <stdio.h> header file. getchar()函數在<stdio.h>頭文件中定義。 Prototype: 原型&#xff1a; int getchar(void);Parameters: FILE *filename(f…