Redis（十）：Redis特殊類型之Hyperloglog基數統計

redis 2.8.9版本就更新了Hyperloglog數據結構！
Hyperloglog：基數統計算法！0.81%的錯誤率，不過統計大量數據可以忽略！
在 Redis 里面，每個 HyperLogLog 鍵只需要花費 12 KB 內存，就可以計算接近 2^64 個不同元素的基數。這和計算基數時，元素越多耗費內存就越多的集合形成鮮明對比。
但是，因為 HyperLogLog 只會根據輸入元素來計算基數，而不會儲存輸入元素本身，所以 HyperLogLog 不能像集合那樣，返回輸入的各個元素。

1、什么是基數

比如數據集 {1, 3, 5, 7, 5, 7, 8}，那么這個數據集的基數集為 {1, 3, 5 ,7, 8}, 基數(不重復元素)為5。基數估計就是在誤差可接受的范圍內，快速計算基數。
A{1，3，6，7，5，6}
B{1，3，5，7，6}
兩個的基數都（不重復的元素）=5，可以接受誤差！

2、Hyperloglog簡介

Redis Hyperloglog 基數統計的算法！
比如在CSDN中一位用戶訪問多次，但是統計中依舊算作一個人
傳統的方式是用set集合把每個人的id保存下來，然后統計元素數量，但是太費內存了，而目標是統計數量，如果還要浪費大量的空間，就很不劃算！

優點：占用的內存是固定的，統計2^64這么大的基數，只占用12kb的內存，就很方便！

3、常用命令

127.0.0.1:6379> PFADD thekey1 a b c d e f g h i j k l m	//創建第一組元素
(integer) 1
127.0.0.1:6379> PFADD thekey2 n o p q r s t u v w x y z //創建第二組元素
(integer) 1
127.0.0.1:6379> PFCOUNT thekey1	//查詢數量
(integer) 13
127.0.0.1:6379> PFCOUNT thekey2
(integer) 13
127.0.0.1:6379> PFMERGE thekey3 thekey1 thekey2 //合并兩組
OK
127.0.0.1:6379> PFCOUNT thekey3
(integer) 25		//百分之零點八的誤差出現了？

允許容錯的話，可以使用Hyperloglog

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/535883.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/535883.shtml
英文地址，請注明出處：http://en.pswp.cn/news/535883.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！