redis 2.8.9版本就更新了Hyperloglog數據結構!
Hyperloglog:基數統計算法!0.81%的錯誤率,不過統計大量數據可以忽略!
在 Redis 里面,每個 HyperLogLog 鍵只需要花費 12 KB 內存,就可以計算接近 2^64 個不同元素的基 數。這和計算基數時,元素越多耗費內存就越多的集合形成鮮明對比。
但是,因為 HyperLogLog 只會根據輸入元素來計算基數,而不會儲存輸入元素本身,所以 HyperLogLog 不能像集合那樣,返回輸入的各個元素。
1、什么是基數
比如數據集 {1, 3, 5, 7, 5, 7, 8}, 那么這個數據集的基數集為 {1, 3, 5 ,7, 8}, 基數(不重復元素)為5。 基數估計就是在誤差可接受的范圍內,快速計算基數。
A{1,3,6,7,5,6}
B{1,3,5,7,6}
兩個的基數都(不重復的元素)=5,可以接受誤差!
2、Hyperloglog簡介
Redis Hyperloglog 基數統計的算法!
比如在CSDN中一位用戶訪問多次,但是統計中依舊算作一個人
傳統的方式是用set集合把每個人的id保存下來,然后統計元素數量,但是太費內存了,而目標是統計數量,如果還要浪費大量的空間,就很不劃算!
優點:占用的內存是固定的,統計2^64這么大的基數,只占用12kb的內存,就很方便!
3、常用命令
127.0.0.1:6379> PFADD thekey1 a b c d e f g h i j k l m //創建第一組元素
(integer) 1
127.0.0.1:6379> PFADD thekey2 n o p q r s t u v w x y z //創建第二組元素
(integer) 1
127.0.0.1:6379> PFCOUNT thekey1 //查詢數量
(integer) 13
127.0.0.1:6379> PFCOUNT thekey2
(integer) 13
127.0.0.1:6379> PFMERGE thekey3 thekey1 thekey2 //合并兩組
OK
127.0.0.1:6379> PFCOUNT thekey3
(integer) 25 //百分之零點八的誤差出現了?
允許容錯的話,可以使用Hyperloglog