對于海量數據這個詞,大家不難理解吧。主要是針對給定的數據量特別大,占用內存特別大的情況。那么和位圖有什么關系呢。看下面一個騰訊的海量數據的例子吧。
例:給40億個不重復的無符號整數,沒排過序。給一個無符號整數,如何快速判斷一個數是否在這40億個數中。
?????? 對于這道題,我們給了40億個不重復的無符號整數,一個整數是4個字節,那么就是40*4=160億個字節,大概是16G的內存。顯然在內存上時存不下的。那么我們怎么來查找呢。既然是不重復,就說明整數要么就不出現,要么就出現一次。整數的最大值是42億多,即2^32。此時我們就可以用每一位來表示這個數存在或者不存在。如果將32位為一個編號時,原本16G的數據使用位圖可以節省到500M的空間。大概我們剛剛學過哈希表,用訪問地址的方法來快速的查找出地址對應的值。這里也一樣,用到了哈希表中的新的解決海量數據的方法---位圖。
那么問題來了?什么是位圖呢?
我們用每一位標志這個數存在的狀態,設為0(不存在)和1(存在);
位圖的基本結構:
是一個size_t類型的vector數組;
vector<size_t> _array;
位圖的基本函數:
對于判斷一個無符號整數,是否存在這40億個數中。
(1)需要存入這40億個數,使用Set將對應的40億個位置為1;
(2)使用Test將判斷某個位是否為0或1;
注:位圖只是考慮了整數類型
位圖的實現代碼:(vs2013)
#pragma once
#include<iostream>
using namespace std;
#include<vector>//位圖的每一位的0,1標志這個數存在或不存在的狀態
class BitMap
{
public:BitMap(size_t Size = 1024){_array.resize(Size/32+1);}~BitMap(){}public://將這個數存在的狀態置為1void Set(const size_t& value){size_t index = value>>5;size_t bit = value % 32;_array[index] |= (1<<bit);}//將這個數不存在的狀態置為0void Reset(const size_t& value){size_t index = value>>5;size_t bit = value % 32;_array[index] &= (~(1<<bit));}//測試某個數是否出現過bool Test(const size_t& value){size_t index = value>>5;size_t bit = value % 32;return (_array[index] & (1<<bit));}
private:vector<size_t> _array;
};void BitMapTest()
{BitMap bm(size_t(-1)); //64位系統下表示的整數的最大值bm.Set(10);bm.Set(100);bm.Set(20);bm.Set(500);cout<<bm.Test(10)<<endl;cout<<bm.Test(200)<<endl;cout<<bm.Test(500)<<endl;cout<<bm.Test(40)<<endl;
}
運行結果: