大數據的定義
大數據是指無法在一定時間內用常規軟件工具對其內容進行抓取、管理和處理的數據集合。
大數據的概念–4V+XV
- 1,數據量大(Volume)
- 2,類型繁多(Variety )
- 3,速度快時效高(Velocity)
- 4,價值密度低(ValueLess )
- 可變性(Variability)
- 真實性(Veracity
大數據的概念–數量、類型
大數據產生模式的三個階段
-
運營式系統階段
管理信息應用系統 -
用戶原創內容階段
WEB 2.0, 微博、微信等 -
感知式系統階段
傳感器,物聯網
大數據對科學研究的影響
- 第一種范式:實驗科學
- 第二種范式:理論科學
- 第三種范式:計算科學
- 第四種范式:數據密集型科學
大數據對思維方式的影響
- 全樣而非采樣;
- 效率而非準確;
- 相關而非因果;
大數據計算模式
- 批處理計算;MapReduce
- 流計算;Storm,Flink,Spark streaming
- 圖計算;Pregel,Spark GraphX
- 查詢分析計算;Dremel,Hive,Impala
Hadoop的定義
Apache 開源軟件基金會開發的,運行于大規模普通服務器上的大數據存儲、計算、分
析的分布式存儲系統和分布式運算框架
Hadoop2.0 由三個部分組成
- 分布式文件系統 HDFS
- 資源分配系統 Yarn
- 分布式運算框架 MapReduce
Hadoop 與谷歌三大論文
Hadoop 的特點
- 擴容能力(Scalable):能可靠地(reliably)存儲和處理千兆字節(PB)數據。
- 成本低(Economical):可以通過普通機器組成的服務器群來分發以及處理數據。這些服務器群總計可達數千個節點。
- 高效率(Efficient):通過分發數據,hadoop 可以在數據所在的節點上并行地(parallel)處理它們,這使得處理非常的快速。
- 可靠性(Reliable):hadoop 能自動地維護數據的多份副本,并且在任務失敗后能自動地重新部署(redeploy)計算任務。