大數據導論
1、概念
大數據時代: 萬物皆數據 ? 數據概念: 人類的行為及產生的事件的一種記錄稱之為數據 ? 數據價值: 對數據的內容進行深入分析,可以更好的幫助了解事和物在現實世界的運行規律 ?
2、大數據誕生
大數據的誕生: 跟隨著互聯網的發展的,當全球互聯網逐步建成(2000年左右),各大企業或政府單位擁有了海量的數據亟待處理。基于這個前提逐步誕生了以分布式的形式(即多臺服務器集群)完成海量數據處理的處理方式,并逐步發展成現代大數據體系。 ? 分布式: 多臺服務器互相配合協同處理同一個事情 ? Apache Hadoop對大數據體系的意義: 第一款獲得業界普遍認可的企業級開源分布式解決方案, 一定程度上催生出了眾多的大數據體系技術棧,從Hadoop開源開始(2008年左右)大數據開始蓬勃發展
3、大數據概述
什么是大數據? 狹義上: 對海量數據進行處理的軟件技術體系 廣義上: 數字化、信息化時代的基礎支撐,以數據為生活賦能 狹義和廣義聯系: 學習狹義上的大數據軟件技術體系,在工作中為廣義上的數字化、信息化時代,添磚加瓦 ? ? 大數據解決了什么問題? 問題1: 海量數據的存儲 問題2: 海量數據的計算 問題3: 海量數據的傳輸 ? 大數據的核心工作? 存儲: 利用各類大數據技術棧,妥善保存海量待處理數據 計算: 利用各類大數據技術棧,完成海量數據的價值挖掘 傳輸: 利用各類大數據技術棧,協助各個環節的數據傳輸
4、大數據特征
大數據特征簡述: 5v(大多值快信)
大: 數據量大,1TB=1024GB,1PB=1024TB
多: 數據多樣性。各行各業,不同類型的數據都有
值: 數據背后的價值,一般是低價值
快: 使用大數據技術能夠快速對數據進行分析
信: 分析結果準備
大數據的核心工作其實就是: 從海量數據中,以大數據技術分析出有價值的信息
5、大數據技術棧
Apache軟件基金會(Apache Software Foundation,簡稱 [ASF]是專門為運作一個==開源軟件==項目的 Apache 的團體提供支持的非盈利性組織,這個開源軟件的項目就是 Apache 項目。
5.1 存儲
Apache Hadoop-HDFS: HDFS是Apache Hadoop Core項目的一部分,(Hadoop Distributed File System) Hadoop分布式文件存儲系統 ? Apache HBase: HBase是Apache的Hadoop項目的子項目 ? Apache Kudu: 是由Cloudera開源的存儲引擎,貢獻給Apache基金組織
5.2 計算
Apache Hadoop-MapReduce: MapReduce組件是最早一代的大數據分布式計算引擎對大數據的發展做出了卓越的貢獻 ? Apache Hive: Hive是一款以SQL為要開發語言的分布式計算框架。HiveSQL其底層翻譯成了Hadoop的MapReduce程序去執行 ? Apache Spark: Spark是目前全球范圍內最火熱的分布式內存計算引擎。是大數據體系中的明星計算產品 ? Apache Flink: Flink同樣也是一款明星級的大數據分布式內存計算引擎。特別是在實時計算(流計算)領域占據了大多數的國內市場。
5.3 傳輸
Apache Sqoop: Sqoop是一款ETL工具,可以協助大數據體系(hdfs,hive)和關系型數據庫(mysql)之間進行數據傳輸。 ? Apache Flume: Flume是一款流式數據采集工具,可以從非常多的數據源中完成數據采集傳輸的任務。 ? Apache Kafka: Kafka是一款分布式的消息系統,可以完成海量規模的數據傳輸工作。Apache Kafka在大數據領域也是明星產品 ? Apache Pulsar: Pulsar同樣是一款分布式的消息系統。
6、Hadoop
Hadoop是開源的技術框架,提供分布式存儲、計算、資源調度的解決方案
狹義上Hadoop: 包含HDFS,MapReduce,YARN三大組件的技術棧 ? 廣義上Hadoop: 整個Hadoop生態圈 ? Hadoop的創始人: Doug Cutting Hadoop起源:于Apache Lucene子項目:Nutch ,Nutch的設計目標是構建一個大型的全網搜索引擎。 Hadoop啟蒙: Google三篇著名的論文(也叫三駕馬車)《The Google file system》:谷歌分布式文件系統GFS《MapReduce: Simpli?ed Data Processing on Large Clusters》:谷歌分布式計算框架MapReduce《Bigtable: A Distributed Storage System for Structured Data》:谷歌結構化數據存儲系統 ? ? Hadoop的開源版本: Apache版本,免費 ? Hadoop的商業版本: CDH付費版,在開源基礎上進行了二次封裝