Spark生態圈,也就是BDAS(伯克利數據分析棧),是伯克利APMLab實驗室精心打造的,力圖在算法(Algorithms)、機器(Machines)、人(People)之間通過大規模集成,來展現大數據應用的一個平臺,其核心引擎就是Spark,其計算基礎是彈性分布式數據集,也就是RDD。通過Spark生態圈,AMPLab運用大數據、云計算、通信等各種資源,以及各種靈活的技術方案,對海量不透明的數據進行甄別并轉化為有用的信息,以供人們更好的理解世界。Spark生態圈已經涉及到機器學習、數據挖掘、數據庫、信息檢索、自然語言處理和語音識別等多個領域。
隨著spark的日趨完善,Spark以其優異的性能正逐漸成為下一個業界和學術界的開源大數據處理平臺。隨著Spark1.0.0的發布和Spark生態圈的不斷擴大,可以預見在今后的一段時間內,Spark將越來越火熱。下面我們來看看最近的Spark1.0.0生態圈,也就是BDAS(伯克利數據分析棧),對Spark生態圈做一簡單的介紹。
如下圖所示,Spark生態圈以Spark為核心引擎,以HDFS、S3、Techyon為持久層讀寫原生數據,以Mesos、YARN和自身攜帶的Standalone作為資源管理器調度job,來完成spark應用程序的計算;而這些spark應用程序可以來源于不同的組件,如Spark的批處理應用、SparkStreaming的實時處理應用、Spark SQL的即席查詢、BlinkDB的權衡查詢、MLlib或MLbase的機器學習、GraphX的圖處理、來自SparkR的數學計算等等。更多的新信息請參看伯克利APMLab實驗室的項目進展https://amplab.cs.berkeley.edu/projects/?或者 Spark峰會信息http://spark-summit.org/。
1:生態圈簡介

?
A:Spark
Spark是一個快速的通用大規模數據處理系統:
- 內存計算并具有容錯性,決定大多數場景運算速度快于MapReduce
- 提供了支持DAG圖的分布式并行計算框架,減少多次計算之間中間結果IO開銷
- 提供Cache機制來支持多次迭代計算或者數據共享,減少IO開銷
- 使用多線程池模型來減少task啟動開稍
- 支持互動和迭代程序
B:Spark SQL
Spark SQL是一個即席查詢系統,可以通過SQL表達式、HiveQL或者Scala DSL在Spark上執行查詢。
Spark SQL的特點:
- 引入了新的RDD類型SchemaRDD,可以象傳統數據庫定義表一樣來定義SchemaRDD,SchemaRDD由定義了列數據類型的行對象構成。
- SchemaRDD可以從RDD轉換過來,也可以從Parquet文件讀入,也可以使用HiveQL從Hive中獲取。
- 在應用程序中可以混合使用不同來源的數據,如可以將來自HiveQL的數據和來自SQL的數據進行join操作。
- 內嵌catalyst優化器對用戶查詢語句進行自動優化
C:SparkStreaming
SparkStreaming是一個對實時數據流進行高通量、容錯處理的流式處理系統,可以對多種數據源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)進行類似map、reduce、join、window等復雜操作,并將結果保存到外部文件系統、數據庫或應用到實時儀表盤。
SparkStreaming流式處理系統特點有:
- 將流式計算分解成一系列短小的批處理作業
- 將失敗或者執行較慢的任務在其它節點上并行執行
- 較強的容錯能力(基于RDD繼承關系Lineage)
- 使用和RDD一樣的語義
D:MLlib
MLlib是Spark實現一些常見的機器學習算法和實用程序,包括分類,回歸,聚類,協同過濾,降維,以及底層優化。
E:GraphX
GraphX是基于Spark的圖處理和圖并行計算API。GraphX定義了一個新的概念:彈性分布式屬性圖,一個每個頂點和邊都帶有屬性的定向多重圖;并引入了三種核心RDD:Vertices、Edges、Triplets;還開放了一組基本操作(如subgraph, joinVertices, and mapReduceTriplets),并且在不斷的擴展圖形算法和圖形構建工具來簡化圖分析工作。
2:生態圈的應用
Spark生態圈以Spark為核心、以RDD為基礎,打造了一個基于內存計算的大數據平臺,為人們提供了all-in-one的數據處理方案。人們可以根據不同的場景使用spark生態圈的多個產品來解決應用,而不是使用多個隔離的系統來滿足場景需求。下面是幾個典型的例子:
A:場景1:歷史數據和實時數據分析查詢
通過Spark進行歷史數據分析、Spark Streaming進行實時數據分析,最后通過Spark SQL或BlinkDB給用戶交互查詢。
B:場景2:欺詐檢測、異常行為的發現
通過Spark進行歷史數據分析,用MLlib建立數據模型,對Spark Streaming實時數據進行評估,檢測并發現異常數據。
C:場景3:社交網絡洞察
通過Spark和GraphX計算社交關系,給出建議。
?3、與Hadoop生態環境比較
優勢:
支持DAG運算,減少中間數據的傳輸。
所謂DAG,就是有向不循環圖。數據進入第一個計算,得到的結果進入第二個計算;第二個計算得到的結果進入第三個計算……依此類推。提供了全棧(all-in-one)式,減少中間數據的傳輸。
即運算框架(Spark)、流式計算(Streaming)、機器學習(MLlib)、圖形計算(GraphX)為一體。在其中一個框架中可以調用另一個框架,如:在Streaing中接收數據,使用Spark的運行進行清洗,通過MLlib或GraphX運算得到最終結果。框架無縫轉換,無需傳遞中間數據。
而Hadoop中,通過YARN來集成所有的如MapReduce、Storm、Mahout、Hive、Pig等,這樣無法在一個框架中調用另一個,只能順序執行傳遞中間數據。
劣勢
使用Scala語言
好吧,官方一直聲稱這是優勢。
Scala語言的已經出來很多年,但從未流行過,即一直是小眾型語言。雖然軟文做很牛逼,但與現實脫離。
Scala語言的已經出來很多年,但從未流行過,即一直是小眾型語言。雖然軟文做很牛逼,但與現實脫離。
不是很成熟
Spark SQL還是是beta版,但軟文滿天飛

MLlib支持的算法有限

生產環境敢/能用不?
框架本身復雜,想寫出性能卓越的程序需要下大功夫
job拆分,task的拆分等,會導致代碼的
?參考:
http://spark.apache.org/
http://blog.csdn.net/book_mmicky/article/details/29362405
http://spark.apache.org/
http://blog.csdn.net/book_mmicky/article/details/29362405