原理系列:Spark1.x 生態圈一覽

Spark生態圈,也就是BDAS(伯克利數據分析棧),是伯克利APMLab實驗室精心打造的,力圖在算法(Algorithms)、機器(Machines)、人(People)之間通過大規模集成,來展現大數據應用的一個平臺,其核心引擎就是Spark,其計算基礎是彈性分布式數據集,也就是RDD。通過Spark生態圈,AMPLab運用大數據、云計算、通信等各種資源,以及各種靈活的技術方案,對海量不透明的數據進行甄別并轉化為有用的信息,以供人們更好的理解世界。Spark生態圈已經涉及到機器學習、數據挖掘、數據庫、信息檢索、自然語言處理和語音識別等多個領域。
隨著spark的日趨完善,Spark以其優異的性能正逐漸成為下一個業界和學術界的開源大數據處理平臺。隨著Spark1.0.0的發布和Spark生態圈的不斷擴大,可以預見在今后的一段時間內,Spark將越來越火熱。下面我們來看看最近的Spark1.0.0生態圈,也就是BDAS(伯克利數據分析棧),對Spark生態圈做一簡單的介紹。
如下圖所示,Spark生態圈以Spark為核心引擎,以HDFS、S3、Techyon為持久層讀寫原生數據,以Mesos、YARN和自身攜帶的Standalone作為資源管理器調度job,來完成spark應用程序的計算;而這些spark應用程序可以來源于不同的組件,如Spark的批處理應用、SparkStreaming的實時處理應用、Spark SQL的即席查詢、BlinkDB的權衡查詢、MLlib或MLbase的機器學習、GraphX的圖處理、來自SparkR的數學計算等等。更多的新信息請參看伯克利APMLab實驗室的項目進展https://amplab.cs.berkeley.edu/projects/?或者 Spark峰會信息http://spark-summit.org/。

1:生態圈簡介


?

A:Spark

Spark是一個快速的通用大規模數據處理系統:
  • 內存計算并具有容錯性,決定大多數場景運算速度快于MapReduce
  • 提供了支持DAG圖的分布式并行計算框架,減少多次計算之間中間結果IO開銷
  • 提供Cache機制來支持多次迭代計算或者數據共享,減少IO開銷
  • 使用多線程池模型來減少task啟動開稍
  • 支持互動和迭代程序

B:Spark SQL

Spark SQL是一個即席查詢系統,可以通過SQL表達式、HiveQL或者Scala DSL在Spark上執行查詢。
Spark SQL的特點:
  • 引入了新的RDD類型SchemaRDD,可以象傳統數據庫定義表一樣來定義SchemaRDD,SchemaRDD由定義了列數據類型的行對象構成。
  • SchemaRDD可以從RDD轉換過來,也可以從Parquet文件讀入,也可以使用HiveQL從Hive中獲取。
  • 在應用程序中可以混合使用不同來源的數據,如可以將來自HiveQL的數據和來自SQL的數據進行join操作。
  • 內嵌catalyst優化器對用戶查詢語句進行自動優化

C:SparkStreaming

SparkStreaming是一個對實時數據流進行高通量、容錯處理的流式處理系統,可以對多種數據源(如Kdfka、Flume、Twitter、Zero和TCP 套接字)進行類似map、reduce、join、window等復雜操作,并將結果保存到外部文件系統、數據庫或應用到實時儀表盤。
SparkStreaming流式處理系統特點有:
  • 將流式計算分解成一系列短小的批處理作業
  • 將失敗或者執行較慢的任務在其它節點上并行執行
  • 較強的容錯能力(基于RDD繼承關系Lineage)
  • 使用和RDD一樣的語義

D:MLlib

MLlib是Spark實現一些常見的機器學習算法和實用程序,包括分類,回歸,聚類,協同過濾,降維,以及底層優化。

E:GraphX

GraphX是基于Spark的圖處理和圖并行計算API。GraphX定義了一個新的概念:彈性分布式屬性圖,一個每個頂點和邊都帶有屬性的定向多重圖;并引入了三種核心RDD:Vertices、Edges、Triplets;還開放了一組基本操作(如subgraph, joinVertices, and mapReduceTriplets),并且在不斷的擴展圖形算法和圖形構建工具來簡化圖分析工作。

2:生態圈的應用

Spark生態圈以Spark為核心、以RDD為基礎,打造了一個基于內存計算的大數據平臺,為人們提供了all-in-one的數據處理方案。人們可以根據不同的場景使用spark生態圈的多個產品來解決應用,而不是使用多個隔離的系統來滿足場景需求。下面是幾個典型的例子:

A:場景1:歷史數據和實時數據分析查詢

通過Spark進行歷史數據分析、Spark Streaming進行實時數據分析,最后通過Spark SQL或BlinkDB給用戶交互查詢。

B:場景2:欺詐檢測、異常行為的發現

通過Spark進行歷史數據分析,用MLlib建立數據模型,對Spark Streaming實時數據進行評估,檢測并發現異常數據。

C:場景3:社交網絡洞察

通過Spark和GraphX計算社交關系,給出建議。

?3、與Hadoop生態環境比較

優勢:

支持DAG運算,減少中間數據的傳輸。

所謂DAG,就是有向不循環圖。數據進入第一個計算,得到的結果進入第二個計算;第二個計算得到的結果進入第三個計算……依此類推。

提供了全棧(all-in-one)式,減少中間數據的傳輸。

即運算框架(Spark)、流式計算(Streaming)、機器學習(MLlib)、圖形計算(GraphX)為一體。在其中一個框架中可以調用另一個框架,如:在Streaing中接收數據,使用Spark的運行進行清洗,通過MLlib或GraphX運算得到最終結果。框架無縫轉換,無需傳遞中間數據。
而Hadoop中,通過YARN來集成所有的如MapReduce、Storm、Mahout、Hive、Pig等,這樣無法在一個框架中調用另一個,只能順序執行傳遞中間數據。

劣勢

使用Scala語言

好吧,官方一直聲稱這是優勢。
Scala語言的已經出來很多年,但從未流行過,即一直是小眾型語言。雖然軟文做很牛逼,但與現實脫離。

不是很成熟

Spark SQL還是是beta版,但軟文滿天飛蠢話
MLlib支持的算法有限尷尬
生產環境敢/能用不?

框架本身復雜,想寫出性能卓越的程序需要下大功夫

job拆分,task的拆分等,會導致代碼的
?參考:
http://spark.apache.org/
http://blog.csdn.net/book_mmicky/article/details/29362405

轉載于:https://www.cnblogs.com/chanxiu/p/3967786.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/448442.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/448442.shtml
英文地址,請注明出處:http://en.pswp.cn/news/448442.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SpringMVC 注解 : @ModelAttribute

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 SpringMVC 注解 : ModelAttribute 的用法如上。 轉自:https://blog.csdn.net/lovesomnus/article/details/78873…

網絡編程項目(聊天室項目)

一、實現目標 一個在Linux下可以使用的聊天軟件,要求至少實現如下功能: 1. 采用Client/Server架構 2. Client A 登陸聊天服務器前,需要注冊自己的ID和密碼 3. 注冊成功后,Client A 就可以通過自己的ID和密碼登陸聊天服務器 4…

CPU天梯圖:2014年最新CPU性能天梯圖

用戶在組裝電腦的前期需要考慮怎么選擇適合自己的CPU,現在CPU性能強的比較貴,便宜的CPU性能又比較差,選擇性價比高并且適合自己的處理器還真是比較花心思。在2014年的時候,最主流熱門的AMD處理器是AMD A10-6800K,最新推…

解決: idea 修改 jsp 后,頁面刷新無效

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 idea 修改 jsp 后瀏覽器訪問無效。 解決:進入 idea 配置 修改部署方式: 修改 更新文件方式: OK了。

Python中的getpass模塊

getpass模塊用于輸入密碼時,隱藏密碼字符 代碼 import getpass name input("請輸入你的名字:") passwd getpass.getpass("請輸入你的密碼:")print (name,passwd)   首先我們要import引入getpass模塊,然后…

C++之命名空間

為什么要使用命名空間? 一個中大型軟件往往由多名程序員共同開發,會使用大量的變量和函數,不可避免地會出現變量或函數的命名沖突。當所有人的代碼都測試通過,沒有問題時,將它們結合到一起就有可能會出現命名沖突。 …

如何做到每天寫代碼?

摘要:總有一大堆事情沒有做完,沒有時間和精力為業余項目寫代碼?不要著急,看看可汗學院計算機科學院院長John Resig怎么說。本文將教你如何保證在每天都能有時間給業余項目寫代碼。 你是否曾為業余項目沒有進展而惆悵過&#xff1f…

Vue 實現前后端分離項目

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 Vue實現前后端分離項目的初體驗 經過之前學習的Vue的知識: vue基本指令vue組件vue-resourcevue路由 其實我們已經可以開始…

C++對C的一些加強和變化

實用性加強&#xff1a; int main() {// C語言中的變量都必須在作用域開始的位置定義&#xff01;&#xff01;// C中更強調語言的“實用性”&#xff0c;所有的變量都可以在需要使用時再定義。for (int i 0; i < 10; i){std::cout << i << std::endl;}return…

優秀Unix管理員的七個習慣

摘要&#xff1a;Unix系統管理員可能會很懶或喜歡優雅的解決方法&#xff0c;這就是他們的存在之美。一位優秀的Unix系統管理員有著自己的習慣&#xff1a;不會等到問題來找你、精通所使用的工具和系統、確定事情優先次序和喜歡優雅的解決方案但不迷失等。 優秀的Unix系統管理員…

Vue.js 極簡小例:讀值、樣式調用、if判斷、a 標簽、點擊事件、管道

前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 1. 寫法&#xff1a; <template><div id"app"><!-- 三目運算符使用 ‘ok’ 的值定義在 data 中-->{{ ok …

【快寫】基本思路及模板

快讀也可以了解一下 先從C自帶的輸出開始吧 cout<<n<<endl;這是最基本的輸出&#xff0c;適合初學者 &#xff08;雖然我到現在都還在用&#xff09; 然后稍微快一點的輸出 printf("%d",n);這個就比較快速了&#xff0c;但是對于那種毒瘤題目 故意卡你的…

C++與C中const的比較以及const和define的比較

C與C中const的比較&#xff1a; C語言中 const修飾的變量是一個 常變量&#xff0c;本質還是變量&#xff0c;有自己的地址空間C編譯器對const常量的處理 當碰見常量聲明時&#xff0c;在符號表中放入常量 > 問題&#xff1a;那又如何解釋取地址編譯過程中若發現對const使…

中國古典十大悲劇

一.《竇娥冤》  《竇娥冤》——元關漢卿 山陰書生竇天章因無力償還蔡婆的高利貸&#xff0c;把七歲的女兒竇娥送給蔡婆當童養媳來抵債。竇娥長大后與蔡婆兒子成婚&#xff0c;婚后兩年蔡子病死。后來蔡婆向賽盧醫索債&#xff0c;被賽盧醫騙至郊外謀害&#xff0c;為流氓張驢…

解決: Elements in iteration expect to have ‘v-bind:key‘ directives

前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 報錯&#xff1a; Elements in iteration expect to have v-bind:key directives 原本寫法&#xff1a; <li v-for"site in s…

回來太多事需要處理

出差回來&#xff0c;發現太多事需要處理現在每個項目都在Delay。且沒有一個人是主動匯報項目的。這是非常不正常的現象。感覺有點累轉載于:https://www.cnblogs.com/boriscao/archive/2005/09/03/229368.html

不該失去的,一塊錢也不放棄

很多人都覺得&#xff0c;有錢人既然財力雄厚&#xff0c;花錢時必定毫不手軟。然而&#xff0c;觀察成功的CEO&#xff0c;你會發現&#xff0c;他們多數人花錢也花得小心&#xff0c;對于什么該花、值得花&#xff0c;算得十分精細。 華人首富、香港長江實業與和記黃埔董事局…

C++之引用

普通引用和常引用 1. 變量名的回顧 變量名實質上是一段連續存儲空間的別名&#xff0c;是一個標號(門牌號) 程序中通過變量來申請并命名內存空間 通過變量的名字可以使用存儲空間 問題&#xff1a;一段連續的內存空間是否只能有一個別名嗎&#xff1f; 2. C引用的概念 引…

Vue.js 極簡小例:數值計算、千米換算為米、九九乘法表、循環

前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 代碼&#xff1a; <template><div id"app"><!-- 千米和米換算 --><div id "computed_props&quo…

shiro框架的學習

權限控制是shiro最核心的東西 Shiro權限聲明通常是使用以冒號分隔的表達式。一個權限表達式可以清晰的指定資源類型&#xff0c;允許的操作&#xff0c;可訪問的數據。同時&#xff0c;Shiro權限表達式支持簡單的通配符&#xff0c;可以更加靈活的進行權限設置。 下面以實例來說…