Spark入門-了解Spark核心概念

在本文中我們將從Spark集群角度和程序應用的角度來對相關概念進行了解

1

一. 站在集群角度

1.1 Master

Spark 特有資源調度系統的 Leader。掌管著整個集群的資源信息,類似于 Yarn 框架中的 ResourceManager,主要功能:

  1. 監聽 Worker,看 Worker 是否正常工作;
  2. Master 對 Worker、Application 等的管理(接收 Worker 的注冊并管理所有的Worker,接收 Client 提交的 Application,調度等待的 Application 并向Worker 提交)。

1.2 Worker

Spark 特有資源調度系統的 Slave,有多個。每個 Slave 掌管著所在節點的資源信息,類似于 Yarn 框架中的 NodeManager,主要功能:

  1. 通過 RegisterWorker 注冊到 Master;
  2. 定時發送心跳給 Master;
  3. 根據 Master 發送的 Application 配置進程環境,并啟動 ExecutorBackend(執行 Task 所需的臨時進程)

二. 站在應用程序角度

2.1 driver program(驅動程序)

每個 Spark 應用都由一個驅動器程序(driver program)來發起集群上的各種并行操作。驅動器程序包含應用的 main 函數,并且定義了集群上的分布式數據集,還對這些分布式數據集應用了相關操作。
??驅動程序包含 Spark 應用程序中的主函數, 定義了分布式數據集以應用在集群中.

驅動器程序通過一個 SparkContext 對象來訪問 Spark。這個對象代表對計算集群的一個連接。

使用Scala初始化SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._val conf  = new SparkConf().setAppName("wordCount")
val sc = new SparkContext(conf)

2.2 executor(執行器)

SparkContext對象一旦成功連接到集群管理器, 就可以獲取到集群中每個節點上的執行器(executor).
??執行器是一個進程(進程名: ExecutorBackend, 運行在 Worker 節點上), 用來執行計算和為應用程序存儲數據.
??然后, Spark 會發送應用程序代碼(比如:jar包)到每個執行器. 最后, SparkContext對象發送任務到執行器開始執行程序.
4

2.3 RDDs(Resilient Distributed Dataset) 彈性分布式數據集

一旦擁有了SparkContext對象, 就可以使用它來創建 RDD 了. 在前面的例子中, 我們調用sc.textFile(…)來創建了一個 RDD, 表示文件中的每一行文本. 我們可以對這些文本行運行各種各樣的操作.

2.4 cluster managers(集群管理器)

為了在一個 Spark 集群上運行計算, SparkContext對象可以連接到幾種集群管理器(Spark’s own standalone cluster manager, Mesos or YARN).
??集群管理器負責跨應用程序分配資源.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/535554.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/535554.shtml
英文地址,請注明出處:http://en.pswp.cn/news/535554.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spark運行standalone集群模式

spark的集群主要有三種運行模式standalone、yarn、mesos,其中常被使用的是standalone和yarn,本文了解一下什么是standalone運行模式,并嘗試搭建一個standalone集群 一、standalone模式 standalone模式,是spark自己實現的&#xf…

docker原理

a.更快速的支付和部署:開發者可以使用一個標準的鏡像來構建一套開發容器 ,開發完成之后,運維人員可以直接使用這個容器來部署代碼。 b.更高效的虛擬化: Docker容器的運行不需要額外的hypervisor支持,它是內核級的虛擬化,因此 可以實現更高的性能和效。 I 0c更輕松的遷移和擴展…

創造型模式——工廠模式

工廠模式(Factory Pattern)是 Java 中最常用的設計模式之一。這種類型的設計模式屬于創建型模式,它提供了一種創建對象的最佳方式。 在工廠模式中,我們在創建對象時不會對客戶端暴露創建邏輯,并且是通過使用一個共同的…

創造型模式——抽象工廠模式

抽象工廠模式(Abstract Factory Pattern)是圍繞一個超級工廠創建其他工廠。該超級工廠又稱為其他工廠的工廠。這種類型的設計模式屬于創建型模式,它提供了一種創建對象的最佳方式。 在抽象工廠模式中,接口是負責創建一個相關對象的…

Iptables防火墻原理

一、IPTABLES概念 iptables是隔離主機以及網絡的工具,通過自己設定的規則以及處理動作對數據報文進行檢測以及處理。從設備上分類,防火墻分為軟件防火墻、硬件防火墻、芯片級防火墻。從技術上分類,防火墻分為數據包過濾型防火墻、應用代理型防火墻。這是因為四層模型的每一…

創造型模式——單例模式

單例模式(Singleton Pattern)是 Java 中最簡單的設計模式之一。這種類型的設計模式屬于創建型模式,它提供了一種創建對象的最佳方式。 這種模式涉及到一個單一的類,該類負責創建自己的對象,同時確保只有單個對象被創建…

trap命令

trap命令用于指定在接收到信號后將要采取的行動,信號的信息前面已經提到。 trap 命令的一種常見用途是在腳本程序被中斷時完成清理工作。 歷史上,shell 總是用數字來代表信號,而新的腳本程字應該使用信號的名字,它們保存在用#include命令包含進來的signal.h頭文件中,在使用…

創造型模式——建造者模式

建造者模式(Builder Pattern)使用多個簡單的對象一步一步構建成一個復雜的對象。這種類型的設計模式屬于創建型模式,它提供了一種創建對象的最佳方式。 一個 Builder 類會一步一步構造最終的對象。該 Builder 類是獨立于其他對象的。 一、介紹…

shell知識點

靜態語言是編譯型語言,強類型的語言 如C,C++,java(面向對象),C#, 動態語言是解釋型語言,弱類型的語言,邊解釋邊執行 ,需要解釋器,解釋器是用靜態語言開發的如shell(面向過程), perl,asp,asp.net,php,python(面向對象) 腳本執行 1.…

創造性模式——原型模式

原型模式(Prototype Pattern)是用于創建重復的對象,同時又能保證性能。這種類型的設計模式屬于創建型模式,它提供了一種創建對象的最佳方式。 這種模式是實現了一個原型接口,該接口用于創建當前對象的克隆。當直接創建…

Consider defining a bean of type ‘java.lang.String‘ in your configuration

Consider defining a bean of type ‘java.lang.String’ in your configuration 總結了網上的幾種解決方案: 1、多余的autowired 2、待實例化的類里必須有默認的構造方法(即沒有參數的那種) Consider defining a bean of type ‘XXXX’ …

SpringBoot-探索回顧Spring框架本質

自始至終,SpringBoot框架都是為了能夠幫助使用Spring框架的開發 快速高效地構建 一個個基于Spring框架以及Spring生態體系的應用解決方案。要深刻理解SpringBoot框架,首先我們需要深刻理解Spring框架。 一、Spring 中的 IoC、DI 和 DL 部分Java開發者對…

redis精解

概念Redis是完全開源免費的,遵守BSD協議,是-一個高性能的key-value數據庫。它支持存儲的value類型很多,包括string(字符串)、list(鏈表)、set(集合)、(Zset(有序集合),這些數據類型都支持。 push/pop、add/remove及 取交集和并集及更豐富的操作,Redis支持各種不同方式的排序)…

@SpringBootApplication揭秘

一、SpringBoot初體驗 一個典型的SpringBoot應用長什么樣子呢?如果我們使用http://start.spring.io/創建一個最簡單的依賴Web模塊的SpringBoot應用,一般情況下, 我們會得到一個SpringBoot應用的啟動類,如下面代碼所示&#xff1a…

SpringApplication:SpringBoot程序啟動的一站式解決方案

我們說SpringBoot是Spring框架對“約定優先于配置(Convention Over Configuration)"理念的最佳實踐的產物,一個典型的SpringBoot應用本質上其 實就是一個基于Spring框架的應用 如果非說SpringBoot微框架提供了點兒自己特有的東西,在核心類層面&…

了解spring-boot-starter

SpringBoot提供了針對日常企業應用研發各種場景的spring-boot-starter自動配置 依賴模塊,如此多“開箱即用”的依賴模塊,使得開發各種場景的Spring應用 更加快速和高效,本文會就幾個常見的通用spring-boot-starter模塊進行了解 一、約定優先于…

常用腳本

mysql狀態收集 #! /bin/bash#mysql for zabbixUptime() {mysqladmin status I awk [print $2]}Slow_ queries() {mysqladmin status | awk [print $9]} ICom_ insert() {mysqladmin extended-status |awk /<Com_ insertl>/[print $4]}Com_ delete() {mysqladmi…

linux產生隨機數方法

如果產生的數據長短格式不統一&#xff0c;使用md5sum命令&#xff0c;并使用cut截取相應位數echo $RANDOM openssl rand -base64 openssl rand -base64 10 date %s%N /dev/random設備&#xff0c;存儲著系統當前運行的環境的實時數據。它可以看作是系統某個時候&#x…

oracle視圖等

視圖 視圖是基于其他表或視圖創建的邏輯表 視圖不包含自己的數據&#xff0c;它基于的表稱為基表 使用視圖是為了: 限制對數據的訪問 使復雜的查詢簡單化 提供數據的獨立性 相同的數據展現不同的視圖 不能刪除行不能修改行不能添加行 --分組函數 - -GRoUP BY子句 -…

Java集合:關于 ArrayList 的內容盤點

本篇內容包括&#xff1a;ArrayList 概述、ArrayList 的擴容機制&#xff08;包含源碼部分&#xff09;、如何在遍歷 ArrayList 時正確的移除一個元素、ArrayList 的構造方法及常用方法、關于 Array 與 ArrayList 的區別、關于 CopyOnWriteArrayList、關于 Fail Fast 與 Fail S…