Spark入門- Spark運行Local本地模式

1

一、Spark單機模式部署

Spark版本 : spark-2.4.7-bin-hadoop2.7

1、安裝配置JDK環境
2、下載Spark

官網下載http://spark.apache.org/

然后上傳到LInux服務器上

3、解壓
tar -zxvf spark-2.4.7-bin-hadoop2.7.tgz
解壓目錄說明
bin        可執行腳本
conf       配置文件
data       示例程序使用數據
examples   示例程序
jars       依賴 jar 包
python     pythonAPI
R          R 語言 API
sbin       集群管理命令
yarn       整合yarn需要的文件

4、啟動master節點

./sbin/start-master.sh
5、啟動woker節點:./sbin/start-slave.sh

例如:start-slave.sh spark://Ice:7077

參數:表示master節點的訪問地址(注意host-ip映射)

6、連接單機Spark集群
spark-shell --master spark://Ice:7077 (Spark Scala交互式開發環境,“:quit”退出)

二. 運行官方求PI的案例

bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[2] ./examples/jars/spark-examples_2.11-2.4.7.jar 100

結果片段:Pi is roughly 3.1416503141650316

2.1、spark-submit語法

./bin/spark-submit 
--class <main-class> 
--master <master-url> 
--deploy-mode <deploy-mode> 
--conf <key>=<value> 
... # other options
<application-jar> 
[application-arguments]
  • master 指定 master 的地址,默認為local. 表示在本機運行.
  • class 你的應用的啟動類 (如 org.apache.spark.examples.SparkPi)
  • deploy-mode 是否發布你的驅動到 worker節點(cluster 模式) 或者作為一個本地客戶端 (client 模式) (default: client)
  • conf: 任意的 Spark 配置屬性, 格式key=value. 如果值包含空格,可以加引號"key=value"
  • application-jar: 打包好的應用 jar,包含依賴. 這個 URL 在集群中全局可見。 比如hdfs:// 共享存儲系統
    如果是 file:// path, 那么所有的節點的path都包含同樣的jar
  • application-arguments: 傳給main()方法的參數
  • executor-memory 1G 指定每個executor可用內存為1G
  • total-executor-cores 6 指定所有executor使用的cpu核數為6個
  • executor-cores 表示每個executor使用的 cpu 的核數

三、使用 Spark-shell

Spark-shellSpark 給我們提供的交互式命令窗口(類似于 Scala 的 REPL)

3.1、打開 Spark-shell

$ bin/spark-shell 
Spark context Web UI available at http://Ice:4040
Spark context available as 'sc' (master = local[*], app id = local-1608775323264).
Spark session available as 'spark'.
Welcome to____              __/ __/__  ___ _____/ /___\ \/ _ \/ _ `/ __/  '_//___/ .__/\_,_/_/ /_/\_\   version 2.4.7/_/Using Scala version 2.11.12 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_251)
Type in expressions to have them evaluated.
Type :help for more information.scala> 

四、wordcount案例

4.1、 創建 2 個文本文件
mkdir input
cd input
touch 1.txt
touch 2.txt
寫入內容
4.2、打開 Spark-shell
bin/spark-shell 
查看進程和通過 web 查看應用程序運行情況

可以看到一句Spark context Web UI available at http://Ice:4040

4.3、訪問地址:http://Ice:4040

在這里插入圖片描述

4.4 運行 wordcount 程序
sc.textFile("./input").flatMap(_.split(" ")).map((_, 1)).reduceByKey(_ + _).collect

scala> sc.textFile("/root/sparkdemo/demo1/input").flatMap(.split(" ")).map((, 1)).reduceByKey(_ + _).collect
res0: Array[(String, Int)] = Array((are,1), (SQL,1), (world,1), (you,1), (hadoop,1), (how,1), (MapReduce,1), (hello,2), (spark,4), (hi,1), (core,1))

scala>

4.5、登錄Ice:4040查看程序運行

[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-fCXxgJmX-1609287306339)(image/image2.png)]

4.6、 提交流程

17

4.7、 wordcount 數據流程分析

18

  1. textFile("input"):讀取本地文件input文件夾數據;
  2. flatMap(_.split(" ")):壓平操作,按照空格分割符將一行數據映射成一個個單詞;
  3. map((_,1)):對每一個元素操作,將單詞映射為元組;
  4. reduceByKey(_+_):按照key將值進行聚合,相加;
  5. collect:將數據收集到Driver端展示。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/535555.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/535555.shtml
英文地址,請注明出處:http://en.pswp.cn/news/535555.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spark入門-了解Spark核心概念

在本文中我們將從Spark集群角度和程序應用的角度來對相關概念進行了解 一. 站在集群角度 1.1 Master Spark 特有資源調度系統的 Leader。掌管著整個集群的資源信息&#xff0c;類似于 Yarn 框架中的 ResourceManager&#xff0c;主要功能&#xff1a; 監聽 Worker&#xff0…

Spark運行standalone集群模式

spark的集群主要有三種運行模式standalone、yarn、mesos&#xff0c;其中常被使用的是standalone和yarn&#xff0c;本文了解一下什么是standalone運行模式&#xff0c;并嘗試搭建一個standalone集群 一、standalone模式 standalone模式&#xff0c;是spark自己實現的&#xf…

docker原理

a.更快速的支付和部署:開發者可以使用一個標準的鏡像來構建一套開發容器 ,開發完成之后,運維人員可以直接使用這個容器來部署代碼。 b.更高效的虛擬化: Docker容器的運行不需要額外的hypervisor支持,它是內核級的虛擬化,因此 可以實現更高的性能和效。 I 0c更輕松的遷移和擴展…

創造型模式——工廠模式

工廠模式&#xff08;Factory Pattern&#xff09;是 Java 中最常用的設計模式之一。這種類型的設計模式屬于創建型模式&#xff0c;它提供了一種創建對象的最佳方式。 在工廠模式中&#xff0c;我們在創建對象時不會對客戶端暴露創建邏輯&#xff0c;并且是通過使用一個共同的…

創造型模式——抽象工廠模式

抽象工廠模式&#xff08;Abstract Factory Pattern&#xff09;是圍繞一個超級工廠創建其他工廠。該超級工廠又稱為其他工廠的工廠。這種類型的設計模式屬于創建型模式&#xff0c;它提供了一種創建對象的最佳方式。 在抽象工廠模式中&#xff0c;接口是負責創建一個相關對象的…

Iptables防火墻原理

一、IPTABLES概念 iptables是隔離主機以及網絡的工具,通過自己設定的規則以及處理動作對數據報文進行檢測以及處理。從設備上分類,防火墻分為軟件防火墻、硬件防火墻、芯片級防火墻。從技術上分類,防火墻分為數據包過濾型防火墻、應用代理型防火墻。這是因為四層模型的每一…

創造型模式——單例模式

單例模式&#xff08;Singleton Pattern&#xff09;是 Java 中最簡單的設計模式之一。這種類型的設計模式屬于創建型模式&#xff0c;它提供了一種創建對象的最佳方式。 這種模式涉及到一個單一的類&#xff0c;該類負責創建自己的對象&#xff0c;同時確保只有單個對象被創建…

trap命令

trap命令用于指定在接收到信號后將要采取的行動,信號的信息前面已經提到。 trap 命令的一種常見用途是在腳本程序被中斷時完成清理工作。 歷史上,shell 總是用數字來代表信號,而新的腳本程字應該使用信號的名字,它們保存在用#include命令包含進來的signal.h頭文件中,在使用…

創造型模式——建造者模式

建造者模式&#xff08;Builder Pattern&#xff09;使用多個簡單的對象一步一步構建成一個復雜的對象。這種類型的設計模式屬于創建型模式&#xff0c;它提供了一種創建對象的最佳方式。 一個 Builder 類會一步一步構造最終的對象。該 Builder 類是獨立于其他對象的。 一、介紹…

shell知識點

靜態語言是編譯型語言,強類型的語言 如C,C++,java(面向對象),C#, 動態語言是解釋型語言,弱類型的語言,邊解釋邊執行 ,需要解釋器,解釋器是用靜態語言開發的如shell(面向過程), perl,asp,asp.net,php,python(面向對象) 腳本執行 1.…

創造性模式——原型模式

原型模式&#xff08;Prototype Pattern&#xff09;是用于創建重復的對象&#xff0c;同時又能保證性能。這種類型的設計模式屬于創建型模式&#xff0c;它提供了一種創建對象的最佳方式。 這種模式是實現了一個原型接口&#xff0c;該接口用于創建當前對象的克隆。當直接創建…

Consider defining a bean of type ‘java.lang.String‘ in your configuration

Consider defining a bean of type ‘java.lang.String’ in your configuration 總結了網上的幾種解決方案&#xff1a; 1、多余的autowired 2、待實例化的類里必須有默認的構造方法&#xff08;即沒有參數的那種&#xff09; Consider defining a bean of type ‘XXXX’ …

SpringBoot-探索回顧Spring框架本質

自始至終&#xff0c;SpringBoot框架都是為了能夠幫助使用Spring框架的開發 快速高效地構建 一個個基于Spring框架以及Spring生態體系的應用解決方案。要深刻理解SpringBoot框架&#xff0c;首先我們需要深刻理解Spring框架。 一、Spring 中的 IoC、DI 和 DL 部分Java開發者對…

redis精解

概念Redis是完全開源免費的,遵守BSD協議,是-一個高性能的key-value數據庫。它支持存儲的value類型很多,包括string(字符串)、list(鏈表)、set(集合)、(Zset(有序集合),這些數據類型都支持。 push/pop、add/remove及 取交集和并集及更豐富的操作,Redis支持各種不同方式的排序)…

@SpringBootApplication揭秘

一、SpringBoot初體驗 一個典型的SpringBoot應用長什么樣子呢&#xff1f;如果我們使用http://start.spring.io/創建一個最簡單的依賴Web模塊的SpringBoot應用&#xff0c;一般情況下&#xff0c; 我們會得到一個SpringBoot應用的啟動類&#xff0c;如下面代碼所示&#xff1a…

SpringApplication:SpringBoot程序啟動的一站式解決方案

我們說SpringBoot是Spring框架對“約定優先于配置(Convention Over Configuration)"理念的最佳實踐的產物&#xff0c;一個典型的SpringBoot應用本質上其 實就是一個基于Spring框架的應用 如果非說SpringBoot微框架提供了點兒自己特有的東西&#xff0c;在核心類層面&…

了解spring-boot-starter

SpringBoot提供了針對日常企業應用研發各種場景的spring-boot-starter自動配置 依賴模塊&#xff0c;如此多“開箱即用”的依賴模塊&#xff0c;使得開發各種場景的Spring應用 更加快速和高效&#xff0c;本文會就幾個常見的通用spring-boot-starter模塊進行了解 一、約定優先于…

常用腳本

mysql狀態收集 #! /bin/bash#mysql for zabbixUptime() {mysqladmin status I awk [print $2]}Slow_ queries() {mysqladmin status | awk [print $9]} ICom_ insert() {mysqladmin extended-status |awk /<Com_ insertl>/[print $4]}Com_ delete() {mysqladmi…

linux產生隨機數方法

如果產生的數據長短格式不統一&#xff0c;使用md5sum命令&#xff0c;并使用cut截取相應位數echo $RANDOM openssl rand -base64 openssl rand -base64 10 date %s%N /dev/random設備&#xff0c;存儲著系統當前運行的環境的實時數據。它可以看作是系統某個時候&#x…

oracle視圖等

視圖 視圖是基于其他表或視圖創建的邏輯表 視圖不包含自己的數據&#xff0c;它基于的表稱為基表 使用視圖是為了: 限制對數據的訪問 使復雜的查詢簡單化 提供數據的獨立性 相同的數據展現不同的視圖 不能刪除行不能修改行不能添加行 --分組函數 - -GRoUP BY子句 -…