Spark系列—02 Spark程序牛刀小試

一、執行第一個Spark程序

1、執行程序

我們執行一下Spark自帶的一個例子,利用蒙特·卡羅算法求PI:

啟動Spark集群后,可以在集群的任何一臺機器上執行一下命令:

/home/spark/spark-1.6.1-bin-hadoop2.6/bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master spark://master:7077 \

--executor-memory 1G \

--total-executor-cores 2 \

/home/spark/spark-1.6.1-bin-hadoop2.6/lib/spark-examples-1.6.1-hadoop2.6.0.jar \

100

在執行過程中bash上的信息:

image

執行完成bash上的信息:

image

執行過程中WebUI上的信息:

image

image

執行完以后WebUI上的信息:

image

2、命令解析

/home/spark/spark-1.6.1-bin-hadoop2.6/bin/spark-submit \

①spark-submit:提交任務,它是一個Driver,至于它的實現細節后續會有介紹

--class org.apache.spark.examples.SparkPi \

②—class 指定任務的類名(使用反射調用該類的main方法)

--master spark://master:7077 \

③—master 指定集群Master的地址

--executor-memory 1G \

④—executor 指定為每個executor分配的內存大小

--total-executor-cores 2 \

⑤—total-executor 指定分配給所有executor總的處理器核數

(這里先說一下executor是Worker啟動的子進程,executor負責執行任務,其細節以后會介紹的。)

/home/spark/spark-1.6.1-bin-hadoop2.6/lib/spark-examples-1.6.1-hadoop2.6.0.jar \

⑥指定任務的jar包地址

100

⑦任務的類的main方法的參數

二、使用 spark-shell

spark-shell是Spark自帶的交互式Shell程序,方便用戶進行交互式編程,用戶可以在該命令行下用scala編寫spark程序,spark-shell也是一個Driver。

1、啟動 spark-shell

/home/spark/spark-1.6.1-bin-hadoop2.6/bin/spark-shell \

--master spark://master:7077 \

--executor-memory 1g \

--total-executor-cores 2

這個命令的解析其實和上面的spark-submit是一樣的,我在這再啰嗦一遍:

參數說明:

--master spark://master:7077 指定Master的地址

--executor-memory 1g 指定每個executor可用內存為1G

--total-executor-cores 2 指定所有executor總的處理器核數為2

還有一點需要非常注意:

如果啟動 spark shell 時沒有指定master地址,但是也可以正常啟動 spark shell 和執行 spark shell 中的程序,其實是啟動了spark的local模式,該模式僅在本機啟動一個進程,沒有與集群建立聯系。

還要說明一點:

spark shell 中已經默認將SparkContext類初始化為對象sc。用戶代碼如果需要用到,則直接應用 sc 即可。SparkContext是Spark集群的入口,Driver只有初始化了SparkContext才可以向Spark集群提交任務,所以這個SparkContext和重要,以后我們會詳細介紹整個SparkContext的初始化流程的,現在可以先記住SparkContext是集群的入口,就像Spring中的ApplicationContext一樣。

2、在spark shell中編寫WordCount程序

(1)首先啟動hdfs

(2)向hdfs上傳文件words.txt 到 hdfs://hadoop01:9000/spark/words.txt

words.txt的內容:

hello tom
hello jim
hello tom and kitty

(3)在spark shell 中用scala語言編寫spark程序:

sc.textFile("hdfs://hadoop01:9000/spark/words.txt").flatMap(_.split(" "))

.map((_,1)).reduceByKey(_+_).saveAsTextFile("hdfs://hadoop01:9000/spark/out")

(4)使用hdfs命令查看結果:

hdfs dfs -cat hdfs://hadoop01:9000/spark/out/part*

?

(jim,1)
(tom,2)
(hello,3)
(and,1)
(kitty,1)

(5)程序簡單說明:

sc.textFile("hdfs://hadoop01:9000/spark/words.txt") 從hdfs中讀取數據

flatMap(_.split(" ")) 先map再壓平

map((_,1)) 將單詞和1構成元組

reduceByKey(_+_) 按照key進行reduce,并將value累加

saveAsTextFile("hdfs://hadoop01:9000/spark/out") 將結果寫入到hdfs中

最后:

也可以使用 IDEA 編寫完一個程序后打包,使用spark-submit方式提交到集群,在這里我就不寫了。一定要注意spark-submit的配置命令不要出錯,還要注意自己的程序需要的參數的正確,不要忘了起hdfs。

轉載于:https://www.cnblogs.com/lumingkui/p/5532362.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/374623.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/374623.shtml
英文地址,請注明出處:http://en.pswp.cn/news/374623.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

JVM選項:-client vs -server

您是否曾經在運行Java應用程序時想知道-client或-server開關是什么? 例如: javaw.exe -client com.blogspot.sdoulger.LoopTest也顯示在java.exe的“幫助”中,例如,其中的選項包括: -client選擇“客戶端” VM -serv…

網頁前臺小知識

1.左右布局div塊自適應,首先外邊套一個div,把寬度固定一個px,然后margin設為0 atuo;這樣他會根據窗口大小自動變換左右距離.就這么簡單</p> 2.多個標簽共用一個樣式,用,分隔開 p…

統計字符串每個字符出現的次數

//str是個只包含小寫字母的字符串&#xff0c;以下是統計每個字符出現的頻數 int[] cnt new int[26];//toCharArray() for (char ch : str.toCharArray()) {cnt[ch - a]; }//charAt() for(int i 0;i<str.length;i){char ch str.charAt(i);cnt[ch - a]; }

在Java 7中處理文件

以下是The Well-Grounded Java Developer的草稿的修改后的片段。 它使您快速了解與以前版本相比&#xff0c;在Java 7中操作文件要容易得多。 通過使用新的Files類及其許多實用程序方法&#xff0c;您可以僅用一行代碼就可以對文件執行以下操作&#xff1a; 創建 刪除 復制 …

3.1存儲管理操作系統

存儲器管理的對象是主存&#xff08;內存&#xff09;。其主要功能包含分配和回收主存空間、提高主存的利用率、擴充主存、對主存信息實現有效保護。存儲器的結構為&#xff1a;寄存去、緩存、主存、外存。邏輯地址&#xff08;對用戶角度。程序存放的位置&#xff09;、物理地…

學習教材《構建之法》遇到的問題及思路

在學習中每個人都會遇到各種各樣的問題&#xff0c;下面就是我遇到的問題及可能解決問題的思路。 1.如何寫好程序的注釋&#xff0c;每個人都會寫注釋&#xff0c;但是&#xff0c;需要注釋什么&#xff1f; 思路&#xff1a;注釋是為了解釋程序做什么&#xff0c;為什么要這樣…

了解和擴展Java ClassLoader

Java ClassLoader是項目開發中Java的關鍵但很少使用的組件之一。 就我個人而言&#xff0c;我從未在任何項目中擴展ClassLoader&#xff0c;但是擁有自己的可以自定義Java類加載的ClassLoader的想法讓我感到很興奮。 本文將概述Java類加載&#xff0c;然后繼續創建自定義ClassL…

CAD教程-AL對其命令

AL可以實現不規則的對其功能 1.第一步按下AL&#xff0c;按下Enter 2.選擇第一個源點 3.選擇第一個目標點 4.選擇第二個源點 5.選擇第二個目標點 6.按下Enter&#xff0c;完成移位 轉載于:https://www.cnblogs.com/weloveshare/p/4739873.html

使用Spring將POJO公開為JMX MBean

這是一個非常不錯的教程&#xff0c;介紹了如何通過我們最新的JCG合作伙伴 “ The Holy Java ”博客&#xff08;很酷的名字&#xff09;實現“ 用Spring輕松將POJO作為JMX MBean公開 ”。 &#xff08;注意&#xff1a;對原始帖子進行了少量編輯以提高可讀性&#xff09; Jav…

mysql 5.1由于Host為localhost的用戶為空,密碼為空,導致本地用戶無法登陸。

不說了。直接上mysql的用戶數據&#xff0c;第四列里面&#xff0c;host為localhost&#xff0c;用戶為空&#xff0c;密碼為空。 導致在本地登陸的時候除了root的賬戶外&#xff0c;其他賬號不需要密碼即可登陸&#xff0c;并且影響host為 %的用戶登陸。 這里只需要刪除對應的…

scala 88 for替換map,flatmap,filtermap,for,scala,flatmap

王家林親授《DT大數據夢工廠》大數據實戰視頻“Scala深入淺出實戰經典”視頻、音頻和PPT下載&#xff01;第88講&#xff1a;Scala中使用For表達式實現map、flatMap、filter百度云盤&#xff1a;http://pan.baidu.com/s/1mgtgcIG360云盤&#xff1a;http://yunpan.cn/cdXsbctXf…

簡單闡述下OC中UIImage三種創建方式~~~

一. 直接使用imageNamed進行創建 1 UIImage * image [UIImage imageNamed:"1.jpg"]; 簡單說一下這種方式的優缺點&#xff1a; 優點&#xff1a;代碼量少&#xff0c;一行代碼就可以搞定。當程序中多次加載這張圖片時&#xff0c;系統會指向同一塊內存&#xff0c;…

(一二四)tableView的多組數據展示和手動排序

最近在寫一個輕量級的網絡游戲&#xff0c;遇到了技能優先順序手動排序的需求&#xff0c;我就想到了iOS自帶的tableView編輯功能&#xff0c;對其進行了初步探索&#xff0c;最后做出的效果如下圖所示&#xff1a; 點擊左邊可以刪除&#xff0c;拖住右邊可以手動排序&#xff…

ARC_xp_20160530

1、 申請內存的地方在哪里&#xff1f;忘了...(應該是用的 malloc) 2、 鍵盤上按下一個鍵&#xff0c;處理的函數為&#xff1a;(所在的模塊 應該是“CEGUIIrrlichtRenderer.dll”) 003B465F CC INT3 003B4660 /$ 53 PUSH EBX 003B4661 |. 56 …

Hibernate映射集合性能問題

首先&#xff0c;這篇文章的靈感來自于Burt Beckwith在2011年1月27日于SpringOne 2GX上發表的有關高級GORM –性能&#xff0c;定制和監控的演講 。 簡而言之&#xff0c; Burt Beckwith討論了使用映射集合和GORM中的Hibernate 2級緩存的潛在性能問題&#xff0c;以及避免此類性…

算法:1!+(1!+3!)+(1!+3!+5!) + ( 1! + 3! + 5! + 7! + 9!)+....+(1!+3!+5!+ ... + m!)...

-(void)touchesBegan:(nonnull NSSet<UITouch *> *)touches withEvent:(nullable UIEvent *)event{ //算法入口 [self func2:9]; } //計算階乘 factor&#xff08;m&#xff09;&#xff1d; m&#xff01; -(int)factor:(int)m{ int factorNum0; if(m0|m1) return 1; e…

知道這 20 個正則表達式,能讓你少寫 1,000 行代碼

CocoaChina05-13正則表達式&#xff0c;一個十分古老而又強大的文本處理工具&#xff0c;僅僅用一段非常簡短的表達式語句&#xff0c;便能夠快速實現一個非常復雜的業務邏輯。熟練地掌握正則表達式的話&#xff0c;能夠使你的開發效率得到極大的提升。下面是技匠整理的&#x…

用Jackson進行Java JSON處理

JSON &#xff08;Javascript對象符號&#xff09;正成為一種非常流行的數據交換格式。 在使用諸如YUI&#xff0c;ExtJS&#xff0c;DOJO等Javascript框架開發Web應用程序時&#xff0c;我們可以使用XML或JSON在客戶端和服務器之間交換數據。 通常&#xff0c;我們從服務器獲得…

Android Togglebutton 默認背景被放大

1 . 最近在項目中自定義toggleButton 發現背景圖放入后 &#xff0c;比美工給我的原圖要大很大 2. 為什么&#xff1f; 3.比較ToggleButton 和TextView源碼 發現, toggleButton 設置了minWidth 和minHeigh &#xff0c;導致我的背景小圖被拉伸。 4.解決這種問題&#xff1a; 重…

MapReduce:簡單介紹

MapReduce是Google流行的一種并行編程技術。 它用于處理大量數據。 僅通過將工作并行分配給多臺機器&#xff0c;就可以在合理的時間內完成這種處理。 每臺機器都處理一小部分數據。 MapReduce是一種編程模型&#xff0c;使開發人員可以專注于編寫處理數據的代碼&#xff0c;而…