Hadoop系列(三)MapReduce Job的幾種提交運行模式

Job執行可以分為本地執行或者集群執行。hadoop集群安裝部署在遠程centos系統中。使用經典的WordCount代碼為例。

1. 本地執行模式(本地為MacOS環境),無需啟動遠程的hadoop集群,本地job會提交給本地執行器LocalJobRunner去執行。

1)輸入輸出數據存放在本地路徑下:

首先,MapReduce代碼如下:

  • Mapper
package com.nasuf.hadoop.mr;import java.io.IOException;import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;public class WCMapper extends Mapper<LongWritable, Text, Text, LongWritable> {@Overrideprotected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {String line = value.toString();String[] words = StringUtils.split(line, " ");for (String word: words) {context.write(new Text(word), new LongWritable(1));}}}
  • Reducer
package com.nasuf.hadoop.mr;import java.io.IOException;import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;public class WCReducer extends Reducer<Text, LongWritable, Text, LongWritable>{@Overrideprotected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {long count = 0;for (LongWritable value: values) {count += value.get();}context.write(key, new LongWritable(count));}}
  • Runner
package com.nasuf.hadoop.mr;import java.io.IOException;import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;public class WCRunner {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {Configuration conf = new Configuration();Job job = Job.getInstance(conf);// 設置整個job所用的類在哪個jar包job.setJarByClass(WCRunner.class);// 本job實用的mapper和reducer的類job.setMapperClass(WCMapper.class);job.setReducerClass(WCReducer.class);// 指定reducer的輸出數據kv類型(若不指定下面mapper的輸出類型,此處可以同時表明mapper和reducer的輸出類型)job.setOutputKeyClass(Text.class);job.setOutputValueClass(LongWritable.class);// 指定mapper的輸出數據kv類型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(LongWritable.class);// 指定原始數據存放位置FileInputFormat.setInputPaths(job, new Path("/Users/nasuf/Desktop/wc/srcdata"));// 處理結果的輸出數據存放路徑FileOutputFormat.setOutputPath(job, new Path("/Users/nasuf/Desktop/wc/output"));// 將job提交給集群運行job.waitForCompletion(true);}}

在本地模式中,可以將測試數據存放在"/Users/nasuf/Desktop/wc/srcdata"路徑下,注意輸出路徑不能是已經存在的路徑,不然會拋出異常。
2) 輸入輸出數據存放在hdfs中,需要啟動遠程的hdfs(無需啟動yarn)
修改Runner代碼如下:

        // 指定原始數據存放位置FileInputFormat.setInputPaths(job, new Path("hdfs://hdcluster01:9000/wc/srcdata"));// 處理結果的輸出數據存放路徑FileOutputFormat.setOutputPath(job, new Path("hdfs://hdcluster01:9000/wc/output1"));

如果出現如下錯誤:

org.apache.hadoop.security.AccessControlException: Permission denied: user=nasuf, access=WRITE, inode="/wc":parallels:supergroup:drwxr-xr-x

顯然是權限問題。hadoop的用戶目錄是parallels,權限是rwxr-xr-x,而本地操作使用的用戶是nasuf。解決方法如下:在vm啟動參數中加入如下參數:-DHADOOP_USER_NAME=parallels即可。

2. 集群執行模式(首先需要啟動yarn,job會提交到yarn框架中去執行。訪問http://hdcluster01:8088可以查看job執行狀態。)

1)使用命令直接執行jar

 hadoop jar wc.jar com.nasuf.hadoop.mr.WCRunner

查看http://hdcluster01:8088中job執行狀態

clipboard.png

2) 通過main方法直接在本地提交job到yarn集群中執行
將$HADOOP_HOME/etc/hadoop/mapred-site.xml 和 yarn-site.xml拷貝到工程的classpath下,直接執行上述代碼,即可提交job到yarn集群中執行。
或者直接在代碼中配置如下參數,與拷貝上述兩個配置文件相同的作用:

conf.set("mapreduce.framework.name", "yarn");
conf.set("yarn.resourcemanager.hostname", "hdcluster01");
conf.set("yarn.nodemanager.aux-services", "mapreduce_shuffle");

如果出現如下錯誤信息:

2018-08-26 10:25:37,544 INFO  [main] mapreduce.Job (Job.java:monitorAndPrintJob(1375)) - Job job_1535213323614_0010 failed with state FAILED due to: Application application_1535213323614_0010 failed 2 times due to AM Container for appattempt_1535213323614_0010_000002 exited with  exitCode: -1000 due to: File file:/tmp/hadoop-yarn/staging/nasuf/.staging/job_1535213323614_0010/job.jar does not exist
.Failing this attempt.. Failing the application.

可以將core-site.xml配置文件同時拷貝到classpath中,或者同樣配置如下參數:

conf.set("hadoop.tmp.dir", "/home/parallels/app/hadoop-2.4.1/data/");

即可解決問題。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/253670.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/253670.shtml
英文地址,請注明出處:http://en.pswp.cn/news/253670.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

2600: [Ioi2011]ricehubh

Description 鄉間有一條筆直而長的路稱為“米道”。沿著這條米道上 R 塊稻田&#xff0c;每塊稻田的坐標均為一個 1 到 L 之間(含 1 和 L)的整數。這些稻田按照坐標以不減的順序給出&#xff0c;即對于 0 ≤ i <R&#xff0c;稻田 i 的坐標 X[i]滿足 1 ≤ X[0] ≤ ... ≤ X[…

常見視頻接口介紹,VGA,YPbPr,DVI,HDMI,DisplayPort

1&#xff0c;VGA(D-SUB) 這種是顯示器最常見的&#xff0c;用了很多年&#xff0c;色域空間是RGB&#xff0c;也就是紅綠藍&#xff0c;模擬信號&#xff0c;無音頻 插頭是15針的&#xff0c;實際所需的最小針數應該是5針&#xff0c;也就是RGB三色信號&#xff0c;水平…

js 對已知數組數據的導出EXCEL

1. 方法一 <a id"frontExportLogLink" href"javascript:void(0)" ng-click"exportLog()" class"btn btn-danger">導出<span class"glyphicon glyphicon-question-sign mgl10" tooltip"{{不支持ie | translate…

芯片面積估計方法

一、概念 芯片面積的主要涵蓋部分分為三部分 IO&#xff1a;芯片的信號及電源pad等Standard cell : 實現芯片的功能邏輯Macro block &#xff1a;第三方IP( PLL DAC POR Memory .etc )芯片面積估計就是通過目標工藝的庫信息&#xff0c;設計的spec、以往設計的信息及&#xff…

WordPress開發之WP Custom Register Login插件試用

簡介 WP Custom Register Login可以為你的WordPress網站前臺增加注冊、登錄、找回密碼的功能&#xff1b;你可以通過簡碼在任何頁面上調用。此外&#xff0c;該插件還支持設置自動通過用戶的電子郵件驗證新帳戶激活&#xff0c;自帶算術驗證碼&#xff0c;有效防護垃圾注冊。對…

Java數據類型(基本數據類型)學習

Java數據類型&#xff08;基本數據類型&#xff09;學習 與其他語言一樣&#xff0c;Java編程同樣存在&#xff0c;比如int a&#xff0c;float b等。在學習變量之前我就必須先了解Java的數據類型啦。 Java的數據類型包括基本數據類型和引用數據類型。具體如下&#xff1a; 各數…

電視信號——行場同步

電視信號分NTSC制和PAL制兩種制式, NTSC制每秒刷新60次,而PAL制每秒刷新50次。 水平消隱&#xff1a;電子槍從左到右畫出象素&#xff0c;它每次只能畫一條掃描線&#xff0c;畫下一條之前要先回到左邊并做好畫下一條掃描線的準備&#xff0c;這之間有一段時間叫做水平消隱&…

SLVS-EC接口學習

SLVS summarize 一、概述 SLVS-EC高速串行接口技術&#xff0c;在CIS和DSP&#xff08;數字信號處理器&#xff09;之間實現了高幀率的寬帶像素數據傳輸。 SLVS-EC引入了一個優化的數據包格式和控制協議&#xff0c;幾乎沒有冗余&#xff0c;而且結構簡單&#xff0c;僅由兩層…

關于Unity中NGUI的Pivot和錨點

Pivot 1.創建一個Sprite類型的Sprite1節點&#xff0c;關聯一個圖集和一張貼圖&#xff0c;用圖中的六個按鈕調整這個貼圖的Pivot點&#xff0c;一共有八個點可以選擇 2.再創建一個Sprite類型的Sprite2節點&#xff0c;作為Sprite1節點的子節點&#xff0c;關聯一個圖集和一張貼…

PrimeTime指南——概述和基本流程

PrimeTime&#xff08;PT&#xff09;是Synopsys的sign-off quality的靜態時序分析工具。PrimeTime可以集成于邏輯綜合和物理綜合的流程&#xff0c;讓設計者分析并解決復雜的時序問題&#xff0c;并提高時序收斂的速度。 一、概述 PT最大的兩個特點是&#xff1a; 基于時序路…

yuv和yCbCr的差異

yuv和yCbCr的差異 一、和rgb之間換算公式的差異 yuv<-->rgb Y 0.299*R 0.587*G 0.114*B U -0.147*R - 0.289*G 0.436*B 0.492*(B- Y) V 0.615*R - 0.515*G - 0.100*B 0.877*(R- Y) R Y 1.140*V G Y - 0.394*U - 0.581*V B Y 2.032*U yCbCr<-->rgb Y’ 0…

配置zentaophp

原理&#xff1a; 首先&#xff0c;我們要明白為什么訪問localhost就可以訪問到我們的apache主頁。 解析域名的時候&#xff0c;首先是從本地的hosts文件開始的。 如果查不到&#xff0c;才會去DNS服務器查詢。 如果你在這里面寫一行&#xff1a;127.0.0.1 www.baidu.com 百…

Android開發——RecyclerView特性以及基本使用方法(二)

0. 前言隨著Android的發展&#xff0c;雖然ListView依舊重要&#xff0c;但RecyclerView確實越來越多的被大家使用。但顯然并不能說RecyclerView就一定優于ListView&#xff0c;而是應該根據不同的需求選擇最合適的進行使用。本篇將介紹我們為什么要使用RecyclerView&#xff…

pycharm中使用scrapy命命

2019獨角獸企業重金招聘Python工程師標準>>> 這篇博客寫的不錯&#xff0c;親測 https://blog.csdn.net/MAOZEXIJR/article/details/80678133 轉載于:https://my.oschina.net/u/2511906/blog/1934993

PrimeTime指南——合理設置約束

完整的STA需要滿足以下兩點&#xff1a; 完整的設計約束&#xff08;完整并不意味著正確&#xff09;運行所有需要的時序檢查可以用以下兩條命令來進行完整性的檢查&#xff1a; check_timing // 檢查是否缺少了約束條件 report_analysis_cove…

Matlab增加塊注釋

1&#xff09;方法一選中你要加注釋的內容&#xff0c;然后選擇工具菜單“text|comment”就可以了&#xff0c;如果要把注釋變為語句&#xff0c;同樣選中要轉變的語句&#xff0c;然后用鼠標選擇“text|uncomment”就可以了。用鍵盤的快捷鍵是"CtrlR".或者選中你要加…

理解正向代理和反向代理

首先&#xff0c;大家可以看一下這里https://www.zhihu.com/question/24723688 其實答復的非常清楚了。 知乎網友阿笠碩士圖畫的很形象&#xff0c;地址為https://www.zhihu.com/question/24723688/answer/48369770 其次&#xff0c;我自己根據專家的解釋&#xff0c;總結如下…

tablayout支持改變選中文字大小,支持左右滑動,支持viewpager,支持三角可移動指示器...

TabLayout [簡書地址] (https://www.jianshu.com/p/2c3f868266e8) 基于大神的FlycoTabLayout [傳送地址和基本用法](https://github.com/H07000223/FlycoTabLayout) 用法和屬性和這個庫一樣 效果圖如下 主要添加一個屬性 tl_text_select_size 控制選中文字大小 看代碼截圖 然后…

Design Compiler指南——概述和基本流程

綜合是前端模塊設計中的重要步驟之一&#xff0c;綜合的過程是將行為描述的電路、RTL級的電路轉換到門級的過程&#xff1b;Design Compiler是Synopsys公司用于做電路綜合的核心工具&#xff0c;它可以方便地將HDL語言描述的電路轉換到基于工藝庫的門級網表。本文將簡單介紹綜合…

linux常用網絡命令

關鍵詞&#xff1a;linux網絡命令、ifconfig、route、ip、netstat、socket flag 引言&#xff1a; 想成為真正的高手&#xff0c;必須要熟練掌握linux系統的命令行操作&#xff0c;今天就回顧一下linux在網絡上的常用命令相關知識&#xff0c; 另外&#xff0c;實踐才是最終的方…