圖解MapReduceMapReduce整體流程圖

1.圖解MapReduceMapReduce整體流程圖

并行讀取文本中的內容，然后進行MapReduce操作

Map過程：并行讀取三行，對讀取的單詞進行map操作，每個詞都以<key,value>形式生成

reduce操作是對map的結果進行排序，合并，最后得出詞頻。

2.簡單過程：

Input:

Hello World Bye World

Hello Hadoop Bye Hadoop

Bye Hadoop Hello Hadoop

Map:

<Hello,1>

<World,1>

<Bye,1>

<World,1>

<Hello,1>

<Hadoop,1>

<Bye,1>

<Hadoop,1>

<Bye,1>

<Hadoop,1>

<Hello,1>

<Hadoop,1>

Sort:

<Bye,1>

<Hadoop,1>

<Hello,1>

<World,1>

Combine:

<Bye,1,1,1>

<Hadoop,1,1,1,1>

<Hello,1,1,1>

<World,1,1>

Reduce:

<Bye,3>

<Hadoop,4>

<Hello,3>

<World,2>

MergeSort的過程（ps：2012-10-18）Map:
<Hello,1><World,1><Bye,1><World,1><Hello,1><Hadoop,1><Bye,1><Hadoop,1><Bye,1><Hadoop,1><Hello,1><Hadoop,1>
MergeSort:

<Hello,1><World,1><Bye,1><World,1><Hello,1><Hadoop,1> | <Bye,1><Hadoop,1><Bye,1><Hadoop,1><Hello,1><Hadoop,1>
<Hello,1><World,1><Bye,1> || <World,1><Hello,1><Hadoop,1> | <Bye,1><Hadoop,1><Bye,1> || <Hadoop,1><Hello,1><Hadoop,1>
<Hello,1><World,1> ||| <Bye,1> || <World,1><Hello,1> ||| <Hadoop,1> | <Bye,1><Hadoop,1> ||| <Bye,1> || <Hadoop,1><Hello,1> ||| <Hadoop,1>
MergeArray 結果：<Hello,1><World,1> ||| <Bye,1> || <Hello,1><World,1> ||| <Hadoop,1> | <Bye,1><Hadoop,1> ||| <Bye,1> || <Hadoop,1><Hello,1> ||| <Hadoop,1> 在|||這一層級
MergeArray 結果：<Bye,1><Hello,1><World,1> || <Hadoop,1><Hello,1><World,1> | <Bye,1><Bye,1><Hadoop,1> || <Hadoop,1><Hadoop,1><Hello,1> 在||這一層級
MergeArray 結果：<Bye,1><Hadoop,1><Hello,1><World,1><Hello,1><World,1> | <Bye,1><Bye,1><Hadoop,1><Hadoop,1><Hello,1><Hadoop,1> 在|這一層級
MergeArray結果：<Bye,1><Bye,1><Bye,1><Hadoop,1><Hadoop,1><Hadoop,1><Hadoop,1><Hello,1><Hello,1><Hello,1><World,1><World,1> 排序完成

3.代碼實例：
package cn.opensv.hadoop.ch1;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
* Hello world!
*
*/
public class WordCount1 {
? ? ? ? public static class Map extends? ? ? ? Mapper<LongWritable, Text, Text, LongWritable> {
? ? ? ?
? ? ? ? ? ? ? ? private final static LongWritable one = new LongWritable(1);
? ? ? ? ? ? ? ? private Text word = new Text();

? ? ? ?
? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? @Override
? ? ? ? ? ? ? ? public void map(LongWritable key, Text value, Context context)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? throws IOException, InterruptedException {
? ? ? ? ? ? ? ? ? ? ? ? String line = value.toString();
? ? ? ? ? ? ? ? ? ? ? ? StringTokenizer tokenizer = new StringTokenizer(line);
? ? ? ? ? ? ? ? ? ? ? ? while (tokenizer.hasMoreTokens()) {
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? word.set(tokenizer.nextToken());
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? context.write(word, one);
? ? ? ? ? ? ? ? ? ? ? ? }
? ? ? ? ? ? ? ? }
? ? ? ? }

? ? ? ? public static class Reduce extends Reducer<Text, LongWritable, Text, LongWritable> {
? ? ? ? ? ? ? ? @Override
? ? ? ? ? ? ? ? public void reduce(Text key, Iterable<LongWritable> values, Context context)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? throws IOException, InterruptedException {
? ? ? ? ? ? ? ? ? ? ? ? long sum = 0;
? ? ? ? ? ? ? ? ? ? ? ? for (LongWritable val : values)??{
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? sum += val.get();
? ? ? ? ? ? ? ? ? ? ? ? }
? ? ? ? ? ? ? ? ? ? ? ? context.write(key, new LongWritable(sum));
? ? ? ? ? ? ? ? }
? ? ? ? }

? ? ? ? public static void main(String[] args) throws Exception {
? ? ? ?
? ? ? ? ? ? ? ? Configuration cfg = new Configuration();
? ? ? ? ? ? ? ???Job job = new Job(cfg);? ?? ?? ?
? ? ? ? ? ? ? ???job.setJarByClass(WordCount1.class);? ?

? ? ? ? ? ? ? ? job.setJobName("wordcount1"); // 設置一個用戶定義的job名稱
? ? ? ? ? ? ? ?
? ? ? ? ? ? ? ? job.setOutputKeyClass(Text.class); // 為job的輸出數據設置Key類
? ? ? ? ? ? ? ? job.setOutputValueClass(LongWritable.class); // 為job輸出設置value類
? ? ? ? ? ? ? ? job.setMapperClass(Map.class); // 為job設置Mapper類
? ? ? ? ? ? ? ? job.setCombinerClass(Reduce.class); // 為job設置Combiner類
? ? ? ? ? ? ? ? job.setReducerClass(Reduce.class); // 為job設置Reduce類
? ? ? ? ? ? ? ?
? ? ? ?
? ? ? ? ? ? ? ?? ?? ?? ?? ?

? ? ? ? ? ? ? ? FileInputFormat.setInputPaths(job, new Path(args[0]));
? ? ? ? ? ? ? ? FileOutputFormat.setOutputPath(job, new Path(args[1]));
? ? ? ? ? ? ? ? job.waitForCompletion(true);
? ? ? ? }

}

轉載于:https://www.cnblogs.com/qiumingcheng/p/5396369.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/257372.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/257372.shtml
英文地址，請注明出處：http://en.pswp.cn/news/257372.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！