代碼實現——MapReduce統計單詞出現次數

需求

對以下txt文檔進行單詞出現次數統計(txt文檔在/Users/lizhengi/test/input/目錄下)

hadoop take spring
spark hadoop hdfs
mapreduce take Tomcat
tomcat
kafka kafka flume
flume
hive

實現

1、新建Maven工程,pom.xml依賴如下

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd"><modelVersion>4.0.0</modelVersion><groupId>com.lizhengi</groupId><artifactId>Hadoop-API</artifactId><version>1.0-SNAPSHOT</version><dependencies><dependency><groupId>junit</groupId><artifactId>junit</artifactId><version>RELEASE</version></dependency><dependency><groupId>org.apache.logging.log4j</groupId><artifactId>log4j-core</artifactId><version>2.8.2</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-common</artifactId><version>3.2.1</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-client</artifactId><version>3.2.1</version></dependency><dependency><groupId>org.apache.hadoop</groupId><artifactId>hadoop-hdfs</artifactId><version>3.2.1</version></dependency></dependencies></project>

2、src/main/resources目錄下,新建一個文件,命名為“log4j.properties”,添加內容如下

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/spring.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

3、編寫Mapper類-WcMapper

package com.lizhengi.wordcount;import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;/*** @author lizhengi* @create 2020-07-20*/
public class WcMapper extends Mapper<LongWritable, Text, Text, IntWritable> {Text k = new Text();IntWritable v = new IntWritable(1);@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {// 1 拿到傳入進來的一行內容,把數據類型轉化為StringString line = value.toString();// 2 將這一行內容按照分隔符進行一行內容的切割 切割成一個單詞數組String[] words = line.split(" ");// 3 遍歷數組,每出現一個單詞  就標記一個數字1  <單詞,1>for (String word : words) {//使用mr程序的上下文context 把mapper階段處理的數據發送出去//作為reduce節點的輸入數據k.set(word);context.write(k, v);}}
}

4、編寫Reducer類-WcReducer

package com.lizhengi.wordcount;import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;/*** @author lizhengi* @create 2020-07-20*/
public class WcReducer extends Reducer<Text, IntWritable, Text, IntWritable>{int sum;IntWritable v = new IntWritable();@Overrideprotected void reduce(Text key, Iterable<IntWritable> values,Context context) throws IOException, InterruptedException {// 1 定義一個計數器sum = 0;// 2 遍歷一組迭代器,把每一個數量1累加起來就構成了單詞的總次數for (IntWritable count : values) {sum += count.get();}// 3 輸出最終的結果v.set(sum);context.write(key,v);}
}

5、編寫Driver驅動類-WcDriver

package com.lizhengi.wordcount;import java.io.IOException;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;/*** @author lizhengi* @create 2020-07-20*/
public class WcDriver {public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {// 1 獲取配置信息以及封裝任務Configuration configuration = new Configuration();Job job = Job.getInstance(configuration);// 2 設置jar加載路徑job.setJarByClass(WcDriver.class);// 3 設置map和reduce類job.setMapperClass(WcMapper.class);job.setReducerClass(WcReducer.class);// 4 設置map輸出job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);// 5 設置最終輸出kv類型job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);// 6 設置輸入和輸出路徑FileInputFormat.setInputPaths(job, "/Users/lizhengi/test/input");FileOutputFormat.setOutputPath(job, new Path("/Users/lizhengi/test/output"));// 7 提交boolean result = job.waitForCompletion(true);System.exit(result ? 0 : 1);}
}

結果

[root@carlota1]ls /Users/lizhengi/test/output/
#多了兩個文件
_SUCCESS	part-r-00000
[root@carlota1 output]cat part-r-00000
flume	2
hadoop	2
hdfs	1
hive	1
kafka	2
mapreduce	1
spark 	1
spring	1
take	2
tomcat		2

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/535812.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/535812.shtml
英文地址,請注明出處:http://en.pswp.cn/news/535812.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MIP個性化組件提交規范

MIP個性化組件一般用來實現前后端數據傳輸或特殊的交互效果&#xff0c;由廣大開發者貢獻。出于性能、可維護性等方面的考慮&#xff0c;開發者在新增組件或升級組件時&#xff0c;請遵守以下規范。 規范中的必須&#xff08;MUST&#xff09;&#xff0c;禁止&#xff08;MUS…

jar包在Hadoop集群上測試(MapReduce)

本片使用MapReduce——統計輸出給定的文本文檔每一個單詞出現的總次數的案例進行&#xff0c;jar包在集群上測試 1、添加打包插件依賴 <build><plugins><plugin><artifactId>maven-compiler-plugin</artifactId><version>3.6.2</versio…

代碼實現——MapReduce實現Hadoop序列化

簡單介紹 1、什么是序列化 序列化&#xff1a;把內存中的對象&#xff0c;轉換成字節序列(或其他數據傳輸協議)以便于存儲到磁盤(持久化)和網絡傳輸。反序列化&#xff1a;將收到字節序列(或其他數據傳輸協議)或者是磁盤的持久化數據&#xff0c;轉換成內存中的對象。 2、 為…

日常問題——hadoop啟動后發現namenode沒有啟動,但是排除了格式化過度的問題

hadoop啟動后發現namenode沒有啟動&#xff0c;網上說的格式化過度的問題我是沒有的&#xff0c;因為我只格式化過一次。之后查看日志 vim /opt/hadoop/logs/namenode對應的log文件 發現 2020-03-03 23:16:21,868 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: Na…

Zookeeper3.6.1常用的Shell命令

1、客戶端連接 zkCli.sh zkCli.sh -server host:port2、顯示節點信息 -s狀態 -w監聽器 -R遞歸 ls [-s] [-w] [-R] path3、創建節點 -s加序列號 -e臨時節點 create [-s] [-e] path [data]4、獲取節點值 -s狀態 -w監聽器 get [-s] [-w] path5、設置節點值 -s狀態 set [-s] […

CentOS7下MySQL5.7的安裝

1、下載MySQL 安裝包&#xff1a; wget https://dev.mysql.com/get/mysql57-community-release-el7-11.noarch.rpmyum -y localinstall mysql57-community-release-el7-11.noarch.rpm 2、在線安裝MySQL yum -y install mysql-community-server 3、啟動mysql 服務 systemct…

CentOS7下Hive的安裝配置

0、安裝前提 安裝配置jdk與hadoop安裝配置好mysql 1、下載上傳 下載hive&#xff0c;地址:http://mirror.bit.edu.cn/apache/hive/上傳到指定位置scp apache-hive-3.1.2-bin.tar.gz rootCarlota1:/usr/local/apps 2、解壓安裝 tar -zxvf apache-hive-3.1.2-bin.tar.gzmv a…

Hive常用的操作命令

Hive常用的交互命令 hive 進入數據庫hive -e 不進入hive的交互窗口執行sql語句hive -f 執行sql腳本hive -help 查看幫助 Hive常用數據庫的操作命令 show databases;查看hive中的所有數據庫use default;用default數據庫create database myhive ;創建數據庫create database if…

Hive常見的屬性配置

配置文件 默認配置文件&#xff1a;hive-default.xml 用戶自定義配置文件&#xff1a;hive-site.xml 用戶自定義配置會覆蓋默認配置。另外&#xff0c;Hive也會讀入Hadoop的配置&#xff0c;因為Hive是作為Hadoop的客戶端啟動的&#xff0c;Hive的配置會覆蓋Hadoop的配置。配…

什么是集群(cluster)

1、集群 1.1 什么是集群 簡單的說&#xff0c;集群(cluster)就是一組計算機&#xff0c;它們作為一個整體向用戶提供一組網絡資源。這些單個的計算機系統就是集群的節點(node)。一個理想的集群是&#xff0c;用戶從來不會意識到集群系統底層的節點&#xff0c;在他/她們看來&am…

Kafka:集群部署

0、環境準備 安裝jdk&#xff0c;配置環境提前安裝zookeeper 1、解壓安裝 將tar壓縮包上傳tar -zxvf kafka_2.12-2.5.0.tgz 2、配置變量環境 vi /etc/profile #kafka export KAFKA_HOME/usr/local/apps/kafka_2.12-2.5.0 export PATH$PATH:$KAFKA_HOME/binsource /etc/pr…

集群(cluster)amp;高可用性(HA)概念

1.1 什么是集群 簡單的說&#xff0c;集群&#xff08;cluster&#xff09;就是一組計算機&#xff0c;它們作為一個整體向用戶提供一組網絡資源。這些單個的計算機系統就是集群的節點&#xff08;node&#xff09;。一個理想的集群是&#xff0c;用戶從來不會意識到集群系…

Kafka:常用命令

啟動Kafka&#xff1a;kafka-server-start.sh -daemon $KAFKA_HOME/config/server.properties創建一個叫test的話題&#xff0c;有兩個分區&#xff0c;每個分區3個副本&#xff1a;kafka-topics.sh --zookeeper localhost:2181 --create --topic test --replication-factor 3 …

MySQL Cluster 群集安裝環境介紹

MySQL Cluster 群集安裝環境介紹 MySQL 群集支持的操作系統:* Linux (Red Hat, Novell/SUSE) * Sun Solaris * IBM AIX * HP-UX * Mac OS X MySQL 軟件:* MySQL Max 版本 (並不是指 MaxDB)* MySQL NDB Cluster 系統最低需求&#xff1a; OS&#xff1a; Linux ( Turbolinux…

八股文打卡day9——計算機網絡(9)

面試題&#xff1a;HTTP1.0和HTTP1.1的區別&#xff1f; 我的回答&#xff1a; 1.長連接&#xff1a;HTTP1.1引入了長連接的機制&#xff0c;connection&#xff1a;keep-alive。一個TCP連接可以進行多次請求和響應。而HTTP1.0每次請求響應一次都得建立連接、斷開連接。 引入…

使用ogg實現oracle到kafka的增量數據實時同步

Oracle Golden Gate軟件是一種基于日志的結構化數據復制備份軟件&#xff0c;它通過解析源數據庫在線日志或歸檔日志獲得數據的增量變化&#xff0c;再將這些變化應用到目標數據庫&#xff0c;從而實現源數據庫與目標數據庫同步。 0、本篇中源端和目標端的一些配置信息&#xf…

轉載:35歲前成功的12條黃金法則

習慣的力量是驚人的。習慣能載著你走向成功&#xff0c;也能馱著你滑向失敗。如何選擇&#xff0c;完全取決于你自己。 1.習慣的力量&#xff1a;35歲以前養成好習慣 你想成功嗎&#xff1f;那就及早培養有利于成功的好習慣。 習慣的力量是驚人的&#xff0c;35歲…

JDK源碼解析之 Java.lang.Object

Object類是Java中其他所有類的祖先&#xff0c;沒有Object類Java面向對象無從談起。作為其他所有類的基類&#xff0c;Object具有哪些屬性和行為&#xff0c;是Java語言設計背后的思維體現。 Object類位于java.lang包中&#xff0c;java.lang包包含著Java最基礎和核心的類&…

將z-blog改成英文blog所遇到的問題

1.將z-blog中文章日期中的“年,月,日”改成英文 相關模板:b_article-multi.htmlb_article-single.html默認用的時間標簽是<#article/posttime/longdate#> 即 "2007年1月13日" 這樣的形式你可以換成 <#article/posttime/shortdate#>即 "2…

JDK源碼解析之 Java.lang.String

String 類代表字符串。Java 程序中的所有字符串字面值&#xff08;如 “abc” &#xff09;都作為此類的實例實現。 字符串是常量&#xff1b;它們的值在創建之后不能更改。字符串緩沖區支持可變的字符串。因為 String 對象是不可變的&#xff0c;所以可以共享。 一、類定義 p…