運行Hadoop自帶的wordcount單詞統計程序

1.使用示例程序實現單詞統計


(1)wordcount程序

? ? wordcount程序在hadoop的share目錄下,如下:

1
2
3
4
5
6
7
8
9
[root@leaf?mapreduce]#?pwd
/usr/local/hadoop/share/hadoop/mapreduce
[root@leaf?mapreduce]#?ls
hadoop-mapreduce-client-app-2.6.5.jar?????????hadoop-mapreduce-client-jobclient-2.6.5-tests.jar
hadoop-mapreduce-client-common-2.6.5.jar??????hadoop-mapreduce-client-shuffle-2.6.5.jar
hadoop-mapreduce-client-core-2.6.5.jar????????hadoop-mapreduce-examples-2.6.5.jar
hadoop-mapreduce-client-hs-2.6.5.jar??????????lib
hadoop-mapreduce-client-hs-plugins-2.6.5.jar??lib-examples
hadoop-mapreduce-client-jobclient-2.6.5.jar???sources

????就是這個hadoop-mapreduce-examples-2.6.5.jar程序。

?

(2)創建HDFS數據目錄

????創建一個目錄,用于保存MapReduce任務的輸入文件:

1
[root@leaf?~]#?hadoop?fs?-mkdir?-p?/data/wordcount

????創建一個目錄,用于保存MapReduce任務的輸出文件:

1
[root@leaf?~]#?hadoop?fs?-mkdir?/output

????查看剛剛創建的兩個目錄:

1
2
3
[root@leaf?~]#?hadoop?fs?-ls?/
drwxr-xr-x???-?root?supergroup??????????0?2017-09-01?20:34?/data
drwxr-xr-x???-?root?supergroup??????????0?2017-09-01?20:35?/output


(3)創建一個單詞文件,并上傳到HDFS

????創建的單詞文件如下:

1
2
3
4
5
6
[root@leaf?~]#?cat?myword.txt?
leaf?yyh
yyh?xpleaf
katy?ling
yeyonghao?leaf
xpleaf?katy

????上傳該文件到HDFS中:

1
[root@leaf?~]#?hadoop?fs?-put?myword.txt?/data/wordcount

????在HDFS中查看剛剛上傳的文件及內容:

1
2
3
4
5
6
7
8
[root@leaf?~]#?hadoop?fs?-ls?/data/wordcount
-rw-r--r--???1?root?supergroup?????????57?2017-09-01?20:40?/data/wordcount/myword.txt
[root@leaf?~]#?hadoop?fs?-cat?/data/wordcount/myword.txt
leaf?yyh
yyh?xpleaf
katy?ling
yeyonghao?leaf
xpleaf?katy


(4)運行wordcount程序

????執行如下命令:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
[root@leaf?~]#?hadoop?jar?/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.5.jar?wordcount?/data/wordcount?/output/wordcount
...
17/09/01?20:48:14?INFO?mapreduce.Job:?Job?job_local1719603087_0001?completed?successfully
17/09/01?20:48:14?INFO?mapreduce.Job:?Counters:?38
????????File?System?Counters
????????????????FILE:?Number?of?bytes?read=585940
????????????????FILE:?Number?of?bytes?written=1099502
????????????????FILE:?Number?of?read?operations=0
????????????????FILE:?Number?of?large?read?operations=0
????????????????FILE:?Number?of?write?operations=0
????????????????HDFS:?Number?of?bytes?read=114
????????????????HDFS:?Number?of?bytes?written=48
????????????????HDFS:?Number?of?read?operations=15
????????????????HDFS:?Number?of?large?read?operations=0
????????????????HDFS:?Number?of?write?operations=4
????????Map-Reduce?Framework
????????????????Map?input?records=5
????????????????Map?output?records=10
????????????????Map?output?bytes=97
????????????????Map?output?materialized?bytes=78
????????????????Input?split?bytes=112
????????????????Combine?input?records=10
????????????????Combine?output?records=6
????????????????Reduce?input?groups=6
????????????????Reduce?shuffle?bytes=78
????????????????Reduce?input?records=6
????????????????Reduce?output?records=6
????????????????Spilled?Records=12
????????????????Shuffled?Maps?=1
????????????????Failed?Shuffles=0
????????????????Merged?Map?outputs=1
????????????????GC?time?elapsed?(ms)=92
????????????????CPU?time?spent?(ms)=0
????????????????Physical?memory?(bytes)?snapshot=0
????????????????Virtual?memory?(bytes)?snapshot=0
????????????????Total?committed?heap?usage?(bytes)=241049600
????????Shuffle?Errors
????????????????BAD_ID=0
????????????????CONNECTION=0
????????????????IO_ERROR=0
????????????????WRONG_LENGTH=0
????????????????WRONG_MAP=0
????????????????WRONG_REDUCE=0
????????File?Input?Format?Counters?
????????????????Bytes?Read=57
????????File?Output?Format?Counters?
????????????????Bytes?Written=48

????

(5)查看統計結果

????如下:

1
2
3
4
5
6
7
[root@leaf?~]#?hadoop?fs?-cat?/output/wordcount/part-r-00000
katy????2
leaf????2
ling????1
xpleaf??2
yeyonghao???????1
yyh?????2




本文轉自 xpleaf 51CTO博客,原文鏈接:http://blog.51cto.com/xpleaf/1962271,如需轉載請自行聯系原作者

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/540032.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/540032.shtml
英文地址,請注明出處:http://en.pswp.cn/news/540032.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java for 線程_如何在for循環中使用多線程

import java.util.concurrent.Executor;import java.util.concurrent.Executors;public class Test {private final static Executor executor Executors.newCachedThreadPool();//啟用多線程public static void main(String[] args) {for(int i0;i<3;i){final int ji; …

office2010安裝出現錯誤1935的解決方法

安裝Office2010 professional plus 2010過程中彈出錯誤&#xff0c;提示錯誤 1935&#xff0c;安裝程序集組件的過程中發生錯誤。HRESULT:0x800070BC9 如下圖所示&#xff1a; 這個錯誤是由于電腦.net framework 未安裝或安裝有錯誤導致的。解決方法為&#xff1a;下載.net fra…

java linux 服務_java項目部署Linux服務器幾種啟動方式總結經驗

一&#xff1a;兩種部署包&#xff1a;部署之前先說下兩種包&#xff0c;java項目部署到服務器一般有用war包的&#xff0c;也有用jar包的&#xff0c;微服務spring-cloud普及后大部分打包都是jar&#xff0c;部署之前先搞清楚自己要打war包還是jar包&#xff0c;下面小介紹兩種…

HTML溫故知新1

什么是 HTML&#xff1f; HTML 是用來描述網頁的一種語言。 HTML 指的是超文本標記語言 (Hyper Text Markup Language)HTML 不是一種編程語言&#xff0c;而是一種標記語言 (markup language)標記語言是一套標記標簽 (markup tag)HTML 使用標記標簽來描述網頁 HTML 標簽 HTML 標…

java 接口與包_java常用類包接口

類StringIntegerLongFileDateThread(java.lang.ThreadThread類的定義&#xff1a;public class Thread extends Object implements Runnable)包java.lang.*;java.io.*;java.util.*;java.sql.*;java.math.*;接口:ComparableCollectionMapListRunnable(java.lang.Runnable 該接口…

當使用easyui時,表單的onchange事件失效

功能&#xff1a;新增信徒頁面&#xff0c;當選擇未受洗&#xff0c;設置受洗時間&#xff0c;教堂選項 disabled。 步驟&#xff1a; 在<select>標簽里加入 οnchange"xxxxx()"。 在js里編寫xxxxx()方法。 測試 教堂選項沒有 disabled。 原因&#xff1…

shell腳本:批量修改文件名(文件名中添加字符)

舉例如下&#xff1a;批量創建10個隨機字符串的文件&#xff0c;要求每個文件名后面添加_aaa,后綴名不變&#xff1b; [rootlocalhost goodboy]# ls adddbbdedf.html baacjaiija.html bhcfaabcfh.html dgjdcdfbca.html efejadfdji.html agdhcdeaje.html bgffbffjcg.html …

java 格式化小數_java-如何格式化小數位數精度

正如評論中指出的那樣,如果您只有一個String表示形式,那么就無法判斷它實際上是否有重復的部分,或者精度是否不夠高.更新我正在研究一個用分子和分母表示為BigIntegers的有理數的類(并假定盡可能地簡化).在那里,我實現了一種以十進制字符串形式表示的方法,并提出了以下方法&…

當使用easyui時,jquery的設置disabled屬性方法失效

功能&#xff1a;選擇未受洗&#xff0c;設置受洗時間&#xff0c;教堂選項 disabled 步驟&#xff1a; 使用了常規的jquery的方法 //兩種方法設置disabled屬性$(#areaSelect).attr("disabled",true);$(#areaSelect).attr("disabled","disabled&quo…

用戶登錄提交前,密碼加密傳輸

需求&#xff1a; 因為OA放在外網&#xff0c;為了提高安全性&#xff0c;用戶登錄時&#xff0c;密碼加密傳輸&#xff0c;數據庫密碼加密保存。 解決方案&#xff1a; 前臺加密用JQUERY MD5插件&#xff0c;這個工具從網上下載的。 后臺密碼加密&#xff0c;用java的MD5工…

java 內存分布_一圖看懂JVM內存分布,永久記住!

經常在說JVM內存分布&#xff0c;也經常去看&#xff0c;但是總是在面試的時候說不清楚或者模糊&#xff0c;甚至有可能說錯&#xff0c;只有真正的理解&#xff0c;并且在心中有一個總結構圖才能記得清楚說的清楚&#xff01;| JVM總覽圖java內存區域主要分程序計數器、Java虛…

Winodows10 安全登錄(Administrator賬戶與Microsoft Account關聯

我們都知道windows系統最大的管理員是administrator&#xff0c;linux是root&#xff0c;從windows7時代開始&#xff0c;安裝操作系統的時候會在最后一步提示創建一個本地賬戶一直延續到windows8、windows8.1、windows10。近期微軟發布了windows10后&#xff0c;很多用戶都開始…

微信企業號三個連接模式

在銀行里做微信企業號開發有半年多了&#xff0c;因銀行封裝了調用微信企業號的方法&#xff0c;說是微信企業號開發&#xff0c;其實就是jsp&#xff0c;java代碼的編寫&#xff0c;銀行用的開發工具是EOS&#xff0c;對這個工具我只想說&#xff0c;用久了&#xff0c;就找不…

java opencv安裝路徑_Java搭建opencv開發環境

由本菜13歷經4天才搭建的好的Java OpenCv開發環境帶來 .PS:不保證過程都是必須的,必要的.反正我自己成功了... 嘿嘿嘿.官方網站SourceForge點擊FilesFiles因為我的機器是Mac,所以選擇了unix. 然后下載3.4.3版本3.4.3PS:主要是因為剛開始接觸這個OpenCv的時候是用HomeBrew裝的, …

iBatis——執行原理

a) 執行原理 1、 將一個對象作為 參數&#xff08;對象可以是Java Bean&#xff0c;Map實現和基本類型的包裝類&#xff09;&#xff0c;參數對象將為SQL修改語句和查詢語句設定參數值。 2、 執行 mapped statement。這是SQL Maps最重要的步驟。SQL Map框架將創建一個PreparedS…

讓IT工作者過度勞累的12個壞習慣

1. QQ、MSN、Gtalk&#xff0c;一個都不少。壞習慣 由于聊天對象與聊天內容的不可控制性&#xff0c;使用即時通訊軟件是降低工作效率的罪魁禍首。有調查顯示&#xff0c;使用即時通訊軟件&#xff0c;工作效率會降低 20%. 2. “總想多看一點點”——忘記上網的目的。 本想查找…

flux java_Java反應式框架Reactor中的Mono和Flux

1. 前言最近寫關于響應式編程的東西有點多&#xff0c;很多同學反映對Flux和Mono這兩個Reactor中的概念有點懵逼。但是目前Java響應式編程中我們對這兩個對象的接觸又最多&#xff0c;諸如Spring WebFlux、RSocket、R2DBC。我開始也對這兩個對象頭疼&#xff0c;所以今天我們就…

MySQL grant 權限,分別可以作用在多個層次上

1. grant 作用在整個 MySQL 服務器上&#xff1a;grant select on *.* to dbalocalhost; -- dba 可以查詢 MySQL 中所有數據庫中的表。grant all on *.* to dbalocalhost; -- dba 可以管理 MySQL 中的所有數據庫2. grant 作用在單個數據庫上&#xff1a;grant select on testdb…

用了2年的EOS的感受

EOS是普元信息技術股份有限公司開發的產品&#xff0c;核心是eclipse&#xff0c;給eclipse穿上了很多衣服。不知道普元公司給eclipse捐款了沒。 開發人員可以從它的官網免費下載&#xff0c;免費用。免費版的服務器最多鏈接數是5個人&#xff0c;這5個人在生產上行不通的&…

java 線程分組_Java多線程可以分組,還能這樣玩!

前面的文章&#xff0c;棧長和大家分享過多線程創建的3種方式《實現 Java 多線程的 3 種方式》。但如果線程很多的情況下&#xff0c;你知道如何對它們進行分組嗎&#xff1f;和 Dubbo 的服務分組一樣&#xff0c;Java 可以對相同性質的線程進行分組。來看下線程類 Thread 的所…