hadoop5--mapreduce設計模式

運行結果附圖

本節課程主要內容為學習MapReduc設計模式,并編寫java程序對日志文件進行處理。

課本上介紹的MapReduce的設計模式主要包含:計數(Counting),分類(Classification),過濾處理(Filtering),排序(Sorting),去重計數(Distinct Counting),相關計數(Cross-Correlation).

本次作業選取了其中兩個設計模式進行練習:排序(Sorting) ,去重計數(Distinct Counting)

  1. 排序(Sorting)

    (1) 設計模式思想:

    map對每條記錄的排序屬性進行計算,得出排序屬性的值
    reduce對同一分組下的記錄按照排序屬性值進行排序

    (2) 目標問題:

    對access.log中的每個用戶的每條記錄的總數據流量(上行流量+下行流量)按照從小到大的順序輸出

    (3) java代碼主要思路:

    問題中的排序屬性值為數據總流量,故在map階段計算出每條數據的總流量,又因為是要對每個用戶的總流量進行排序,
    故map的輸出key為userid,value為原始數據記錄以及排序屬性(即總流量)
    reduce階段就是對同一用戶的所有記錄按照其總流量進行排序,java代碼中具體實現是將同一用戶的所有帶有總流量的記錄存放到一個ArrayList中,
    然后使用Collections.sort(list,comparactor)進行排序,在comparactor中override的compare方法中依據總流量進行了升序排序

    (4) java代碼截圖如下:

    2015-04-26 17:21:41 的屏幕截圖

    2015-04-26 17:22:24 的屏幕截圖

    (5) 運行結果如下:

    st

    st2

    st3

  2. 去重計數(Distinct Counting)

    (1) 設計模式思想:

    分為兩個步驟,步驟一中map輸出屬性組合為key,計數1為value的結果,reduce僅輸出屬性組合,相當于完成了去重工作

    步驟二中map對屬性組合中的一個屬性進行1的計數,reduce階段將計數累加,完成了計數工作

    (2) 目標問題:

    對access.log文件中的網址的不同用戶訪問數進行計數

    (3) java代碼主要思路:

    使用了兩個job實現的,每一個job中一個map一個reduce.

    第一階段的map輸出以userid與hostname組成的屬性組合為key,計數1為value;reduce輸出的就是屬性組合

    第二階段的map輸出以hostname為key,計數1為value;reduce對每個hostname下的計數1累加完成計數

    (4) java代碼截圖如下:

    因為使用了兩個job完成任務,所以在main函數中有一系列配置工作完成連個job的設置和連接

    2015-04-26 19:02:47 的屏幕截圖

    2015-04-26 19:03:12 的屏幕截圖

    2015-04-26 19:04:05 的屏幕截圖

    2015-04-26 19:25:40 的屏幕截圖

    (5)運行結果如下:

    newcd

    newcd1

    newcd2

    newcd3

問題記錄

在第二個設計模式的實現過程中因為涉及到兩個job,所以要完成一系列的配置工作,通過上網查找學習

基本的配置步驟如下:

(1)分別創建兩個Job對象job1,job2 為兩個job配置好相應的Map類,Reduce類,輸出類型,以及輸入路徑和輸出路徑,注意job2的輸入路徑為job1的輸出路徑,即job2直接處理job1的結果

(2)分別創建兩個ControlledJob對象ctrljob1和ctrljob2,利用setJob()方法設置其job分別為job1和job2

(3)設置ctrljob1和ctrljob2的依賴關系,保證job2的啟動依賴與job1的完成

ctrljob2.addDependingJob(ctrljob1);

(4)創建主控制JobControl對象 jobCtrl,并將ctrljob1,ctrljob2加入進去

jobCtrl.addJob(ctrljob1);jobCtrl.addJob(ctrljob2);

(5)創建線程,執行jobCtrl,直至jobCtrl完成所有任務,停止jobCtrl

轉載于:https://www.cnblogs.com/ivywenyuan/p/4579372.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/374935.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/374935.shtml
英文地址,請注明出處:http://en.pswp.cn/news/374935.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

ES5中新增的Array方法詳細說明

http://www.zhangxinxu.com/wordpress/2013/04/es5%E6%96%B0%E5%A2%9E%E6%95%B0%E7%BB%84%E6%96%B9%E6%B3%95/轉載于:https://www.cnblogs.com/lmw425317/p/5339539.html

jqGrid,REST,AJAX和Spring MVC集成

兩年多以前,我寫了一篇關于兩個如何在Struts2中實現優雅的CRUD的文章。 實際上,我必須就該主題寫兩篇文章,因為該主題如此廣泛。 今天,我采用了一套更為流行的,完善的框架和庫,采用了更為輕量級的現代方法。…

Java-馬士兵設計模式學習筆記-代理模式--動態代理 修改成可以代理任意接口

一、概述 1.目標:把Proxy修改成可以代理任意接口及其任意方法 2.思路: (1)代理任意接口:把接口類型作為參數傳給Proxy的newProxyInstance(Class interfze) (2)代理任意方法:用interfze.getMethods()取出所有方法,拼接實…

PTA習題

PTA習題 PTA浙大版《C語言程序設計(第3版)》 題目集5-6 水仙花數是指一個N位正整數(N≥3),它的每個位上的數字的N次冪之和等于它本身。 本題要求編寫兩個函數,一個判斷給定整數是否水仙花數,…

acdream 1409 Musical 狀壓DP

鏈接:http://acdream.info/problem?pid1409 題意:整個國家有n座城市,每座城市有三種粉絲。 第一種一周看一場音樂劇,挑選的音樂劇是已經在周圍城市播放上演過的次數最多的音樂劇中的隨機一個。 另外一種每天看一場音樂劇&#xf…

真正的模塊化Web應用程序:為什么沒有開發標準?

OSGI , SpringSource , Jboss模塊 ,J2EE和清單永遠不會結束。所有這些技術都向他們的最終用戶/開發人員保證了相同的東西,或多或少是Java模塊化Web應用程序(?)。 但是,我們當中有多少…

C語言5-7習題

本題要求實現一個函數&#xff0c;用下列公式求cos(x)的近似值&#xff0c;精確到最后一項的絕對值小于e&#xff1a; #include <stdio.h> #include <math.h>double funcos( double e, double x );int main() { double e, x;scanf("%lf %lf", &…

JDBC批處理executeBatch

JDBC運行SQL聲明&#xff0c;有兩個處理接口&#xff0c;一PreparedStatement,Statement,一般程序JDBC有多少仍然比較PreparedStatement 只要運行批處理&#xff0c;PreparedStatement少一點Statement ps conn.prepareStatement(sql); for(int i 0;i<10;i){ ps.setString(…

BC div2補題以及 復習模除 逆元__BestCoder Round #78 (div.2)

第一題沒話說 智商欠費 加老柴輔導終于過了 需要在意的是數據范圍為2的63次方-1 三個數相加肯定爆了 四邊形的定義  任意邊小于其余三邊之和 換句話說就是  最長邊小于其余三邊之和 這樣的話問題轉化為 最長邊依次減其余三邊的結果是否小于等于0 還有一點是題目出現0邊 即最…

習題6-1 分類統計字符個數 (15 分)

本題要求實現一個函數&#xff0c;統計給定字符串中英文字母、空格或回車、數字字符和其他字符的個數。 函數接口定義&#xff1a; void StringCount( char s[] );其中 char s[] 是用戶傳入的字符串。函數StringCount須在一行內按照 letter 英文字母個數, blank 空格或回車…

Servlet 3.0異步處理可將服務器吞吐量提高十倍

Servlet是Java中處理服務器端邏輯的主要組件&#xff0c;新的3.0規范引入了一些非常有趣的功能&#xff0c;其中異步處理是最重要的功能之一。 可以利用異步處理來開發高度可伸縮的Web應用程序。 使用此功能可以有效地構建Web 2.0站點和AJAX應用程序。 我們的JCG合作伙伴之一To…

使用secureCRT連接VMware-Ubuntukylin虛擬機

使用SecureCRT連接VMware時總是提醒主機拒絕連接。這時可以使用sudo apt-get install openssh-server openssh-client&#xff0c;在主機上安裝ssh. 安裝成功后&#xff0c;可以連接到主機了。 如果顯示遠程主機拒絕連接。則可以使用如下方法。 VMware里面裝的是Ubuntukylin版本…

加載音頻Audio

var cameraAudio new Audio(); cameraAudio.src camera.wav;// 設置音頻對象的屬性,預加載視頻 var options_audio { preload : auto } for(var key in options_audio){ if(options_audio.hasOwnProperty(key) && (key in cameraAudio)){ cameraAudio[key] opti…

習題6-2 使用函數求特殊a串數列和 (20 分)

給定兩個均不超過9的正整數a和n&#xff0c;要求編寫函數求aaaaaa?aa?a&#xff08;n個a&#xff09;之和。 int fn( int a, int n ); int SumA( int a, int n );其中函數fn須返回的是n個a組成的數字&#xff1b;SumA返回要求的和。 我的代碼&#xff1a; int fn( int a, i…

Java中可怕的雙重檢查鎖定成語

本文討論的問題不是新問題&#xff0c;但即使是經驗豐富的開發人員也仍然很棘手。 單例模式是常見的編程習慣。 但是&#xff0c;當與多個線程一起使用時&#xff0c;必須進行某種類型的同步&#xff0c;以免破壞代碼。 Khangaonkar報告中的 JCG合作伙伴Manoj Khangaonkar在一篇…

國內有哪些好的刷題網站?

http://www.zhihu.com/question/25574458 Luau Lawrence&#xff0c;Data Mining 弱雞 / PhDNTU 溫夢強、石一帆、知乎用戶 等人贊同 - Welcome To PKU JudgeOnline 北京大學的Online Judge。POJ上面的題目有點老了&#xff0c;但好處是做的人多&#xff0c;經典算法題多&…

IE版本判斷

我們常常會在網頁的HTML里面看到形如[if lte IE 9]……[endif]的代碼&#xff0c;表示的是限定某些瀏覽器版本才能執行的語句&#xff0c;那么這些判斷語句的規則是什么呢&#xff1f;請看下文&#xff1a; <!--[if !IE]><!--> 除IE外都可識別 <!--<![endif]…

Js 流程控制

流程控制 順序、分支、循環 順序結構 代碼一行一行從上往下執行并解析 分支結構 if語句 switch語句 if語句 單分支 if(條件表達式){ //語句塊 } 含義&#xff1a;當條件表達式為真的時候就執行里面的語句塊 示例&#xff1a; 雙分支&#xff1a; if(條件表達式){ //語句塊1 }el…

習題6-3 使用函數輸出指定范圍內的完數 (20 分)

本題要求實現一個計算整數因子和的簡單函數&#xff0c;并利用其實現另一個函數&#xff0c;輸出兩正整數m和n&#xff08;0<m≤n≤10000&#xff09;之間的所有完數。所謂完數就是該數恰好等于除自身外的因子之和。例如&#xff1a;6123&#xff0c;其中1、2、3為6的因子。…

速覽Java 7 MethodHandle及其用法

由于Java的Reflection API&#xff0c;我們已經能夠在運行時檢查和更改程序執行。 特別是&#xff0c;我們可以在運行時觀察接口/類/方法和字段&#xff0c;而在編譯時不知道它們的名稱。 JDK 7為這種動態/運行時檢查引入了一個新的參與者&#xff0c;即方法句柄&#xff08;即…