【分布式計算框架 MapReduce】高級編程—搜索日志數據分析

【分布式計算框架 MapReduce】高級編程—搜索日志數據分析

web/2025/9/17 9:46:50/文章來源:https://blog.csdn.net/m0_67830223/article/details/139996538

目錄

一、對于 sogou_500w_utf 數據，使用 MapReduce 編程模型完成對以下數據的分析任務

1. 統計 2011-12-30 日搜索記錄，每個時間段的搜索次數

（1）運行截圖

（2）源代碼

2. 統計 2011-12-30 日 3 點至 4 點之間，哪些 UID 訪問了搜狗引擎。

（1）運行截圖

（2）源代碼

二、有兩個輸入文件 A 和 B，使用 MapReduce 編程合并文件，得到輸出文件 C

1. 輸入文件A和B如下

2. 通過MapReduce編程合并文件得到outputC

3. 源代碼

一、對于 sogou_500w_utf 數據，使用 MapReduce 編程模型完成對以下數據的分析任務

1. 統計 2011-12-30 日搜索記錄，每個時間段的搜索次數

（每小時為一個單位，比如 0 點鐘多少次，1 點鐘多少次，2 點鐘多少次，一直到 23 點多少次）

（1）運行截圖

hadoop jar /home/2130502441ryx/SearchCountJob.jar org/ryx/SearchCountJob /sogou.500.utf8 /output5

?

hdfs dfs -ls /output5hdfs dfs -cat /output5/part-r-00000

（2）源代碼

① SearchCountMapper

② SearchCountReduct

③ SearchCountJob

2. 統計 2011-12-30 日 3 點至 4 點之間，哪些 UID 訪問了搜狗引擎。

（1）運行截圖

hadoop jar /home/2130502441ryx/UIDCountJob.jar org/ryx/SogouDriver /sogou.500.utf8 /output7

(下面截圖貼錯了，上面的運行命令才是正確的)

hdfs dfs -ls /output7hdfs dfs -cat /output7/part-r-00000

（2）源代碼

SogouMapper.java

SogouReducer.java

SogouDriver.java

二、有兩個輸入文件 A 和 B，使用 MapReduce 編程合并文件，得到輸出文件 C

輸入文件 A 的樣例如下：

20150101 x

20150102 y

20150103 x

20150104 y

20150105 z

20150106 x

輸入文件 B 的樣例如下：

20150101 y

20150102 y

20150103 x

20150104 z

20150105 y

根據輸入文件 A 和 B 合并得到的輸出文件 C 的樣例如下：

20150101 x

20150101 y

20150102 y

20150103 x

20150104 y

20150104 z

20150105 y

20150105 z

20150106 x

1. 輸入文件A和B如下

hdfs dfs -cat /inputA

hdfs dfs -cat /inputB

2. 通過MapReduce編程合并文件得到outputC

hadoop jar /home/2130502441ryx/MergeFiles.jar org/ryx/MergeFiles /inputA /inputB /outputC

hdfs dfs -cat /outputC/part-r-00000

3. 源代碼

① MergeMapper

② MergeReducer

③ MergeFiles

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/37253.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/37253.shtml
英文地址，請注明出處：http://en.pswp.cn/web/37253.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

2024最新初級會計職稱題庫來啦！！！

2024最新初級會計職稱題庫來啦！！！

16.根據增值稅法律制度的規定，下列各項中，屬于"提供加工、修理修配勞務"的是（）。 A.修理小汽車 B.修繕辦公樓 C.爆破 D.礦山穿孔答案：A 解析：選項AB：修理有形動產（…

閱讀更多...

【PL理論深化】(13) 變量與環境：文法結構 | 真假表達式：isZero E | let 表達式疊放 | 定義的規則 | 條件語句的使用

【PL理論深化】(13) 變量與環境：文法結構 | 真假表達式：isZero E | let 表達式疊放 | 定義的規則 | 條件語句的使用

💬 寫在前面：從現在開始，讓我們正式設計和實現編程語言。首先，讓我們擴展在之前定義的整數表達式語言，以便可以使用變量和條件表達式。目錄 0x00 文法結構 0x01 真假表達式：isZero E 0x02 let 表達式疊…

閱讀更多...

Elasticsearch 第四期:搜索和過濾

Elasticsearch 第四期:搜索和過濾

序 2024年4月，小組計算建設標簽平臺，使用ES等工具建了一個demo，由于領導變動關系，項目基本夭折。其實這兩年也陸陸續續接觸和使用過ES，兩年前也看過ES的官網，當時剛畢業半年多，由于歷史局限性導…

閱讀更多...

Java有沒有goto語句

Java有沒有goto語句

一、技術細節 Java作為一種廣泛使用的編程語言，其設計哲學強調清晰、簡潔和易于維護。在技術細節層面，Java確實支持goto語句作為關鍵字，但在實際編程中，goto語句并不被推薦使用。Java中的goto是保留字，主要用于兩個場…

閱讀更多...

chrome-base源碼分析(1)macros模塊

chrome-base源碼分析(1)macros模塊

Chrome-base源碼分析(2)之Macros模塊 Author：Once Day Date：2024年6月29日漫漫長路，才剛剛開始… 全系列文章請查看專欄: 源碼分析_Once-Day的博客-CSDN博客參考文檔: macros - Chromium Code SearchChrome base 庫詳解：工…

閱讀更多...

安全架構概述_2.安全架構的定義和范圍

安全架構概述_2.安全架構的定義和范圍

安全架構是架構面向安全性方向上的一種細分，比如細分領域含有運維架構、數據庫架構等。如果安全性體現在產品上，那么，通常的產品安全架構、安全技術體系架構和審計架構可組成三道防線。 （1）產品安全架構：構…

閱讀更多...

ArtTS系統能力-通知的學習（3.1）

ArtTS系統能力-通知的學習（3.1）

上篇回顧： ArtTS語言基礎類庫-容器類庫內容的學習(2.10.2） 本篇內容： ArtTS系統能力-通知的學習（3.1） 一、知識儲備 1. 基礎類型通知按內容分成四類： 類型描述NOTIFICATION_CONTENT_BASIC_TEXT普通文…

閱讀更多...

2024 Parallels Desktop for Mac 功能介紹

2024 Parallels Desktop for Mac 功能介紹

Parallels Desktop的簡介 Parallels Desktop是一款由Parallels公司開發的桌面虛擬化軟件，它允許用戶在Mac上運行Windows和其他操作系統。通過強大的技術支持，用戶無需重新啟動電腦即可在Mac上運行Windows應用程序，實現了真正的無縫切換。二…

閱讀更多...

普元EOS學習筆記-創建精簡應用

普元EOS學習筆記-創建精簡應用

前言本文依舊基于EOS8.3進行描述。在上一篇文章《EOS8.3精簡版安裝》中，我們了解到普元預編譯好的EOS的精簡版壓縮包，安裝后，只能進行低開，而無法高開。 EOS精簡版的高開方式是使用EOS開發工具提供的IDE，創建一個…

閱讀更多...

東軟睿馳總裁兼CTO杜強受邀出席 CICV 2024智能網聯汽車技術首腦（CTO）閉門峰會

東軟睿馳總裁兼CTO杜強受邀出席 CICV 2024智能網聯汽車技術首腦（CTO）閉門峰會

近日，第十一屆國際智能網聯汽車技術年會（CICV 2024）在北京舉辦，會議期間組織智能網聯汽車技術首腦（CTO）閉門峰會，邀請40余位技術領袖圍繞智能網聯汽車產業生態建設以及智能網聯汽車數據、算力和…

閱讀更多...

SQL語句查詢Cache數據庫中數據時對時間怎樣轉換

SQL語句查詢Cache數據庫中數據時對時間怎樣轉換

使用東華醫為HIS系統的用戶都知道，Cache數據庫中對于日期的存儲為幾萬的數字，比如，今天就是相對于1841年1月1日的第多少萬天，以這種形式進行表示；對于時間，也是以數字形式存儲，比如，…

閱讀更多...

Python的numpy簡單使用

Python的numpy簡單使用

1.可以調用引入numpy里面的函數，如add可以把倆數相加，也可以創建一個數組arr，arr.shape是數組arr的屬性，如果后有跟（）就是里面的一個函數 type()函數可以知道里面是什么類型變量.shape可以知道這個變量是…

閱讀更多...

BLEU和SPICE：機器翻譯與圖像描述的自動評估方法詳解

BLEU和SPICE：機器翻譯與圖像描述的自動評估方法詳解

BLEU和SPICE：機器翻譯與圖像描述的自動評估方法詳解在機器翻譯和圖像描述領域，評估模型性能是一個重要且復雜的問題。為了有效地評估機器生成的文本質量，我們需要一種自動、快速且可靠的方法。BLEU（Bilingual Evaluation Unders…

閱讀更多...

基于決策樹的旋轉機械故障診斷（Python）

基于決策樹的旋轉機械故障診斷（Python）

前置文章： 將一維機械振動信號構造為訓練集和測試集（Python） https://mp.weixin.qq.com/s/DTKjBo6_WAQ7bUPZEdB1TA 旋轉機械振動信號特征提取（Python） https://mp.weixin.qq.com/s/VwvzTzE-pacxqb9rs8hEVw import…

閱讀更多...

菲爾茲獎得主測試GPT-4o，經典過河難題未能破解！最強Claude 3.5回答離譜！

菲爾茲獎得主測試GPT-4o，經典過河難題未能破解！最強Claude 3.5回答離譜！

目錄 01 大言模型能否解決「狼-山羊-卷心菜」經典過河難題？ 02 加大難度：100只雞、1000只雞如何？ 01 大言模型能否解決「狼-山羊-卷心菜」經典過河難題？ 最近，菲爾茲獎得主Timothy Gowers分享了他測試GPT-4o的經歷&a…

閱讀更多...

游戲推薦: 植物大戰僵尸雜交版

游戲推薦: 植物大戰僵尸雜交版

下載地址網上一搜就有. 安裝就能玩. 2是顯血. 4顯示植物血, 5是加速. 都是左手主鍵盤的按鈕, 再按是取消. 比較刺激: ps: 設置里面還能打開自動收集陽光和金幣.

閱讀更多...

視頻融合共享平臺LntonCVS統一視頻接入平臺智慧安防應用方案

視頻融合共享平臺LntonCVS統一視頻接入平臺智慧安防應用方案

安防視頻監控平臺LntonCVS是一款擁有強大拓展性和靈活部署能力的綜合管理平臺。它支持多種主流標準協議，包括國標GB28181、RTSP/Onvif、RTMP等，同時兼容各廠家的私有協議和SDK，如海康Ehome、海大宇等。LntonCVS不僅具備傳統安防視頻監控功能&…

閱讀更多...

深入解析Tomcat：Java Web服務器（上）

深入解析Tomcat：Java Web服務器（上）

深入解析Tomcat：Java Web服務器（上） Apache Tomcat是一個開源的Java Web服務器和Servlet容器，用于運行Java Servlets和JavaServer Pages (JSP)。Tomcat在Java Web應用開發中扮演著重要角色。本文將詳細介紹Tomcat的基本概念、安裝…

閱讀更多...

遙遠星辰中的覺醒：超大質量黑洞的蘇醒

遙遠星辰中的覺醒：超大質量黑洞的蘇醒

遙遠星辰中的覺醒：超大質量黑洞的蘇醒在浩渺無垠的宇宙中，星辰的閃爍仿佛是時間的漣漪，穿越億萬年的距離，抵達我們的眼眸。而在這片星辰大海的深處，一個驚人的現象正在悄然上演——距離地球3.6億光年之遙的星系中&am…

閱讀更多...

【C++】空指針訪問成員函數

【C++】空指針訪問成員函數

空指針訪問成員函數 C中空指針也是可以調用成員函數的，但是也要注意有沒有用到this指針如果用到this指針，需要加以判斷保證代碼的健壯性 class Animal { public:void fun1() {//正常的成員函數}void fun2() {if (this NULL) {return;//如果沒有這個…

閱讀更多...

最新文章