spark shell中編寫WordCount程序

啟動hdfs

http://blog.csdn.net/zengmingen/article/details/53006541

啟動spark

安裝:http://blog.csdn.net/zengmingen/article/details/72123717
spark-shell:http://blog.csdn.net/zengmingen/article/details/72162821

準備數據

vi wordcount.txt

hello zeng
hello miao
hello gen
hello zeng
hello wen
hello biao
zeng miao gen
zeng wen biao
lu ting ting
zhang xiao zhu
chang sheng xiang qi lai
zhu ye su ai ni

上傳到hdfs

hdfs dfs -put wordcount.txt /


編寫代碼

用scala語言,在spark-shell命令窗下

sc.textFile("hdfs://nbdo1:9000/wordcount.txt")

.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

.saveAsTextFile("hdfs://nbdo1:9000/out")


運行結果



補充:

將運行結果保存到一個文件。點擊閱讀擴展

代碼:

sc.textFile("hdfs://nbdo1:9000/wordcount.txt")

.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

.coalesce(1,true).saveAsTextFile("hdfs://nbdo1:9000/out2")


運行結果



-------------

更多的Java,Android,大數據,J2EE,Python,數據庫,Linux,Java架構師,教程,視頻請訪問:

http://www.cnblogs.com/zengmiaogen/p/7083694.html



本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/538577.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/538577.shtml
英文地址,請注明出處:http://en.pswp.cn/news/538577.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

初級英語02

做客 1 Diana,i havent seen you for ages,how have you been? 2 would you like something to drink? 3 give my best to your parents. 4 did you hear what happened?whats the matter with him? 5 id like to applogize for leaving so early,i brought a little gift,…

mysql計算機二級選擇題題庫_全國計算機二級mysql數據庫選擇題及答案

全國計算機二級mysql數據庫選擇題及答案選擇題是全國計算機二級mysql考試里的送分題,下面小編為大家帶來了全國計算機二級mysql數據庫選擇題及答案,歡迎大家閱讀!全國計算機二級mysql數據庫選擇題及答案1) 函數 max( ) 表明這是一個什么函數?…

git add 撤銷_更科學地管理你的項目,Git 簡明教程(二)

修改文件內容上回說到,我們已經成功創建并提交了一個 README.md 文件到 FirstGit 版本庫中1、修改文件現在我們更改 README.md 內容2、查看版本庫狀態該文件夾內右鍵運行 Git Bash Here執行命令 git statusGit 提示我們的改動還沒有 commit,并且它給出了…

Eclipse中Copy Qualified Name復制類全名解決辦法

原文鏈接:http://www.cnblogs.com/zyh1994/p/6393550.html ----------------------------------------------------------------------------------------------- Eclipse中 用Copy Qualified Name復制類全名時 總是這樣的/struts1/src/me/edu/HelloAction.java很不…

c 連接mysql錯誤信息_使用C語言訪問MySQL數據 —— 連接和錯誤處理

2011-05-09 wcdj可以通過許多不同的編程語言來訪問MySQL,例如,C,C,Java,Perl,Python,Tcl,PHP等。本文主要總結使用C語言接口如何訪問MySQL數據。(一) 連接例程(二) 錯誤處理(一) 連接…

eclipse編寫wordcount提交spark運行

采用集成了scala的eclipse編寫代碼 代碼: package wordcountimport org.apache.spark.SparkConf import org.apache.spark.SparkContextobject WordCount {def main(args: Array[String]): Unit {//非常重要,是通向Spark集群的入口val confnew SparkCon…

gitlab 刪除分支_如何刪除gitlab上默認受保護的master主分支

今天開發在檢查代碼的時候,發現master分支有問題,現在準備刪除此主分支,并且重新提交正確的代碼,不過在刪除時發現,master分支不能被刪除。ps:主分支一般都是線上分支,需要開發確認后并且做好備…

rsync服務擴展應用

rsync服務擴展應用① 守護進程多模塊功能配置第一步:修改配置文件 注:可以再vim中輸入:20,22copy22,表示復制20到22行到22行之后 vim /etc/rsyncd.conf[backup01]comment "backup dir by oldboy"path /backup[backup0…

NodeJs 安裝

進入官網下載,zip 安裝包 https://nodejs.org/en/download/ 解壓 配置環境變量到安裝目錄 cmd 測試 node -v npm -v

SSH秘鑰登錄服務器

一、查看本機 ssh 公鑰,生成公鑰 1.通過命令窗口 a. 打開你的 git bash 窗口 b. 進入 .ssh 目錄:cd ~/.ssh c. 找到 id_rsa.pub 文件:ls d. 查看公鑰:cat id_rsa.pub 或者 vim id_rsa.pub git–查看本機 ssh 公鑰&#xff0c…

mysql存入mtr數據_mysql mtr寫入數據

selenium 打開瀏覽器import org.openqa.selenium.By; import org.openqa.selenium.WebDriver; import org.openqa.selenium.WebE ...Win8.1安裝Visual Studio 2015提示需要KB2919355http://www.microsoft.com/zh-cn/download/details.aspx?id42335 安裝說明: 1.若要…

diff git 代碼實現_Git 自救指南:這些坑你都跳得出嗎?

每天都會寫架構師文章,Java技術文章天天更新,感興趣的點個關注再走唄!Git 雖然因其分布式管理方式,不完全依賴網絡,良好的分支策略,容易部署等優點,已經成為最受歡迎的源代碼管理方式。但是一分…

HDU 4812 D Tree

HDU 4812 思路&#xff1a; 點分治 先預處理好1e6 3以內到逆元 然后用map 映射以分治點為起點的鏈的值a 成他的下標 u 然后暴力跑出以分治點兒子為起點的鏈的值b&#xff0c;然后在map里查找inv[b]*k 代碼&#xff1a; #include<bits/stdc.h> using namespace std; #d…

Angular CLI 安裝

安裝Angular 官網的教程&#xff0c;因為國內網絡環境原因&#xff0c;訪問不了服務器&#xff0c;導致安裝失敗。 1、先安裝NodeJs 安裝教程&#xff1a;http://blog.csdn.net/zengmingen/article/details/72650484 2、通過NodeJs中的模塊npm 命令行安裝 CLI 2.1、設置npm的…

go 寫文件_「go」 項目多個文件編程

golang 學習的時候很多sample 講的都是一個文件的go 文件怎么寫&#xff0c;但是現實中不可能所有的實現都寫到一個文件里面&#xff0c;按照功能的不同&#xff0c;要么拆分成不同的文件&#xff0c;要么拆分成不同的文件。下面有些個人的經驗分享下&#xff0c;如果有問題請指…

CycleGAN 各種變變變

轉載自 簡單介紹了一下GAN和DCGAN的原理。以及如何使用Tensorflow做一個簡單的生成圖片的demo。 Ian Goodfellow對GAN一系列工作總結的ppt&#xff0c;確實精彩&#xff0c;推薦&#xff1a;獨家 | GAN之父NIPS 2016演講現場直擊&#xff1a;全方位解讀生成對抗網絡的原理及未來…

pycharm與webstorm 2017 激活破解

原有的方式已經失效&#xff0c;見下面博文&#xff1a; https://blog.csdn.net/justszh/article/details/81484802

mysql blob 比較_與MSSQL對比學習MYSQL的心得(四)--BLOB數據類型

MYSQL里的BLOB數據類型BLOB是一個二進制大對象&#xff0c;用來存儲可變數量的數據。BLOB類型分為4種&#xff1a;TinyBlob、Blob、MediumBlob、LongBlob&#xff0c;這幾個類型之間的唯一區別是在存儲文件的最大大小上不同。MySQL的四種BLOB類型 類型 大小(單位&#xff1…

Webstorm常用快捷鍵

webstrom 使用 eclipse快鍵鍵 File--settings keymap 選擇 eclipse 原文鏈接&#xff1a;http://www.cnblogs.com/yeminglong/p/5995421.html ------------------以下是webstrom默認的----------------------------------- Ctrl/ 或 CtrlShift/ 注釋&#xff08;// 或者/…

VirtualBox 上安裝Debian 后分辨率設置

VirtualBox 上安裝Debian 后分辨率設置 首先要配置source.list打開終端&#xff0c; su 切換成root用戶&#xff0c; cd /etc/apt 然后編輯source.list rootdebian:/etc/apt# vi source.list 注釋deb cdrom:行&#xff0c;加以下源 deb http://deb.debian.org/debian stretc…