Hadoop Archives

介紹


時間:

Hadoop Archives (HAR files)是在0.18.0版本中引入的。

作用:

將hdfs里的小文件打包成一個文件,相當于windows的zip,rar。Linux的 tar等壓縮文件。把多個文件打包一個文件。

意義:

它的出現就是為了緩解大量小文件消耗namenode內存的問題。

原理:

HAR文件是通過在HDFS上構建一個層次化的文件系統來工作。

一個HAR文件是通過hadoop的archive命令來創建,而這個命令實際上也是運行了一個MapReduce任務來將小文件打包成HAR。

對于client端來說,使用HAR文件沒有任何影響。但在HDFS端它內部的文件數減少了。


讀取效率不高:

通過HAR來讀取一個文件并不會比直接從HDFS中讀取文件高效,而且實際上可能還會稍微低效一點,因為對每一個HAR文件的訪問都需要完成兩層 index文件的讀取和文件本身數據的讀取。

盡管HAR文件可以被用來作為MapReduce job的input,但是并沒有特殊的方法來使maps將HAR文件中打包的文件當作一個HDFS文件處理。


創建命令:

hadoop archive -archiveName xxx.har -p ?/src ?/dest

archive -archiveName <NAME>.har -p <parent path> [-r <replication factor>]<src>* <dest>

查看命令:

hadoop fs -ls -r har://路徑/xxx.har


操作實例:

注意:是hdfs里的文件才能打包,如果不是hdfs里的路徑會報錯。 ?


1、hdfs dfs -ls ?/

drwx------ ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:19 /tmp
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:19 /wc


2、hadoop archive -archiveName temp.har -p /tmp /

會啟動mapreduce

16/08/13 00:41:16 INFO client.RMProxy: Connecting to ResourceManager at hello110/192.168.255.130:8032
16/08/13 00:41:18 INFO client.RMProxy: Connecting to ResourceManager at hello110/192.168.255.130:8032
16/08/13 00:41:18 INFO client.RMProxy: Connecting to ResourceManager at hello110/192.168.255.130:8032
16/08/13 00:41:18 INFO mapreduce.JobSubmitter: number of splits:1
16/08/13 00:41:19 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1471019987033_0001
16/08/13 00:41:19 INFO impl.YarnClientImpl: Submitted application application_1471019987033_0001
16/08/13 00:41:19 INFO mapreduce.Job: The url to track the job: http://hello110:8088/proxy/application_1471019987033_0001/
16/08/13 00:41:19 INFO mapreduce.Job: Running job: job_1471019987033_0001
16/08/13 00:41:35 INFO mapreduce.Job: Job job_1471019987033_0001 running in uber mode : false
16/08/13 00:41:35 INFO mapreduce.Job: ?map 0% reduce 0%
16/08/13 00:41:57 INFO mapreduce.Job: ?map 100% reduce 0%
16/08/13 00:42:21 INFO mapreduce.Job: ?map 100% reduce 100%
16/08/13 00:42:23 INFO mapreduce.Job: Job job_1471019987033_0001 completed successfully


3、hdfs dfs -ls ?/

drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-08-13 00:42 /temp.har ?(新增的)
drwx------ ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:19 /tmp
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:19 /wc


4、hadoop fs -ls -R har:///temp.har

drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:19 har:///temp.har/hadoop-yarn
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:19 har:///temp.har/hadoop-yarn/staging
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:19 har:///temp.har/hadoop-yarn/staging/hadoop
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-08-13 00:41 har:///temp.har/hadoop-yarn/staging/hadoop/.staging
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-08-13 00:41 har:///temp.har/hadoop-yarn/staging/hadoop/.staging/har_dj36hy
-rw-r--r-- ? 1 hadoop supergroup ? ? ? 1593 2016-08-13 00:41 har:///temp.har/hadoop-yarn/staging/hadoop/.staging/har_dj36hy/_har_src_files
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:19 har:///temp.har/hadoop-yarn/staging/history
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:19 har:///temp.har/hadoop-yarn/staging/history/done_intermediate
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2016-04-14 22:20 har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop
-rw-r--r-- ? 1 hadoop supergroup ? ? ?33303 2016-04-14 22:20 har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop/job_1460643564332_0001-1460643581404-hadoop-wcount.jar-1460643608082-1-1-SUCCEEDED-default-1460643592087.jhist
-rw-r--r-- ? 1 hadoop supergroup ? ? ? ?349 2016-04-14 22:20 har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop/job_1460643564332_0001.summary
-rw-r--r-- ? 1 hadoop supergroup ? ? 115449 2016-04-14 22:20 har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop/job_1460643564332_0001_conf.xml


5、?hdfs dfs -cat ?har:///temp.har/hadoop-yarn/staging/history/done_intermediate/hadoop/job_1460643564332_0001_conf.xml

<property><name>mapreduce.tasktracker.instrumentation</name><value>org.apache.hadoop.mapred.TaskTrackerMetricsInst</value><source>mapred-default.xml</source><source>job.xml</source></property>
<property><name>io.seqfile.sorter.recordlimit</name><value>1000000</value><source>core-default.xml</source><source>job.xml</source></property>
<property><name>yarn.sharedcache.webapp.address</name><value>0.0.0.0:8788</value><source>yarn-default.xml</source><source>job.xml</source></property>
<property><name>yarn.app.mapreduce.am.resource.mb</name><value>1536</value><source>mapred-default.xml</source><source>job.xml</source></property>
<property><name>mapreduce.framework.name</name><value>yarn</value><source>mapred-site.xml</source><source>job.xml</source></property>
<property><name>mapreduce.job.reduce.slowstart.completedmaps</name><value>0.05</value><source>mapred-default.xml</source><source>job.xml</source></property>
.....................太多了.....................................




本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/539326.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/539326.shtml
英文地址,請注明出處:http://en.pswp.cn/news/539326.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

js 判斷日期時間差

2019獨角獸企業重金招聘Python工程師標準>>> alert(GetDateDiff("2018-02-27 19:20:22","2018-02-27 09:20:22","hour"));function GetDateDiff(startTime, endTime, diffType) {//將xxxx-xx-xx的時間格式&#xff0c;轉換為 xxxx/xx…

python 圖形_Python圖形數據

CSGraph代表 壓縮稀疏圖 &#xff0c;它著重于基于稀疏矩陣表示的快速圖算法。 圖表表示 首先&#xff0c;讓我們了解一個稀疏圖是什么以及它在圖表示中的作用。 什么是稀疏圖&#xff1f; 圖形只是節點的集合&#xff0c;它們之間有鏈接。圖表幾乎可以代表任何事物 - 社交網絡…

本地運行hadoop-Failed to locate the winutils binary in the hadoop binary path

轉自&#xff1a;http://www.cnblogs.com/zq-inlook/p/4386216.html 之前在mac上調試hadoop程序&#xff08;mac之前配置過hadoop環境&#xff09;一直都是正常的。因為工作需要&#xff0c;需要在windows上先調試該程序&#xff0c;然后再轉到linux下。程序運行的過程中&#…

dubbo 支持服務降級嗎_dubbo面試題!會這些,說明你真正看懂了dubbo源碼

整理了一些dubbo可能會被面試的面試題&#xff0c;感覺非常不錯。如果你基本能回答說明你看懂了dubbo源碼&#xff0c;對dubbo了解的足夠全面。你可以嘗試看能不能回答下。我們一起看下有哪些問題吧&#xff1f;dubbo中"讀接口"和"寫接口"有什么區別?談談…

不滿足于汽車制造,豐田展示仿鋼鐵俠機器支撐腿架

而汽車制造商開發機器人也不是豐田一家的專利&#xff0c;此前現代也推出過類似的支撐機器人腿架 大多數人對于豐田的印象都停留在汽車制造上&#xff0c;不過他們卻不僅僅滿足于汽車事業的發展&#xff0c;最近&#xff0c;豐田正在研發一款機器人支撐腿架&#xff0c;來幫助…

js html異步加載的屬性,異步加載JS的五種方式

方案一&#xff1a;點評&#xff1a;HTML5中新增的屬性&#xff0c;Chrome、FF、IE9&IE9均支持(IE6~8不支持)。此外&#xff0c;這種方法不能保證腳本按順序執行。方案二&#xff1a;點評&#xff1a;兼容所有瀏覽器。此外&#xff0c;這種方法可以確保所有設置defer屬性的…

python中各操作符的優先級_Python3練習題系列(06)——各種符號總結

Python3中的各種符號總結 1關鍵字 import keyword print(keyword.kwlist, end\t) [False, None, True, and, as, assert, break, class, continue, def, del, elif, else, except, finally, for, from, global, if, import, in, is, lambda, nonlocal, not, or, pass, raise, r…

hdfs java讀寫hdfs demo

windows環境配置&#xff1a; 1.下載winutils的windows版本 GitHub上&#xff0c;有人提供了winutils的windows的版本&#xff0c; 項目地址是&#xff1a;https://github.com/srccodes/hadoop-common-2.2.0-bin,直接下載此項目的zip包&#xff0c;下載后是文件名是hadoop-comm…

cesium 經緯度繪制點_NCL繪制2016年1號臺風(Nepartak)

begin ncol 6 ;臺風參數 nrow 31 ;時次總數 nbin 6 ;已知該該氣旋共經歷了6個等級的演變 ;讀入臺風資料 data asciiread("NEPARTAK.txt",(/nrow,ncol/),"integer") ;/31,6/ 31行6列&#xff0c;integer整數類型 ;;數據讀取函數總結&…

VR究竟多奇幻?eSmart邀你共赴一場VR奇幻之旅!

今年夏天&#xff0c;快來參加首屆eSmart展會&#xff0c;來一場VR游戲的奇妙之旅&#xff0c;見識最好玩、最有趣的VR游戲&#xff01; 正如十幾年前互聯網的興起開創了全新時代一樣&#xff0c;VR產業在近兩年也勢不可擋。隨著一重行業巨頭的進入&#xff0c;2016年&#xf…

HTML5新的解析順序,HTML5新表單新功能解析

HTML5新增了很多屬性功能。但是有兼容性問題&#xff0c;因為這些表單功能新增的。我這里做了一個簡單的練習&#xff0c;方便參考。如果完全兼容的話&#xff0c;那我們寫表單的時候就省了很多代碼以及各種判斷。HTML5表單新功能解析#da{width:350px;height:600px;margin:0 au…

python子類繼承父類屬性實例_Python實現子類調用父類的初始化實例

前言 python中進行面向對象編程&#xff0c;當在子類的實例中調用父類的屬性時&#xff0c;由于子類的__init__方法重寫了父類的__init__方法&#xff0c;如果在子類中這些屬性未經過初始化&#xff0c;使用時就會出錯。 例如以下的代碼: class A(object): def __init__(self):…

hadoop 回收站Trash

介紹&#xff1a; Hadoop回收站trash&#xff0c;默認是關閉的。 和Linux系統的回收站設計一樣&#xff0c;HDFS會為每一個用戶創建一個回收站目錄&#xff1a;/user/用戶名/.Trash/&#xff0c;每一個被用戶通過Shell刪除的文件/目錄&#xff0c;在系統回收站中都一個周期&…

opencv畫框返回坐標 python_[python]依靠pynput和pyautogui替換ahk

autohotkey當然是不錯的工具&#xff0c;但是這個東西的社群一直發展的不行。從開始學習python以后&#xff0c;我就不時會希望能找到別的工具替代ahk。Python的眾多包里面確實是有對應的工具的&#xff1a;模擬鼠標和鍵盤的操作可以用pyautogui&#xff0c;而捕捉熱鍵則可以使…

Hadoop SequenceFile

apache原文&#xff1a;http://hadoop.apache.org/docs/r1.0.4/api/org/apache/hadoop/io/SequenceFile.html 概念&#xff1a; SequenceFile是一個由二進制序列化過的key/value的字節流組成的文本存儲文件&#xff0c;它可以在map/reduce過程中的input/output 的format時被使…

機器學習算法平臺alink_Alink漫談(十二) :在線學習算法FTRL 之 整體設計

Alink漫談(十二) &#xff1a;在線學習算法FTRL 之 整體設計[Toc]0x00 摘要Alink 是阿里巴巴基于實時計算引擎 Flink 研發的新一代機器學習算法平臺&#xff0c;是業界首個同時支持批式算法、流式算法的機器學習平臺。本文和下文將介紹在線學習算法FTRL在Alink中是如何實現的&a…

Linux Shell獲取系統資源使用百分比(CentOS)

CPU使用率&#xff1a; top -b -n 1 | head -n 4 | grep "^Cpu(s)" | awk {print $2} | cut -d u -f 1 內存使用率&#xff1a; free -m | grep ^- | awk {print $3/($3$4)*100"%"} IO使用率&#xff08;FS_PATH的值改成df -h出來的那些Filesystem名稱即可…

html城市繪制,HTML5/Canvas二分法構建城市版圖

JavaScript語言&#xff1a;JaveScriptBabelCoffeeScript確定var ctx fullscreenCanvas().ctx;var canvas ctx.canvas;function Rect(pos, width, height) {this.pos pos;this.width width;this.height height;}Rect.prototype.update Function.prototype;Rect.prototype…

探測器反向偏壓_近紅外和可見光雙模有機光電探測器

更多精彩&#xff0c;點擊上方藍字關注我們&#xff01;中英標題近紅外和可見光雙模有機光電探測器Near-infrared and Visible Light Dual-mode Organic Photodetectors圖文導讀研究報告了一種具有三層可見光吸收體/光學間隔層/近紅外(NIR)光吸收體結構的雙模有機光電探測器(OP…

html里post請求404,請求登陸頁面post請求404錯誤,OPTIONS請求通過

點擊登錄的時候option請求是通過的&#xff0c;但post請求失敗。服務端代碼app.js&#xff1a;const express require(‘express’)const bodyParser require(‘body-parser’)const cors require(‘cors’)const router require(’./router/index’)// 創建 express 應用c…