轉載請注明來源地址:http://blog.csdn.net/lastsweetop/article/details/9123155
簡介
我們在hadoop深入研究:(一)——hdfs介紹里已講過,hdfs并不擅長存儲小文件,因為每個文件最少一個block,每個block的元數據都會在namenode節點占用內存,如果存在這樣大量的小文件,它們會吃掉namenode節點的大量內存。
hadoop Archives可以有效的處理以上問題,他可以把多個文件歸檔成為一個文件,歸檔成一個文件后還可以透明的訪問每一個文件,并且可以做為mapreduce任務的輸入。
?
用法
hadoop Archives可以使用archive工具創建,同上一篇講的distcp一樣,archive也是一個mapreduce任務。首先我們先來看下我的目錄結構:
?
[hadoop@namenode ~]$hadoop fs -lsr
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-06-20 12:37 /user/hadoop/har
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-05-23 11:35 /user/hadoop/input
-rw-r--r-- ? 2 hadoop supergroup ? ? 888190 2013-05-23 11:35 /user/hadoop/input/1901
-rw-r--r-- ? 2 hadoop supergroup ? ? 888978 2013-05-23 11:35 /user/hadoop/input/1902
-rw-r--r-- ? 2 hadoop supergroup ? ? ? ?293 2013-06-02 17:44 /user/hadoop/news.txt
我們通過archive工具才對該目錄進行歸檔
hadoop archive -archiveName input.har -p /user/hadoop/ input har
archiveName指定archive的文件名,-p代表父目錄,可以把多個目錄文件放到archive里,我們來看下創建好的har文件。[hadoop@namenode ~]$hadoop fs -ls har
Found 1 items
drwxr-xr-x - hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har
[hadoop@namenode ~]$hadoop fs -ls har/input.har
Found 4 items
-rw-r--r-- 2 hadoop supergroup 0 2013-06-20 12:38 /user/hadoop/har/input.har/_SUCCESS
-rw-r--r-- 5 hadoop supergroup 272 2013-06-20 12:38 /user/hadoop/har/input.har/_index
-rw-r--r-- 5 hadoop supergroup 23 2013-06-20 12:38 /user/hadoop/har/input.har/_masterindex
-rw-r--r-- 2 hadoop supergroup 1777168 2013-06-20 12:38 /user/hadoop/har/input.har/part-0
這里可以看到har文件包括,兩個索引文件,多個part文件,這里只顯示一個。part文件是多個原文件的集合,根據index文件去找到原文件。如果用har uri去訪問的話,這些文件就會隱藏起來,只顯示原文件
[hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har
drwxr-xr-x - hadoop supergroup 0 2013-05-23 11:35 /user/hadoop/har/input.har/input
-rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902
-rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901
還可以象普通文件系統那樣訪問har下一級的文件[hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har/input
-rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902
-rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901
如果要遠程訪問的話可以使用以下命令[hadoop@namenode ~]$hadoop fs -lsr har://hdfs-namenode:9000/user/hadoop/har/input.har/input
-rw-r--r-- 2 hadoop supergroup 888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902
-rw-r--r-- 2 hadoop supergroup 888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901
har開頭說明時har文件系統,hdfs-域名:端口,har文件系統進行轉換直到har文件末位,例子中會轉換為hdfs://namenode:9000/user/hadoop/har/input.har,剩余的部分仍然用archive方式打開:input刪除文件相對簡單,但需要遞歸刪除,否則報錯
[hadoop@namenode ~]$hadoop fs -rmr har/input.har
Deleted hdfs://192.168.115.5:9000/user/hadoop/har/input.har
限制
archive文件有一些限制條件:
1.創建archive文件要消耗和原文件一樣多的硬盤空間
2.archive文件不支持壓縮,盡管archive文件看起來象已經被壓縮過了。
3.archive文件一旦創建就無法改變,這就意味這你要改一些東西的話,你需要創新創建archive文件
4.雖然解決了namenode的內存空間問題,但是在執行mapreduce時,會把多個小文件交給同一個mapreduce去split,這樣明顯是低效的
解決namenode內存的問題可以參照之前的文章中的hdfs federation。
?
?
?