簡介

我們在hadoop深入研究:(一)——hdfs介紹里已講過，hdfs并不擅長存儲小文件，因為每個文件最少一個block，每個block的元數據都會在namenode節點占用內存，如果存在這樣大量的小文件，它們會吃掉namenode節點的大量內存。

hadoop Archives可以有效的處理以上問題，他可以把多個文件歸檔成為一個文件，歸檔成一個文件后還可以透明的訪問每一個文件，并且可以做為mapreduce任務的輸入。

用法

hadoop Archives可以使用archive工具創建，同上一篇講的distcp一樣，archive也是一個mapreduce任務。首先我們先來看下我的目錄結構：

[hadoop@namenode ~]$hadoop fs -lsr
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-06-20 12:37 /user/hadoop/har
drwxr-xr-x ? - hadoop supergroup ? ? ? ? ?0 2013-05-23 11:35 /user/hadoop/input
-rw-r--r-- ? 2 hadoop supergroup ? ? 888190 2013-05-23 11:35 /user/hadoop/input/1901
-rw-r--r-- ? 2 hadoop supergroup ? ? 888978 2013-05-23 11:35 /user/hadoop/input/1902
-rw-r--r-- ? 2 hadoop supergroup ? ? ? ?293 2013-06-02 17:44 /user/hadoop/news.txt

我們通過archive工具才對該目錄進行歸檔

hadoop archive -archiveName input.har -p /user/hadoop/ input har

archiveName指定archive的文件名，-p代表父目錄，可以把多個目錄文件放到archive里，我們來看下創建好的har文件。

[hadoop@namenode ~]$hadoop fs -ls har

Found 1 items
drwxr-xr-x   - hadoop supergroup          0 2013-06-20 12:38 /user/hadoop/har/input.har
[hadoop@namenode ~]$hadoop fs -ls har/input.har
Found 4 items
-rw-r--r--   2 hadoop supergroup          0 2013-06-20 12:38 /user/hadoop/har/input.har/_SUCCESS
-rw-r--r--   5 hadoop supergroup        272 2013-06-20 12:38 /user/hadoop/har/input.har/_index
-rw-r--r--   5 hadoop supergroup         23 2013-06-20 12:38 /user/hadoop/har/input.har/_masterindex
-rw-r--r--   2 hadoop supergroup    1777168 2013-06-20 12:38 /user/hadoop/har/input.har/part-0

這里可以看到har文件包括，兩個索引文件，多個part文件，這里只顯示一個。part文件是多個原文件的集合，根據index文件去找到原文件。

如果用har uri去訪問的話，這些文件就會隱藏起來，只顯示原文件

[hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har
drwxr-xr-x   - hadoop supergroup          0 2013-05-23 11:35 /user/hadoop/har/input.har/input
-rw-r--r--   2 hadoop supergroup     888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902
-rw-r--r--   2 hadoop supergroup     888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901

還可以象普通文件系統那樣訪問har下一級的文件

[hadoop@namenode ~]$hadoop fs -lsr har:///user/hadoop/har/input.har/input
-rw-r--r--   2 hadoop supergroup     888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902
-rw-r--r--   2 hadoop supergroup     888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901

如果要遠程訪問的話可以使用以下命令

[hadoop@namenode ~]$hadoop fs -lsr har://hdfs-namenode:9000/user/hadoop/har/input.har/input
-rw-r--r--   2 hadoop supergroup     888978 2013-05-23 11:35 /user/hadoop/har/input.har/input/1902
-rw-r--r--   2 hadoop supergroup     888190 2013-05-23 11:35 /user/hadoop/har/input.har/input/1901

har開頭說明時har文件系統，hdfs-域名:端口，har文件系統進行轉換直到har文件末位，例子中會轉換為hdfs://namenode:9000/user/hadoop/har/input.har,剩余的部分仍然用archive方式打開：input

刪除文件相對簡單，但需要遞歸刪除，否則報錯

[hadoop@namenode ~]$hadoop fs -rmr har/input.har
Deleted hdfs://192.168.115.5:9000/user/hadoop/har/input.har

限制

archive文件有一些限制條件：

1.創建archive文件要消耗和原文件一樣多的硬盤空間

2.archive文件不支持壓縮，盡管archive文件看起來象已經被壓縮過了。

3.archive文件一旦創建就無法改變，這就意味這你要改一些東西的話，你需要創新創建archive文件

4.雖然解決了namenode的內存空間問題，但是在執行mapreduce時，會把多個小文件交給同一個mapreduce去split，這樣明顯是低效的

解決namenode內存的問題可以參照之前的文章中的hdfs federation。

轉載于:https://www.cnblogs.com/snake-hand/p/3149452.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/274192.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/274192.shtml
英文地址，請注明出處：http://en.pswp.cn/news/274192.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！