Hive的小文件處理

針對ORC存儲格式的小文件

--orc合并小文件的特定語法,使用concatenate(連接、使連續)關鍵字
--非分區表
alter table table_name concatenate;--分區表
alter table table_name partition(dt=xxx) concatenate;

針對TEXTFILE存儲格式的小文件

--將這些小文件進行合并,這里使用distribute by floor(rand()*5)將所有的小文件數據歸并到4個文件中
insert overwrite table table_name  
select col1,col2,col3,col4,col5 from table_name 
distribute by floor(rand()*5);

針對HDFS上的小文件

Hadoop Archive簡稱HAR，是一個高效地將小文件放入HDFS塊中的文件存檔工具，
它能夠將多個小文件打包成一個HAR文件，這樣在減少namenode內存使用的同時，仍然允許對文件進行透明的訪問。使用歸檔之前，先設置如下3個參數：#用來控制歸檔是否可用
set hive.archive.enabled=true;
#通知Hive在創建歸檔時是否可以設置父目錄
set hive.archive.har.parentdir.settable=true;
#控制需要歸檔文件的大小
set har.partfile.size=1099511627776;# 使用以下命令進行歸檔
ALTER TABLE A ARCHIVE PARTITION(dt='2020-12-24', hr='12');
# 對已歸檔的分區恢復為原文件
ALTER TABLE A UNARCHIVE PARTITION(dt='2020-12-24', hr='12');# 歸檔的分區可以查看不能 insert overwrite，必須先 unarchive

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/18072.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/18072.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/18072.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！