hdfs集群磁盤清理歷史數據流程如下:
#可以查看web界面hdfs集群的磁盤使用率,并記錄下來,對比清理后的效果:
清理前
86.00% 194.24TB/225.85TB
#統計warehouse目錄下的磁盤使用量(目前表都是建在該路徑下)
hadoop fs -du -h /user/hive/warehouse
#統計bak目錄下磁盤使用量的表,取前30,清理大表
hadoop fs -du -s /user/hive/warehouse/bak.db/* | sort -n -r | head -30
#統計test目錄下磁盤使用量的表,清理該測試路徑的數據
hadoop fs -ls /user/hive/warehouse/test
#hdfs回收站會保留1天數據,過期會自動清理, 也可手動清理
hadoop fs -ls /user/test/.Trash/*