Hadoop Hive概念學習系列之hive的數據壓縮(七)

Hive文件存儲格式包括以下幾類:
1、TEXTFILE
2、SEQUENCEFILE
3、RCFILE
4、ORCFILE
其中TEXTFILE為默認格式,建表時不指定默認為這個格式,導入數據時會直接把數據文件拷貝到hdfs上不進行處理。
SEQUENCEFILE,RCFILE,ORCFILE格式的表不能直接從本地文件導入數據,數據要先導入到textfile格式的表中, 然后再從表中用insert導入SequenceFile,RCFile,ORCFile表中。

?

更多用法,一定要去看官網啊!!!?
https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL

?

?

一、TEXTFILE 格式
默認格式,數據不做壓縮,磁盤開銷大,數據解析開銷大。 可結合Gzip、Bzip2使用(系統自動檢查,執行查詢時自動解壓),但使用這種方式,Hive不會對數據進行切分, 從而無法對數據進行并行操作。

  

  示例:

復制代碼
create table if not exists textfile_table(
site string,
url string,
pv bigint,
label string)
row format delimited fields terminated by '\t'
stored as textfile;
復制代碼

?


插入數據操作:

Hive> Hive.exec.compress.output=true; 
Hive> set mapred.output.compress=true; 
Hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
Hive> set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
Hive> insert overwrite table textfile_table select * from textfile_table;

?

?

?


二、SEQUENCEFILE 格式
SequenceFile是Hadoop API提供的一種二進制文件支持,其具有使用方便、可分割、可壓縮的特點。?
SequenceFile支持三種壓縮選擇:NONE,RECORD,BLOCK。Record壓縮率低,一般建議使用BLOCK壓縮。
示例:

復制代碼
create table if not exists seqfile_table(
site string,
url string,
pv bigint,
label string)
row format delimited
fields terminated by '\t'
stored as sequencefile;
復制代碼

?


插入數據操作:

復制代碼
Hive> set Hive.exec.compress.output=true; 
Hive> set mapred.output.compress=true; 
Hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
Hive> set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
Hive> SET mapred.output.compression.type=BLOCK;
Hive> insert overwrite table seqfile_table select * from textfile_table;
復制代碼

?

?

?


三、RCFILE 文件格式
RCFILE是一種行列存儲相結合的存儲方式。首先,其將數據按行分塊,保證同一個record在一個塊上,避免讀一個記錄需要讀取多個block。
其次,塊數據列式存儲,有利于數據壓縮和快速的列存取。
RCFILE文件示例:

復制代碼
create table if not exists rcfile_table(
site string,
url string,
pv bigint,
label string)
row format delimited
fields terminated by '\t'
stored as rcfile;
復制代碼

?


插入數據操作:

Hive> set Hive.exec.compress.output=true; 
Hive> set mapred.output.compress=true; 
Hive> set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec; 
Hive> set io.compression.codecs=org.apache.hadoop.io.compress.GzipCodec; 
Hive> insert overwrite table rcfile_table select * from textfile_table;

?

?

?


四、ORCFILE()
以后補充

?

?


五、再看TEXTFILE、SEQUENCEFILE、RCFILE三種文件的存儲情況:
[hadoop@master ~]$ hadoop dfs -dus /user/Hive/warehouse/*
hdfs://master?:9000/user/Hive/warehouse/hbase_table_1 0
hdfs://master?:9000/user/Hive/warehouse/hbase_table_2 0
hdfs://master?:9000/user/Hive/warehouse/orcfile_table 0
hdfs://master?:9000/user/Hive/warehouse/rcfile_table 102638073
hdfs://master?:9000/user/Hive/warehouse/seqfile_table 112497695
hdfs://master?:9000/user/Hive/warehouse/testfile_table 536799616
hdfs://master?:9000/user/Hive/warehouse/textfile_table 107308067
[hadoop@singlehadoop ~]$ hadoop dfs -ls /user/Hive/warehouse/*/
-rw-r--r-- 2 hadoop supergroup 51328177 2014-03-20 00:42 /user/Hive/warehouse/rcfile_table/000000_0
-rw-r--r-- 2 hadoop supergroup 51309896 2014-03-20 00:43 /user/Hive/warehouse/rcfile_table/000001_0
-rw-r--r-- 2 hadoop supergroup 56263711 2014-03-20 01:20 /user/Hive/warehouse/seqfile_table/000000_0
-rw-r--r-- 2 hadoop supergroup 56233984 2014-03-20 01:21 /user/Hive/warehouse/seqfile_table/000001_0
-rw-r--r-- 2 hadoop supergroup 536799616 2014-03-19 23:15 /user/Hive/warehouse/testfile_table/weibo.txt
-rw-r--r-- 2 hadoop supergroup 53659758 2014-03-19 23:24 /user/Hive/warehouse/textfile_table/000000_0.gz
-rw-r--r-- 2 hadoop supergroup 53648309 2014-03-19 23:26 /user/Hive/warehouse/textfile_table/000001_1.gz


總結: 相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存儲方式,數據加載時性能消耗較大,但是具有較好的壓縮比和查詢響應。
數據倉庫的特點是一次寫入、多次讀取,因此,整體來看,RCFILE相比其余兩種格式具有較明顯的優勢。

?

?

?

以下,本文轉自于。http://blog.csdn.net/cnbird2008/article/details/9182869

Hive數據壓縮

本文介紹Hadoop系統中Hive數據壓縮方案的比較結果及具體壓縮方法。

一、壓縮方案比較

關于Hadoop HDFS文件的壓縮格式選擇,我們通過多個真實的Track數據做測試,得出結論如下:

1.??系統的默認壓縮編碼方式 DefaultCodec 無論在壓縮性能上還是壓縮比上,都優于GZIP 壓縮編碼。這一點與網上的一些觀點不大一致,網上不少人認為GZIP的壓縮比要高一些,估計和Cloudera的封裝及我們Track的數據類型有關。

2.? Hive文件的RCFile 的在壓縮比,壓縮效率,及查詢效率上都優于SEQENCE FILE (包括RECORD, BLOCK 級別) 。

3.? 所有壓縮文件均可以正常解壓為TEXT 文件,但比原始文件略大,可能是行列重組造成的。

?

?

?

關于壓縮文件對于其他組件是適用性如下:

1.? Pig 不支持任何形式的壓縮文件。

2.? Impala 目前支持SequenceFile的壓縮格式,但還不支持RCFile的壓縮格式。

?

?

綜上所述

  從壓縮及查詢的空間和時間性能上來說,DefaultCodeC + RCFile的壓縮方式均為最優,但使用該方式,會使得Pig 和Impala 無法使用(Impala的不兼容不確定是否是暫時的)。

  而DefaultCodeC+ SequenceFile 在壓縮比,查詢性能上略差于RCFile (壓縮比約 6:5), 但可以支持 Impala實時查詢。

?

推薦方案

?采用RCFile 方式壓縮歷史數據。FackBook全部hive表都用RCFile存數據。

?

?

?

二、局部壓縮方法

只需要兩步:

1.??????創建表時指定壓縮方式,默認不壓縮,以下為示例:

create external table track_hist(

id bigint, url string, referer string, keyword string, type int, gu_idstring,

…/*此處省略中間部分字段*/ …, string,ext_field10 string)

partitioned by (ds string)?stored as?RCFile?location '/data/share/track_histk' ;

?

2.? 插入數據是設定立即壓縮

SET hive.exec.compress.output=true;

insert overwrite table track_histpartition(ds='2013-01-01')

select id,url, …/*此處省略中間部分字段*/ …, ext_field10 fromtrackinfo

where ds='2013-01-01';

?

?

?

?

?

三、全局方式,修改屬性文件

在hive-site.xml中設置:

<property>

?<name>hive.default.fileformat</name>

?<value>RCFile</value>

?<description>Default file format for CREATE TABLE statement.Options are TextFile and SequenceFile. Users can explicitly say CREAT

E TABLE ... STORED AS&lt;TEXTFILE|SEQUENCEFILE&gt; to override</description>

</property>

<property>

?<name>hive.exec.compress.output</name>

?<value>true</value>

?<description> This controls whether the final outputs of a query(to a local/hdfs file or a hive table) is compressed. The compres

sion codec and other options are determinedfrom hadoop config variables mapred.output.compress* </description>

?

?

?

?

四、注意事項

1、Map階段輸出不進行壓縮

2、對輸出文本進行處理時不壓縮

?


本文轉自大數據躺過的坑博客園博客,原文鏈接:http://www.cnblogs.com/zlslch/p/6103760.html,如需轉載請自行聯系原作者

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/454280.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/454280.shtml
英文地址,請注明出處:http://en.pswp.cn/news/454280.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

java 加鎖_Java并發之synchronized深入

一句話總結synchronized&#xff1a;JVM會自動通過使用monitor來加鎖和解鎖&#xff0c;保證了同時只有一個線程可以執行指定代碼&#xff0c;從而保證了線程安全&#xff0c;同時具有可重入和不可中斷的性質。一.synchronized的作用使用synchronized修飾方法或者代碼塊時&…

激活函數之 Sigmoid、tanh、ReLU、ReLU變形和Maxout

Sigmoid函數 Sigmoid函數計算公式 sigmoid&#xff1a;x取值范圍(-∞&#xff0c;∞)&#xff0c;值域是(0, 1)。 sigmoid函數求導 這是sigmoid函數的一個重要性質。 圖像 代碼 # -*- coding: utf-8 -*- """ author: tom """import numpy im…

Python查看、修改pip install 默認使用的pip庫

一、更改 Python 的 pip install 默認使用的pip庫 【方法】只需要將對應python腳本的路徑添加到系統環境變量Path中較前的位置即可&#xff0c;這樣就可以獲得優先級。 1、打開終端&#xff0c;可以通過指令 pip show pip 查看默認使用的pip包&#xff1a; 2、現在&#xff…

cmd 找到8080對應進程_多進程概括

多進程圖像操作系統記錄進程&#xff0c;并按照合理的次序交替推進(分配資源&#xff0c;不斷調度)&#xff0c;提高CPU利用率和程序執行速度&#xff0c;這就是操作系統的多進程圖像。當操作系統啟動時&#xff0c;多進程圖像就出現了。 在linux內核源碼main.c文件中&#xff…

機器學習接口和代碼之 KNN

官網地址&#xff1a;https://scikit-learn.org/stable/modules/classes.html#module-sklearn.neighbors class sklearn.neighbors.KNeighborsClassifier(n_neighbors5, weights’uniform’, algorithm’auto’, leaf_size30, p2, metric’minkowski’, metric_paramsNone, n…

Eclipse中安裝Ext插件(Spket IDE)

在網上找了很多資料&#xff0c;這里重新整理一下。 Spket IDE是目前支持Ext 2.0最為出色的IDE。 它采用.jsb project file 文件并將繼承于基類和所有文檔的內容嵌入到生成代碼提示的. doc中。由于Spket只是一個單純的編輯器&#xff0c;沒有其它格式的支持&#xff08;如CSS&a…

職業程序員培養之道

作者&#xff1a;粘新育 任甲林 來源&#xff1a;希賽網  http://www.csai.cn 2004年06月28日軟件開發是以人為核心的過程&#xff0c;對人的依賴性遠高于傳統的硬件生產企業&#xff0c;為了保持開發能力的穩定性&#xff0c;一方面需要定義軟件過程&#xff0c;以過程為樞紐…

MongoDB啟動

詳細見大神鏈接 鏈接: https://blog.csdn.net/chenpuzhen/article/details/90642147.

Go 語言編程規范

1. gofmt 命令 大部分的格式問題可以通過 gofmt 來解決&#xff0c;gofmt 自動格式化代碼&#xff0c;保證所有的 go 代碼與官方推薦的格式保持一致&#xff0c;所有格式有關問題&#xff0c;都以gofmt的結果為準。所以&#xff0c;建議在提交代碼庫之前先運行一下這個命令。 2…

python去噪音_python中的噪聲是什么意思

你的序列均值為零嗎? 方差隨時間變化嗎? 值與延遲值相關嗎? 你可以用一些工具來檢查你的時間序列是否為白噪音: 創建一個折線圖。檢查總體特征&#xff0c;如變化的平均值&#xff0c;方差或延遲變量之間的明顯關系。 計算匯總統計。對照序列中有意義的連續塊的均值和方差&a…

pycharm 離線安裝插件

插件離線下載地址&#xff1a; http://plugins.jetbrains.com/ 1、下載插件&#xff1a;http://plugins.jetbrains.com/ 2、安裝插件&#xff1a; settings -> plugins -> install plugin from disk&#xff0c;然后重啟IDEA即可。

為機器學習占地16

是將若干個學習器(分類器&回歸器)組合之后產生一個新學習器。弱分類器(weak learner)指那些分類準確率只稍微好于隨機猜測的分類器(errorrate < 0.5)。 集成算法的成功在于保證弱分類器的多樣性(Diversity)。而且集成不穩定的算法也能夠得到一個比較明顯的性能提升。 …

VC DLL學習

1 用VC創建DLL動態鏈接庫1.1 創建dll項目1.2 為dll項目編寫源文件頭文件dllDemo.hextern"C"_declspec(dllexport) intSum(inta,intb);//加法函數。extern"C"_declspec(dllexport) intMax(inta, intb);//取較大值函數extern"C"_declspec(dllexpor…

mciSendString 多線程播放多首音樂 注意事項

昨天晚上遇到一個問題&#xff1a; 使用 mciSendString 控制播放多首音樂的時候&#xff0c;出現最后一次播放的音樂無法通過 mciSendString ("close mp3") 關閉音樂的播放。 mciSendString 在多個線程中調用。 到23點&#xff0c;問題依然沒解決&#xff0c;只好先…

python代碼比例_Python如何輸出百分比

Python 輸出百分比的兩種方式 注&#xff1a; 在python3環境下測試。 方式1&#xff1a;直接使用參數格式化&#xff1a;{:.2%} {:.2%}&#xff1a; 顯示小數點后2位 顯示小數點后2位&#xff1a; >>> print(percent: {:.2%}.format(42/50)) percent: 84.00% 不顯示小…

為機器學習占地15

是將若干個學習器(分類器&回歸器)組合之后產生一個新學習器。弱分類器(weak learner)指那些分類準確率只稍微好于隨機猜測的分類器(errorrat弱分類器的多樣性(Diversity)。而且集成不穩定的算法也能夠得到一個比較明顯的性能提升。 常見的集成學習思想有&#xff1a;Baggi…

編寫一個項目開發文檔

項目開發過程中為了增加程序的可讀性和程序的健壯性&#xff0c; 方便后期程序的調試和維護&#xff0c;所以需要在開發過程中統一技術規范&#xff0c;一般會在項目初期確定好相關文檔作為這一統一的規范。不同公司會對文檔做不同要求&#xff0c;劃不同的分類&#xff0c;但一…

樂在其中設計模式(C#) - 原型模式(Prototype Pattern)

[索引頁][源碼下載]樂在其中設計模式(C#) - 原型模式(Prototype Pattern)作者&#xff1a;webabcd介紹用原型實例指定創建對象的種類&#xff0c;并且通過拷貝這個原型來創建新的對象。示例有一個Message實體類&#xff0c;現在要克隆它。MessageModelusing System; using Syst…

python123添加列表元素_Python之列表

Python變量沒有數據類型&#xff0c;所以Python沒有數組。 整數&#xff1b;浮點數&#xff1b;字符串&#xff1b;對象 創建一個列表&#xff1a; 1.member[大魚,123,3.14,[1,2,3]] 2.empty[] 向列表添加元素&#xff1a; append&#xff08;&#xff09;&#xff1a; member[…

為機器學習占地14

是將若干個學習器(分類器&回歸器)組合之后產生一個新學習器。弱分類器(weak learner)指那些分類準確率只稍微好于隨機猜測的分類器(errorrate <。 集成算法的成功在于保證弱分類器的多樣性(Diversity)。而且集成不穩定的算法也能夠得到一個比較明顯的性能提升。 常見的…