原文地址:https://zhidao.baidu.com/question/241683835498891364.html
-----------------------------------------------------------------------------
最近在使用hive時,需要將hive查詢的數據導出到本地文件系統,HQL語法如下:
INSERT OVERWRITE [LOCAL] DIRECTORY directory1 select_statement1
查詢結果導出到本地文件后,試圖使用excel加載時遇上了麻煩:不知道hive導出文件時使用的分隔符,
使用文本編輯器打開也顯示亂碼。
最后在官方文檔上找了半天才發現,hive使用 ^A 符號作為域的分隔符,原文如下:
Data written to the filesystem is serialized as text with columns separated by ^A
在python中可以使用line.split('\x01')來進行切分,也可以使用line.split('\001'),注意其中是單引號
在java中可以使用split("\\u0001")來進行切分
如果確實需要將查詢結果導出到本地文件,最好使用hive的命令:
[sql] view plaincopy在CODE上查看代碼片派生到我的代碼片
bin/hive -e "select * from test" >> res.csv
或者是:
bin/hive -f sql.q >> res.csv
其中文件sql.q寫入你想要執行的查詢語句
這問題在使用hive hql streaming時也會遇到,當你使用hql strreaming 將輸出直接寫入到hdfs目錄,然后你在該目錄上創建hive 外部表時,hive的輸出結果會將streaming 的key和value之間的分隔符修改為 \001,所以,在hql streaming和輸出為hive 外部表時,最好將streaming的最后輸出的分隔符修改為\001,并且hive外部表的分隔符應該設置為\001,注意:不要使用^A和\x01,如:
[html] view plaincopy在CODE上查看代碼片派生到我的代碼片
create external table site_user_mapping_info_month(uid String,tag string,project_ids string,site_interests string) PARTITIONED BY(year String, month String) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' LOCATION '/project/site_grouping/site_user_mapping_info_month';
-------------
更多的Java,Angular,Android,大數據,J2EE,Python,數據庫,Linux,Java架構師,:
http://www.cnblogs.com/zengmiaogen/p/7083694.html