hive java導入CVS

原文：http://bbs.chinahadoop.cn/thread-5343-1-1.html

----------------------------------------------------------------------------------

本文的目的是hive讀取cvs文件，忽略字段中‘\,’，最終還是以','來分割文本
cvs格式是以逗號','隔開的文件格式，文本中可能在字段里又包含了逗號轉義符號‘\,’
文件格式舉例：
1,2,5,(hah\,ahojg)
如果用hive自帶的分隔符建表：
create table IF NOT EXISTS test_table(p_id INT,tm INT,idate INT,url STRING)
partitioned by (dt string)
row format delimited fields terminated by ','? ?或者為 '\,'?
STORED AS INPUTFORMAT
'com.hadoop.mapred.DeprecatedLzoTextInputFormat'??
OUTPUTFORMAT??
'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'?
location '/hdfs/data/incoming';
結果都會被分為：1 2 5 (hah\ ahojg)
因為hive只識別一個字符的分隔符，所以需要我們編寫自己的input/output format
下面這段代碼是網上截取的，將多個分隔符換成hive自帶的\001
想要忽略‘\,’的目的，建紅色的代碼修改如下即可：
//先將‘\,’換成'@'?,處理完逗號分隔符，再將'@'?換成 '\,'
String repalceString_01 = value.toString().replace("\\,", "@");
String repalceString_02 = repalceString_01.replace(",", "\001");
String strReplace = repalceString_02.replace("@", "\\,");
------------------------------------------------------------------------------------------------------
步驟：myeclipse中建立java工程，根目錄下新建lib目錄，添加hadoop和常用的jar包

編寫自定義InputFormat（MutilCharInputFormat）
編寫自定義MutilCharRecordReader實現RecordReader接口，并重寫next方法

編寫自定義Input Format

01	package?com.icloud.hive;

02	import java.io.IOException;

03	import org.apache.commons.logging.Log;

04	import org.apache.commons.logging.LogFactory;

05	import org.apache.hadoop.io.LongWritable;

06	import org.apache.hadoop.io.Text;

07	import org.apache.hadoop.mapred.FileSplit;

08	import org.apache.hadoop.mapred.InputSplit;

09	import org.apache.hadoop.mapred.JobConf;

10	import org.apache.hadoop.mapred.RecordReader;

11	import org.apache.hadoop.mapred.Reporter;

12	import org.apache.hadoop.mapred.TextInputFormat;

14	public class MutilCharInputFormat extends TextInputFormat{

15	private static final Log log = LogFactory.getLog(MutilCharRecordReader.class);

@Override

18	public RecordReader<LongWritable, Text> getRecordReader(

19	InputSplit genericSplit, JobConf job, Reporter reporter)

20	throws IOException {

21	reporter.setStatus(genericSplit.toString());

22	//創建MutilCharRecordReader并返回

23	return new MutilCharRecordReader((FileSplit)genericSplit,job);

}

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/539150.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/539150.shtml
英文地址，請注明出處：http://en.pswp.cn/news/539150.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！