Hive 是建立在 Hadoop ?上的數據倉庫基礎構架。
它提供了一系列的工具,可以用來進行數據提取轉化加載(ETL ),這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。
Hive 定義了簡單的類 SQL ?查詢語言,稱為 QL ,它允許熟悉 SQL ?的用戶查詢數據。
同時,這個語言也允許熟悉 MapReduce ?開發者的開發自定義的 mapper ?和 reducer ?來處理內建的 mapper 和 reducer 無法完成的復雜的分析工作。
Hive是SQL解析引擎,它將SQL語句轉譯成M/R Job然后在Hadoop執行。
Hive的表其實就是HDFS的目錄,按表名把文件夾分開。如果是分區表,則分區值是子文件夾,
可以直接在M/R Job里使用這些數據。
Hive 相當于hadoop的可視化工具,如Mysql的可視化工具Navicat for MySQL,
oracle的可視化工具PLSQLDeveloper,它可以起很多個,而且起不同版本的。
只要環境參數配置好了。就像Navicat for MySQL和sqldeveloper可以開多個。
Hive的數據存儲基于Hadoop HDFS。
Hive沒有專門的數據存儲格式存儲結構主要包括:數據庫、文件、表、視圖、索引。
Hive默認可以直接加載文本文件(TextFile),還支持SequenceFile、RCFile。