Hive的相關介紹

目錄
- 前言：
- 1、Hive簡介
- 2、Hive架構
- 3、Hive與Hadoop的關系
- 4、Hive與傳統數據庫對比
- 5、Hive的數據存儲
- 總結：

用戶接口主要由三個：CLI、JDBC/ODBC和WebGUI。其中，CLI為shell命令行；JDBC/ODBC是Hive的JAVA實現，與傳統數據庫JDBC類似；WebGUI是通過瀏覽器訪問Hive。
元數據存儲：Hive 將元數據存儲在數據庫中。Hive
中的元數據包括表的名字，表的列和分區及其屬性，表的屬性（是否為外部表等），表的數據所在目錄等。
解釋器、編譯器、優化器完成 HQL 查詢語句從詞法分析、語法分析、編譯、優化以及查詢計劃的生成。生成的查詢計劃存儲在 HDFS中，并在隨后有 MapReduce 調用執行。

3、Hive與Hadoop的關系

Hive利用HDFS存儲數據，利用MapReduce查詢數據
這里寫圖片描述

4、Hive與傳統數據庫對比

這里寫圖片描述

總結：hive具有sql數據庫的外表，但應用場景完全不同，hive只適合用來做批量數據統計分析。

5、Hive的數據存儲

1、Hive中所有的數據都存儲在 HDFS 中，沒有專門的數據存儲格式（可支持Text，SequenceFile，ParquetFile，RCFILE等）
2、只需要在創建表的時候告訴 Hive 數據中的列分隔符和行分隔符，Hive 就可以解析數據。
3、Hive 中包含以下數據模型：DB、Table，External Table，Partition，Bucket。

db：在hdfs中表現為${hive.metastore.warehouse.dir}目錄下一個文件夾。
table：在hdfs中表現所屬db目錄下一個文件夾。
external table：外部表,與table類似，不過其數據存放位置可以在任意指定路徑普通表: 刪除表后, hdfs上的文件都刪了 External外部表刪除后,hdfs上的文件沒有刪除, 只是把文件刪除了。
partition：在hdfs中表現為table目錄下的子目錄。
bucket：桶, 在hdfs中表現為同一個表目錄下根據hash散列之后的多個文件, 會根據不同的文件把數據放到不同的文件中。

總結：

對于Hive來說，個人感覺只要知道以下幾個知識點就算是達到和博主一樣的小菜鳥的境界，后期可以通過專項學習來進化為“大鵬”：
1、Hive是什么，干什么用的。
2、理解Hive的工作原理。
3、熟練掌握Hql的編寫，能夠運用Hql進行簡單的數據分析。
目前只想到了這些點，如有遺漏后續會接著補充。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/456713.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/456713.shtml
英文地址，請注明出處：http://en.pswp.cn/news/456713.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！