Hive-原理解析

Hive-原理解析

news/2025/8/21 3:00:18/文章來源:https://lizhengi.blog.csdn.net/article/details/108255099

一、Hive 架構

下面是Hive的架構圖。
在這里插入圖片描述

Hive的體系結構可以分為以下幾部分

1、用戶接口：CLI（hive shell）；JDBC（java訪問Hive）；WEBUI（瀏覽器訪問Hive）
2、元數據：MetaStore
元數據包括：表名、表所屬的數據庫（默認是default）、表的擁有者、列/分區字段，標的類型（表是否為外部表）、表的數據所在目錄。這是數據默認存儲在Hive自帶的derby數據庫中，推薦使用MySQL數據庫存儲MetaStore。
3、Hadoop集群：
使用HDFS進行存儲數據，使用MapReduce進行計算。
4、Driver:驅動器：

解析器（SQL Parser）：將SQL字符串換成抽象語法樹AST，對AST進行語法分析，像是表是否存在、字段是否存在、SQL語義是否有誤。
編譯器（Physical Plan）：將AST編譯成邏輯執行計劃。
優化器（Query Optimizer）：將邏輯計劃進行優化。
執行器（Execution）：把執行計劃轉換成可以運行的物理計劃。對于Hive來說默認就是Mapreduce任務。

二、Hive 工作原理

? Hive 工作原理如下圖所示。

1、ExecuteQuery：操作Hive接口，如命令行或Web UI發送查詢驅動程序（任何數據庫驅動程序，如JDBC，ODBC等）來執行。

2、Get Plan：在驅動程序幫助下查詢編譯器，分析查詢檢查語法和查詢計劃或查詢的要求。

3、Get Metadata：編譯器發送元數據請求到Metastore（任何數據庫）。

4、Send Metadata：Metastore發送元數據，以編譯器的響應。

5、Send Plan：編譯器檢查要求，并重新發送計劃給驅動程序。到此為止，查詢解析和編譯完成。

6、Execute Plan：驅動程序發送的執行計劃到執行引擎。

Execute Job：在內部，執行作業的過程是一個MapReduce工作。執行引擎發送作業給JobTracker，在名稱節點并把它分配作業到TaskTracker，這是在數據節點。在這里，查詢執行MapReduce工作。
Metadata Ops：與此同時，在執行時，執行引擎可以通過Metastore執行元數據操作。

7、Fetch Result：執行引擎接收來自數據節點的結果。

8、Send Results：執行引擎發送這些結果值給驅動程序。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/535741.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/535741.shtml
英文地址，請注明出處：http://en.pswp.cn/news/535741.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

linux命令之history命令

linux命令之history命令

在Linux系統上輸入命令并按下Enter后，這個命令就會存放在命令記錄表 ( ~/.bash_history )中，預定的記錄為1000條，這些都定義在環境變量中。列出所有的歷史記錄：#history 只列出最近10條記錄：#history 10 (注,history和…

閱讀更多...

Hive-配置安裝

Hive-配置安裝

一、HDFS安裝 1、解壓到指定位置tar -zxvf apache-hive-3.1.2-bin.tar.gz -C /usr/local/apps/ 2、改名mv apache-hive-3.1.2-bin/ hive-3.1.2 3、在conf目錄下添加Hadoop安裝路徑mv hive-env.sh.template hive-env.sh # 配置HADOOP_HOME路徑 export HADOOP_HOME/opt/module/…

閱讀更多...

linux文件系統概念目錄結構

linux文件系統概念目錄結構

文件系統概念一. 文件與目錄的定義1. 文件系統：它是磁盤上有特定格式的一片區域，操作系統通過文件系統可以方便地查尋和訪問其中所包含的磁盤塊；2. 文件：文件系統中存儲數據的一個命名的對象。3. 目錄：其中包含許多文件…

閱讀更多...

JDK源碼解析之 java.lang.Class

JDK源碼解析之 java.lang.Class

Java程序在運行時，Java運行時系統一直對所有的對象進行所謂的運行時類型標識。這項信息紀錄了每個對象所屬的類。虛擬機通常使用運行時類型信息選準正確方法去執行，用來保存這些類型信息的類是Class類。Class類封裝一個對象和接口運行時的狀態&#xff…

閱讀更多...

Linux Vi常用技巧

Linux Vi常用技巧

VI常用技巧VI命令可以說是Unix/Linux世界里最常用的編輯文件的命令了，但是因為它的命令集眾多，很多人都不習慣使用它，其實您只需要掌握基本命令，然后加以靈活運用，就會發現它的優勢，并會逐漸喜歡使用這種方…

閱讀更多...

JDK源碼解析之 java.lang.ClassLoader

JDK源碼解析之 java.lang.ClassLoader

Class代表它的作用對象是類，Loader代表它的功能是加載，那么ClassLoader就是把一個以.class結尾的文件以JVM能識別的存儲形式加載到內存中。一、核心方法 1、loadClass方法 protected Class<?> loadClass(String name, boolean resolve) throws…

閱讀更多...

Linux Vi的使用

Linux Vi的使用

一、插入文本┌──┬────────────┐│命令│描述 │├──┼────────────┤│i │在當前字符前插入文本 │├──┼────────────┤│I │在行首插入文本 │├──┼────────────┤│a │在當前字符后添加文本 │├──┼──…

閱讀更多...

Hive-beeline服務

Hive-beeline服務

Hive客戶端工具后續使用了Beeline 替代HiveCLI ，并且后續版本也會廢棄掉HiveCLI 客戶端工具,Beeline是 Hive 0.11版本引入的新命令行客戶端工具,它是基于SQLLine CLI的JDBC客戶端。 Beeline支持嵌入模式(embedded mode)和遠程模式(remote mode)。在嵌入式模式下&am…

閱讀更多...

用戶賬號管理基本概念

用戶賬號管理基本概念

什么是用戶賬號管理用戶賬號一般包括普通用戶賬號、管理賬號和系統賬號。為了鑒別用戶身份以及加強系統安全，系統為每個使用它的人分配了一個賬號，這就是普通用戶賬號。每個人擁有一個獨立的普通用戶賬號，每個賬號有不同的用戶名和密碼。用戶…

閱讀更多...

JDK源碼解析之 Java.lang.Compiler

JDK源碼解析之 Java.lang.Compiler

Compiler類提供支持Java到本機代碼編譯器和相關服務。在設計上，它作為一個占位符在JIT編譯器實現。一、源碼部分 public final class Compiler {private Compiler() {} // dont make instancesprivate static native void initialize();private st…

閱讀更多...

shell的基本概念

shell的基本概念

Shell就像一個殼層，這個殼層介于用戶和操作系統之間，負責將用戶的命令解釋為操作系統可以接收的低級語言，并將操作系統響應的信息以用戶可以了解的方式來顯示。從用戶登陸到注銷期間，用戶輸入的每個命令都會經過解譯及…

閱讀更多...

JDK源碼解析之 java.lang.System

JDK源碼解析之 java.lang.System

一個和系統環境進行交互的類. System不允許被實例化, 而且是一個final類一、不能實例化 private System() { }二、成員變量 public final static InputStream in null; //這是“標準”輸入流。 public final static PrintStream out null; //這是“標準”輸出流。 public …

閱讀更多...

詳解MySQL中DROP,TRUNCATE 和DELETE的區別

詳解MySQL中DROP,TRUNCATE 和DELETE的區別

注意:這里說的delete是指不帶where子句的delete語句相同點: truncate和不帶where子句的delete, 以及drop都會刪除表內的數據不同點: 1. truncate和 delete只刪除數據不刪除表的結構(定義) drop語句將刪除表的結構被依賴的約束(constrain),觸發器(trigger),索引(index…

閱讀更多...

JDK源碼解析之 Java.lang.Package

JDK源碼解析之 Java.lang.Package

如果我們在Class對象上調用getPackage方法，就可以得到描述該類所在包的Package對象(Package類是在java.lang中定義的)。我們也可以用包名通過調用靜態方法getPackage或者調用靜態方法getPackages(該方法返回由系統中所有已知包構成的數組)來獲得Package對象。getNam…

閱讀更多...

Mysql中limit的用法詳解

Mysql中limit的用法詳解

在我們使用查詢語句的時候，經常要返回前幾條或者中間某幾行數據，這個時候怎么辦呢？不用擔心，mysql已經為我們提供了這樣一個功能。SELECT * FROM table LIMIT [offset,] rows | rows OFFSET offset LIMIT 子句可以被用于強制 SE…

閱讀更多...

Docker入門-簡介

Docker入門-簡介

獨具魅力的Docker作為一門新技術，它的出現有可能引起其所在領域大范圍的波動甚至是重新洗牌。根據業內專業人士的看法，不論如何，Docker的出現，已經成為云服務市場中一枚極具意義的戰略性棋子。從2013年開始在國內發力，…

閱讀更多...

Mysql中limit的優化

Mysql中limit的優化

在一些情況中，當你使用LIMIT row_count而不使用HAVING時，MySQL將以不同方式處理查詢。如果你用LIMIT只選擇一些行，當MySQL選擇做完整的表掃描時，它將在一些情況下使用索引。如果你使用LIMIT row_count與ORD…

閱讀更多...

Docker入門-架構

Docker入門-架構

Docker 包括三個基本概念: 鏡像（Image）：Docker 鏡像（Image），就相當于是一個 root 文件系統。比如官方鏡像 ubuntu:16.04 就包含了完整的一套 Ubuntu16.04 最小系統的 root 文件系統。容器（Cont…

閱讀更多...

MYSQL出錯代碼列表大全(中文)

MYSQL出錯代碼列表大全(中文)

mysql出錯了,以前往往靠猜.現在有了這張表,一查就出來了. 1005：創建表失敗1006：創建數據庫失敗1007：數據庫已存在，創建數據庫失敗1008：數據庫不存在，刪除數據庫失敗1009：不能刪除數據庫文件導致…

閱讀更多...

Docker入門-安裝

Docker入門-安裝

Centos7下安裝Docker docker官方說至少Linux 內核3.8 以上，建議3.10以上（ubuntu下要linux內核3.8以上， RHEL/Centos 的內核修補過， centos6.5的版本就可以） 1、把yum包更新到最新：yum update 2、安裝需要的…

閱讀更多...

最新文章