大數據學習（08）--Hadoop中的數據倉庫Hive

news/2025/9/1 19:56:55/文章來源:https://blog.csdn.net/wangzi11111111/article/details/89096936

文章目錄

目錄
- 1.什么是數據倉庫？
- - 1.1數據倉庫概念
  - 1.2傳統數據倉庫面臨的挑戰
  - 1.3 Hive介紹
  - 1.4 Hive與傳統數據庫的對比
  - 1.5 Hive在企業中的部署與應用
- 2.Hive系統架構
- 3.Hive工作原理
- - 3.1 SQL轉換為MapReduce作業的基本原理
  - 3.2 Hive中SQL查詢轉換MapReduce作業的過程
- 4.Hive HA基本原理
- 5.Impala
- - 5.1 Impala介紹
  - 5.2 Impala系統架構
  - 5.3 Impala查詢執行過程
  - 5.4 Impala和Hive的區別
- 6.Hive編程實踐
- - 6.1 Hive的安裝和配置
  - 6.2 Hive的基本數據類型
  - 6.3 Hive的基本操作
  - 6.4 Hive的應用實例(wordCount)
  - 6.5 Hive的優勢
- 7.總結

目錄

1.什么是數據倉庫？

1.1數據倉庫概念

在這里插入圖片描述

對歷史數據變化的統計，從而支撐企業的決策。比如：某個商品最近一個月的銷量，預判下個月應該銷售多少，從而補充多少貨源。

1.2傳統數據倉庫面臨的挑戰

在這里插入圖片描述

1.3 Hive介紹

在這里插入圖片描述

Hbase支持快速的交互式的大數據應用
pig,Hive支持批量式的數據分析業務

1.4 Hive與傳統數據庫的對比

在這里插入圖片描述

1.5 Hive在企業中的部署與應用

在這里插入圖片描述

2.Hive系統架構

在這里插入圖片描述

Microsoft推出的ODBC(Open Database Connectivity)技術 [1] 為異質數據庫的訪問提供了統一的接口
JDBC（Java Data Base Connectivity,java數據庫連接）是一種用于執行SQL語句的Java API，可以為多種關系數據庫提供統一訪問，它由一組用Java語言編寫的類和接口組成。
CIL （Common Intermediate Language) 公共中間語言

3.Hive工作原理

3.1 SQL轉換為MapReduce作業的基本原理

在這里插入圖片描述

3.2 Hive中SQL查詢轉換MapReduce作業的過程

在這里插入圖片描述

4.Hive HA基本原理

在這里插入圖片描述

5.Impala

5.1 Impala介紹

在這里插入圖片描述

5.2 Impala系統架構

在這里插入圖片描述

5.3 Impala查詢執行過程

在這里插入圖片描述

5.4 Impala和Hive的區別

在這里插入圖片描述

6.Hive編程實踐

參考博客

6.1 Hive的安裝和配置

在這里插入圖片描述

6.2 Hive的基本數據類型

在這里插入圖片描述

6.3 Hive的基本操作

在這里插入圖片描述

6.4 Hive的應用實例(wordCount)

在這里插入圖片描述

6.5 Hive的優勢

在這里插入圖片描述

7.總結

在這里插入圖片描述

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/445236.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/445236.shtml
英文地址，請注明出處：http://en.pswp.cn/news/445236.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

dubbo知識點總結持續更新

dubbo知識點總結持續更新

Dubbo 支持哪些協議，每種協議的應用場景，優缺點？ ? dubbo： 單一長連接和 NIO 異步通訊，適合大并發小數據量的服務調用， 以及消費者遠大于提供者。傳輸協議 TCP，異步，Hessian 序列化…

閱讀更多...

使用Linux auto Makefile自動生成的運行步驟

使用Linux auto Makefile自動生成的運行步驟

首先創建一個 Linux Makefile.am.這一步是創建Linux Makefile很重要的一步，automake要用的腳本配置文件是Linux Makefile.am，用戶需要自己創建相應的文件。之后，automake工具轉換成Linux Makefile.in。AD： 在向大家詳細介紹Linux …

閱讀更多...

無限踩坑系列(6)-mySQL數據庫鏈接錯誤

無限踩坑系列(6)-mySQL數據庫鏈接錯誤

mySQL數據庫鏈接錯誤錯誤1錯誤2長鏈接短連接應用場景需要一直訪問mySQL數據庫，遇到如下錯誤：錯誤1 釋放已經釋放的數據庫鏈接conn.，或者，操作已經釋放的數據庫鏈接conn.或者失去鏈接后再操作數據庫都可能會報這個錯誤 aise err.I…

閱讀更多...

初探函數式編程和面對對象式編程

初探函數式編程和面對對象式編程

文章目錄目錄1.函數式編程和面向對象編程概念1.1 函數式編程1.2 面向對象編程2.函數式編程和面向對象編程的優缺點2.1 函數式編程優點缺點2.2 面對對象編程優點缺點3.為什么在并行計算中函數式編程比較好3.1 什么是并行計算3.2 函數式編程興起原因目錄 1.函數式編程和面向對象…

閱讀更多...

linux常用解壓和壓縮文件的命令

linux常用解壓和壓縮文件的命令

linux常用解壓和壓縮文件的命令 .tar 解包：tar xvf FileName.tar打包：tar cvf FileName.tar DirName（注：tar是打包，不是壓縮！）———————————————.gz解壓1：gunzip FileN…

閱讀更多...

Python外(4)-讀寫mat文件

Python外(4)-讀寫mat文件

讀寫mat文件1.讀取2.寫入.mat 是matlab中數據存儲的標準格式，Python中能夠通過庫scipy讀取和保存。導入scipy庫 from scipy import io 1.讀取 io.loadmat(file_name, mdictNone, appendmatTrue, **kwargs) 簡便方式： io.loadmat(file_name) append mat–…

閱讀更多...

Linux下的xml文件的創建

Linux下的xml文件的創建

創建一個xml文檔流程如下： l 用xmlNewDoc函數創建一個文檔指針doc； l 用xmlNewNode函數創建一個節點指針root_node； l 用xmlDocSetRootElement將root_node設置為doc的根結點； l 給root_node添加一系列的子節點&#x…

閱讀更多...

壓力測試http_load 通過修改配置測試https協議成功了。

壓力測試http_load 通過修改配置測試https協議成功了。

到http://www.acme.com/software/http_load/ 下載http_load ，安裝也很簡單直接make;make instlall 就行。如果你需要測試https，你必須將 Makefile中 # CONFIGURE: If you want to compile in support for https, uncomment these # definitions. You w…

閱讀更多...

面向對象設計與分析40講（16）靜態工廠方法模式

面向對象設計與分析40講（16）靜態工廠方法模式

前面我們介紹了簡單工廠模式，在創建對象前，我們需要先創建工廠，然后再通過工廠去創建產品。如果將工廠的創建方法static化，那么無需創建工廠即可通過靜態方法直接調用的方式創建產品： // 工廠類，定義了靜…

閱讀更多...

搜索詳解

搜索詳解

搜索一.dfs和bfs簡介深度優先遍歷(dfs) 本質： 遍歷每一個點。遍歷流程： 從起點開始，在其一條分支上一條路走到黑，走不通了就往回走，只要當前有分支就繼續往下走，直到將所有的點遍歷一遍。剪枝&a…

閱讀更多...

Python外(5)-for-enumerate()-zip()

Python外(5)-for-enumerate()-zip()

for循環小技巧技巧1：enumerate()技巧2：打包兩個可遍歷數據，一起循環-zip()技巧1：enumerate() 在使用pytorch訓練網絡的過程中，官方教程給出了 for i, data in enumerate(trainloader, 0): 這涉及到enumerate函數的使用…

閱讀更多...

特征工程總結

特征工程總結

目錄1 特征工程是什么？ 2 數據預處理　　2.1 無量綱化　　　　2.1.1 標準化　　　　2.1.2 區間縮放法　　　　2.1.3 標準化與歸一化的區別　　2.2 對定量特征二值化　　2.3 對定性特征啞編碼　　2.4 缺失值計算　　2.5 數據變換 3 特征選擇　　3.1 Filter …

閱讀更多...

Jmeter測試并發https請求成功了

Jmeter測試并發https請求成功了

Jmeter2.4 如何測試多個并發https請求，終于成功了借此機會分享給大家首先要安裝jmeter2.4版本的，而且不建議大家使用badboy，因為這存在兼容性問題。對于安裝，我就不講了，我就說說如何測試https，想必大家都…

閱讀更多...

關系數據庫——sql基礎1定義

關系數據庫——sql基礎1定義

關系數據庫標準語言SQL 基本概念 SQL語言是一個功能極強的關系數據庫語言。同時也是一種介于關系代數與關系演算之間的結構化查詢語言（Structured Query Language），其功能包括數據定義、數據查詢、數據操縱和數據控制。 SQL的特點&#xff…

閱讀更多...

libcurl編程

libcurl編程

一、curl簡介 curl是一個利用URL語法在命令行方式下工作的文件傳輸工具。它支持的協議有：FTP, FTPS, HTTP, HTTPS, GOPHER, TELNET, DICT, FILE 以及 LDAP。curl同樣支持HTTPS認證，HTTP POST方法, HTTP PUT方法, FTP上傳, kerberos認證, HTTP上傳, 代理服…

閱讀更多...

大數據學習（09）--Hadoop2.0介紹

大數據學習（09）--Hadoop2.0介紹

文章目錄目錄1.Hadoop的發展與優化1.1 Hadoop1.0 的不足與局限1.2 Hadoop2.0 的改進與提升2.HDFS2.0 的新特性2.1 HDFS HA2.2 HDFS Federation3. 新一代的資源管理器YARN3.1 MapReduce1.0 缺陷3.2 YARN的設計思路3.3 YARN 體系結構3.4 YARN工作流程3.5 YARN框架與MapReduce1.0框…

閱讀更多...

Java多線程常用方法

Java多線程常用方法

start()與run() start() 啟動線程并執行相應的run()方法 run() 子線程要執行的代碼放入run()方法 getName()和setName() getName() 獲取此線程的名字 setName() 設置此線程的名字 isAlive() 是判斷當前線程是否處于活動狀態。活動狀態就是已經啟動尚未終止。 curren…

閱讀更多...

MachineLearning(2)-圖像分類常用數據集

MachineLearning(2)-圖像分類常用數據集

圖像分類常用數據集1 CIFAR-102.MNIST3.STL_104.Imagenet5.L-Sun6.caltech-101在訓練神經網絡進行圖像識別分類時，常會用到一些通用的數據集合。利用這些數據集合可以對比不同模型的性能差異。下文整理常用的圖片數據集合（持續更新中)。基本信息對比表格…

閱讀更多...

Linux網絡編程實例詳解

Linux網絡編程實例詳解

本文介紹了在Linux環境下的socket編程常用函數用法及socket編程的一般規則和客戶/服務器模型的編程應注意的事項和常遇問題的解決方法，并舉了具體代碼實例。要理解本文所談的技術問題需要讀者具有一定C語言的編程經驗和TCP/IP方面的基本知識。要實習本文的示例&…

閱讀更多...

python的命令解析getopt.getopt（）函數分析

python的命令解析getopt.getopt（）函數分析

【轉自http://hi.baidu.com/javalang/blog/category/Python】可以參考http://docs.python.org/lib/module-getopt.html # -*- coding: cp936 -*-import getoptimport sysdef usage():print Help Information:-h: Show help information-xValue:...if __name____main__:#set d…

閱讀更多...

最新文章