Hive常用命令總結


一、數據庫操作

-- 創建數據庫(默認路徑)
CREATE DATABASE IF NOT EXISTS myhive;-- 指定路徑創建數據庫
CREATE DATABASE myhive2 LOCATION '/myhive2';-- 查看數據庫信息
DESC DATABASE myhive;-- 刪除數據庫(強制刪除表)
DROP DATABASE myhive CASCADE;

二、表操作

1. 內部表 vs 外部表
-- 內部表(數據由Hive管理)
CREATE TABLE internal_table (id BIGINT, name STRING);-- 外部表(數據由HDFS管理,刪除表不刪數據)
CREATE EXTERNAL TABLE external_table (id INT) 
LOCATION '/hive_table/external_table';
2. 分區表
-- 一級分區
CREATE TABLE partition_table (id INT, name STRING) 
PARTITIONED BY (month STRING);-- 多級分區
CREATE TABLE multi_partition (id INT) 
PARTITIONED BY (year STRING, month STRING, day STRING);-- 添加分區
ALTER TABLE partition_table ADD PARTITION (month='202305');-- 刪除分區
ALTER TABLE partition_table DROP PARTITION (month='202304');-- 查看分區
SHOW PARTITIONS partition_table;
3. 分桶表
CREATE TABLE bucketed_table (id INT) 
CLUSTERED BY (id) INTO 4 BUCKETS;

三、數據操作

1. 數據加載
-- 從本地加載(復制文件)
LOAD DATA LOCAL INPATH '/path/data.txt' INTO TABLE my_table;-- 從HDFS加載(移動文件)
LOAD DATA INPATH '/hdfs/data.txt' INTO TABLE my_table;-- 動態分區加載(需先開啟動態分區)
SET hive.exec.dynamic.partition.mode=nonstrict;
INSERT INTO partition_table PARTITION (month) 
SELECT id, name, month FROM source_table;
2. 數據插入
-- 單條插入(不推薦,生成小文件)
INSERT INTO TABLE test VALUES (1, 'Alice');-- 批量插入(推薦)
INSERT OVERWRITE TABLE target_table 
SELECT * FROM source_table;

四、查詢優化

1. 避免全表掃描
-- 分區過濾
SELECT * FROM partition_table WHERE month='202305';-- 分桶過濾
SELECT * FROM bucketed_table WHERE id % 4 = 0;
2. JOIN優化
-- MapJoin(小表加載到內存)
SET hive.auto.convert.join=true;
SELECT /*+ MAPJOIN(small_table) */ * 
FROM big_table JOIN small_table ON big_table.id = small_table.id;
3. 數據傾斜處理
-- 分組聚合傾斜
SET hive.groupby.skewindata=true;-- JOIN傾斜(隨機打散)
SELECT * 
FROM big_table a
JOIN (SELECT *, RAND() AS rnd FROM skewed_table 
) b ON a.id = b.id AND b.rnd % 10 = 0;

五、元數據與配置

1. 表結構查看
-- 查看表結構
DESC formatted my_table;-- 查看建表語句
SHOW CREATE TABLE my_table;
2. 性能調優參數
-- 啟用壓縮
SET hive.exec.compress.output=true;
SET mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.SnappyCodec;-- 合并小文件
SET hive.merge.mapfiles=true;        -- Map輸出合并
SET hive.merge.tezfiles=true;        -- Tez輸出合并
SET hive.merge.size.per.task=256000000;  -- 合并后文件大小

六、經驗總結

  1. 分區 vs 分桶

    • 分區:按目錄劃分數據,適合范圍過濾(如日期)。
    • 分桶:按文件劃分數據,適合JOIN和采樣。
  2. 外部表使用場景

    • 數據需被多組件共享(如Spark、Impala)。
    • 避免誤刪數據(DROP TABLE不刪HDFS數據)。
  3. 小文件處理

    • 源頭控制:寫入時用INSERT OVERWRITE替代INSERT INTO
    • 事后合并ALTER TABLE table_name CONCATENATE;(僅ORC格式)。
  4. 動態分區陷阱

    • 必須配置hive.exec.dynamic.partition.mode=nonstrict
    • 避免分區數過多(超過hive.exec.max.dynamic.partitions)。
  5. 數據傾斜排查

    -- 檢查Key分布
    SELECT key, COUNT(1) FROM table GROUP BY key ORDER BY COUNT(1) DESC LIMIT 10;
    

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/91994.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/91994.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/91994.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Spring整合MyBatis詳解

Spring整合MyBatis詳解一、整合優勢與核心思路1.1 整合優勢1.2 核心整合思路二、環境搭建與依賴配置2.1 開發環境2.2 Maven依賴配置三、整合配置(核心步驟)3.1 數據庫配置文件(db.properties)3.2 Spring配置文件(sprin…

Windows CMD(命令提示符)中最常用的命令匯總和實戰示例

CMD命令匯總 下面是 Windows CMD(命令提示符)中最常用的命令匯總,共 30 個,包含說明和典型代碼示例,適合日常開發、系統操作、文件管理、網絡診斷等場景。一、文件與目錄操作(最常用)命令說明示…

嵌入式硬件篇---舵機(示波器)

舵機是一種高精度的角度控制執行器件,廣泛應用于機器人、航模、自動化設備等領域。其核心特點是能通過控制信號精準定位到特定角度(通常范圍為 0-180,部分可到 360 連續旋轉)。常見的舵機類型可根據結構、控制方式、用途等維度劃分…

嵌入式硬件篇---按鍵

按鍵是電子系統中最基礎的人機交互部件,通過機械或電子方式實現電路通斷或狀態切換。根據結構和工作原理的不同,常見按鍵可分為機械按鍵、薄膜按鍵、觸摸按鍵等,以下詳細介紹其工作原理、應用場景及電路特點:一、機械按鍵&#xf…

試用SAP BTP 06:AI服務-Data Attribute Recommendation

創建實例 方法一:BTP主控室-子賬戶-服務市場 輸入實例配置信息,下一步 不用參數,下一步 審核實例,點擊創建 實例創建完成后,創建服務鍵值 輸入鍵值名稱,點擊 創建 方法二(建議)&…

訓詁學中的“形音義互求”對NLP、知識圖譜、注意力機制的啟示

一、訓詁學與現代人工智能結合的學術價值與技術潛力1. ??訓詁學的核心優勢與AI語義分析的契合點??訓詁學作為中國傳統學術中研究古代文獻語義的核心學科,其方法論和理論框架對自然語言處理(NLP)的深層語義分析具有深刻的啟發性和技術補充…

http基礎一

1. HTTP是什么? HTTP(超文本傳輸協議,HyperText Transfer Protocol)是一種用于從萬維網服務器傳輸超文本到本地瀏覽器的協議。它是無狀態的客戶端-服務器協議,通常在Web瀏覽器和Web服務器之間用于傳輸網頁、圖片、視頻…

西門子 S7-1500 系列 PLC CPU 選型全指南:從類型到實戰

在西門子 S7-1500 系列 PLC 的系統構建中,CPU 作為核心控制單元,其選型直接決定了自動化系統的性能、功能擴展性和適用場景。本文將系統解析 S7-1500 系列 CPU 的類型劃分、核心參數、典型型號功能及選型流程,助你精準匹配工業控制需求。一、…

PaddleOCR 與 PaddleX 調試

PaddleOCR 與 PaddleX 調試1.安裝1.1 環境準備1.2用Conda創建虛擬環境2.測試2.1發票測試2.2 手寫漢字識別3.PaddleOCR 與 PaddleX 對比3.1 基于 PaddleX 部署 OCR 服務1.安裝 PP OCR 文檔 1.1 環境準備 根據自己操作系統按網上指導安裝 ccache ccache --version是否已安裝 …

imx6ull-系統移植篇11——U-Boot 移植(下)

目錄 前言 移植過程 添加開發板默認配置文件 添加開發板對應的頭文件 添加開發板對應的板級文件夾 修改Makefile 文件 修改imximage.cfg 文件 修改Kconfig 文件 修改MAINTAINERS 文件 修改 U-Boot 圖形界面配置文件 編譯 uboot LCD 驅動修改 修改源文件 修改頭文…

30天打牢數模基礎-模擬退火算法講解

二、完整Python代碼 import random import mathdef rastrigin(x, y):"""二維Rastrigin函數(目標函數,需最小化)參數:x: 自變量xy: 自變量y返回:函數值f(x,y)"""return 20 x**2 y**2 …

論文閱讀 - FastInst

文章目錄1 概述2 模型說明2.1 總體架構2.2 輕量pixel decoder2.3 實例激活引導的Query2.4 雙路徑更新策略2.5 GT掩碼引導學習2.6 損失函數3 效果1 概述 FastInst是一種基于query的實時實例分割方法,它能以32.5FPS的實時速度在COCO測試集上達到40.5的AP。在實例分割…

Elasticsearch 9.x 高可用集群部署教程(3 主節點 + 3 數據節點)

Elasticsearch 9.x 高可用集群部署教程(3 主節點 + 3 數據節點) 1. 集群架構規劃 生產環境中的 Elasticsearch 集群需要高可用性和容錯能力。以下是基于 3 主節點 + 3 數據節點的架構規劃: 節點分布: 主節點(Master Nodes):3 臺(master-node-1, master-node-2, maste…

Unity_通過鼠標點擊屏幕移動屏幕里的一個對象

文章目錄一、獲取到點擊物體的Tansform(摁下鼠標左鍵的瞬間)二、移動點擊的物體(摁著鼠標左鍵不放)三、松開左鍵清理被移動對象屬性總結注:本文章只是學習總結的筆記,視頻鏈接 一、獲取到點擊物體的Tansfor…

UDP中的單播,多播,廣播(代碼實現)

文章目錄1. UDP 單播(Unicast)示例2. UDP 廣播(Broadcast)示例3. UDP 多播(Multicast)示例3.1 多播發送方示例3.2 多播接收方示例總結1. UDP 單播(Unicast)示例 發送方向指定單個目…

神經網絡:卷積層

神經網絡 卷積操作 例子: 輸入:二維圖像 [1,2,0,3,1] [0,1,2,3,1] [1,2,1,0,0] [5,2,3,1,1] [2,1,0,1,1] 卷積核: [1,2,1] [0,1,0] [2,1,0] 然后需要將輸入圖像和卷積核轉化為4維張量 為什么轉為4維張量?因為卷積操作需要輸入圖像…

2.4 組件間通信Props(父傳子)

父組件 在父組件模板上的子組件上加上屬性值&#xff0c;屬性值就是想要傳遞給子組件的信息。 例如&#xff1a; <template> <div class"Big-box"><testBox :personList"p"></testBox> </div> </template>子組件 子組…

從零開始學習 Redux:React Native 項目中的狀態管理

Redux 是一個用于 JavaScript 應用程序的狀態管理庫&#xff0c;通常與 React 或 React Native 配合使用&#xff0c;幫助管理應用的狀態和數據流。其核心原理是通過集中式的“單一數據源”來管理應用狀態&#xff0c;避免組件之間的“層層傳遞”狀態和副作用。 Redux 的原理單…

[特殊字符] CentOS 7 離線安裝 MySQL 5.7 實驗

&#x1f427; CentOS 7 離線安裝 MySQL 5.7 實驗 針對企業無互聯網環境的系統&#xff0c;設計了如何在 CentOS 7 系統中&#xff0c;使用一臺可以聯網的主機&#xff08;NodeA&#xff09;為另一臺無法聯網的主機&#xff08;NodeB&#xff09;安裝 MySQL 5.7 數據庫及其依賴…

Redis 概率型數據結構實戰指南

1. 為什么要用「近似」&#xff1f; 隨著業務量爆發式增長&#xff0c;精確統計 的內存或 CPU 成本可能難以接受。例如&#xff1a; 統計一天內 唯一 IP 數 —— 用 SET 精確去重&#xff0c;百萬 IP→占用數百 MB。統計海量商品銷量、實時計算 P99 延遲、獲取 TOP-N 熱門頁面……