五、Hive表類型、分區及數據加載

在 Hive 中高效構建、管理和查詢數據倉庫，核心在于精準運用表類型（內部/外部）與分區策略（靜態/動態/多重）。這不僅決定數據的生命周期歸屬，更是優化海量數據查詢性能的關鍵手段。

一、表的身份權責：內部表 vs 外部表

內部表 (Managed Table)

定義: Hive 默認。Hive 同時管理元數據和 HDFS 數據（通常在倉庫目錄創建專屬子目錄）。
數據控制: Hive 擁有并控制數據完整生命周期。
生命周期: DROP TABLE 會刪除元數據和 HDFS 數據。
適用: 臨時表、中間結果，或完全由 Hive 控制的數據。

代碼：創建內部表

CREATE TABLE clicks_internal (session_id STRING,click_url STRING
) 
COMMENT '內部表，數據由Hive管理';

外部表 (External Table)

定義: 需顯式用 EXTERNAL，必須用 LOCATION 指定 HDFS 路徑。Hive 僅管理元數據。
數據控制: Hive 不擁有數據，數據保留在 LOCATION 原始位置。
生命周期: DROP TABLE 僅刪元數據，HDFS 數據保留。
適用: 管理已存在數據、需共享數據、防誤刪關鍵數據。

代碼：創建外部表

CREATE EXTERNAL TABLE impressions_external (ad_id STRING,user_id STRING)COMMENT '外部表，數據獨立于Hive'
LOCATION '/data/raw/impressions'; -- 指定數據存儲路徑

關鍵操作：若手動在外部表 LOCATION 路徑下增刪分區目錄，需執行 MSCK REPAIR TABLE table_name; 同步元數據。

代碼：修復外部表分區

MSCK REPAIR TABLE impressions_external;

核心對比: DROP TABLE 是否刪 HDFS 數據；Hive 是否移動/擁有數據。

二、查詢加速核心：分區表及其數據加載

分區通過分區鍵將大表數據物理劃分到 HDFS 不同子目錄，實現查詢剪枝，極大提升性能。

創建分區表

分區鍵不是表中實際存儲的列，但表現如普通列。
支持多重分區，形成層級目錄。

代碼：創建單分區表

CREATE TABLE daily_activity (user_id BIGINT,type STRING)
PARTITIONED BY (dt DATE);

代碼：創建多重分區表

CREATE TABLE page_views (user_id BIGINT, page_url STRING)
PARTITIONED BY (view_date DATE, country STRING) -- 按日期和國家分區
STORED AS ORC;

數據加載到分區表

關鍵：必須確保數據被放入正確的分區目錄。Hive 不推薦直接用 hadoop fs -put 到分區目錄（因為這不會更新元數據，除非后續 MSCK REPAIR 或 ALTER TABLE ADD PARTITION）。主要有兩種方式：

1. 靜態分區加載

機制: 在加載命令中明確指定目標分區的所有鍵值。Hive 知道數據確切的目的地。
方式一：LOAD DATA (通常用于加載已準備好的文件到特定分區)
- LOCAL 關鍵字表示文件在運行 Hive 命令的本地機器上（對 HiveServer2 來說是 Server 所在機器）。省略 LOCAL 表示文件在 HDFS 上。
- OVERWRITE 會先清空目標分區再加載。省略則追加。
代碼：從本地加載到單分區
```
LOAD DATA LOCAL INPATH '/path/to/local/activity_20231103.txt'
OVERWRITE INTO TABLE daily_activity
PARTITION (dt='2023-11-03');
```
代碼：從 HDFS 加載到多重分區
```
LOAD DATA INPATH '/user/data/views_us_20231103'
INTO TABLE page_views
PARTITION (view_date='2023-11-03', country='US');
```

方式二：INSERT OVERWRITE/INTO ... PARTITION (通常用于從其他表查詢結果并寫入特定分區)

INSERT OVERWRITE 覆蓋分區，INSERT INTO 追加（Hive 0.14+）。

代碼：從源表查詢插入到特定分區

INSERT OVERWRITE TABLE page_views
PARTITION (view_date='2023-11-03', country='CA') -- 靜態指定分區
SELECT user_id, page_url
FROM source_views
WHERE event_date = '2023-11-03' AND user_country = 'CA';

靜態分區特點: 控制精準；適合分區值已知/固定；分區組合多時語句繁瑣。

2. 動態分區加載

機制: 僅用于 INSERT ... SELECT。在 PARTITION 子句中不指定（或部分不指定）分區鍵的值，讓 Hive 根據 SELECT 查詢結果中對應列（必須是最后幾列）的實際值，自動推斷、創建分區目錄并寫入數據。
核心配置:
- SET hive.exec.dynamic.partition=true; (必須啟用)
- SET hive.exec.dynamic.partition.mode=nonstrict; (推薦。允許所有分區鍵動態。strict 模式至少需一個靜態鍵，防誤操作)
- (可選) hive.exec.max.dynamic.partitions... 等參數控制資源。
SELECT 列順序: 極其重要！SELECT 列表中的最后幾列必須按照 PARTITION 子句中動態分區鍵的順序排列，且類型兼容。

代碼：全動態分區加載 (單分區鍵)

SET hive.exec.dynamic.partition.mode=nonstrict;
INSERT OVERWRITE TABLE daily_activity
PARTITION (dt) -- dt 是動態分區鍵
SELECT user_id, type, event_date -- event_date 的值將決定 dt 分區值
FROM source_table;

代碼：全動態分區加載 (多重分區鍵)

SET hive.exec.dynamic.partition.mode=nonstrict;
INSERT OVERWRITE TABLE page_views
PARTITION (view_date, country) -- view_date, country 都是動態分區鍵
SELECT user_id, page_url, event_date, user_country -- 最后兩列對應分區鍵
FROM source_views;

代碼：混合分區加載 (多重分區，靜態+動態)

-- 靜態指定 view_date, 動態指定 country
INSERT OVERWRITE TABLE page_views
PARTITION (view_date='2023-11-03', country) -- 靜態在前，動態在后
SELECT user_id, page_url, user_country -- 最后一列對應動態分區鍵 country
FROM source_views
WHERE event_date = '2023-11-03';

動態分區特點: 自動化、便捷，尤其適合批量轉換或分區值多樣/未知；需小心配置，謹防意外產生過多小分區或數據傾斜。

手動管理分區

除加載外，可直接操作分區元數據。

代碼：手動添加/刪除/修改分區

ALTER TABLE page_views ADD IF NOT EXISTS PARTITION (view_date='2023-11-04', country='CA');
ALTER TABLE page_views DROP IF EXISTS PARTITION (view_date='2023-11-01', country='UK');
ALTER TABLE page_views PARTITION (view_date='2023-11-03', country='US') SET LOCATION 'hdfs:///new/path/...'; -- 修改路徑 (不移動數據)

三、實戰演練與深度思考

練習題 1:
/data/shared_logs 有需長期保留、多部門共享的日志。應創建內部表還是外部表？為何？若手動在 HDFS 增新分區目錄及數據，如何讓 Hive 感知？

練習題 2:
源表 orders_source (含 order_id, user_id, order_amount, order_country, order_date DATE)。創建按國家和日期分區的外部表 orders_partitioned (ORC格式，數據存 /data/orders_part)，并寫動態分區導入數據的 INSERT 語句。

練習題 3:
靜態分區 PARTITION 子句的值與源數據列值必須一致嗎？動態分區呢？解釋原因。

練習題 4:
表 daily_activity 按 dt 分區。SELECT COUNT(*) FROM daily_activity WHERE user_id = 123; 會利用分區提速嗎？為什么？如何設計能讓基于 user_id 的查詢提速？

練習題 5:
解釋 hive.exec.dynamic.partition.mode=strict 與 nonstrict 的區別及 strict 設計意圖。

練習題 6:
如何將內部表 prod_data 無風險轉為外部表？寫 ALTER 語句。

練習題 7 (代碼):
查看 orders_partitioned 表的完整 DDL (創建語句)。

練習題 8 (代碼):
列出 orders_partitioned 表中 order_country='CA' 的所有分區。

練習題 9 (代碼):
為分區表 metrics_table (分區鍵 report_date DATE) 批量添加 2023-12-01 到 2023-12-05 的分區元數據（假設 HDFS 目錄結構已備好）。

練習題 10 (代碼):
從 orders_partitioned 表中一次性刪除多個分區：country='JP', date='2023-06-18' 和 country='KR', date='2023-06-19'。

練習題 11 (代碼):
寫查詢計算 orders_partitioned 表中 order_country 為 ‘DE’ 或 ‘FR’，且 order_date 在 2023年第三季度的總訂單數。

練習題 12 (代碼):
查看 page_views 表的分區鍵信息。

練習題 13 (代碼):
使用 INSERT OVERWRITE DIRECTORY 將 page_views 表特定分區 (date='2023-11-03', country='US') 數據導出到本地目錄 /tmp/exported_data，字段分隔符為 |。

練習題 14 (代碼):
假設 daily_activity 表你想按 dt 和 type 進行動態分區，源表 source_table 包含 user_id, activity_type, event_date。寫出正確的 INSERT … SELECT 語句，確保動態分區列順序正確。

練習題 15 (代碼):
創建一個內部表 user_profiles，包含 user_id INT, profile MAP<STRING,STRING>，字段分隔符為 ,，Map 鍵值對分隔符為 #，Map 內 KV 分隔符為 :。

答案解析

答案 1:
外部表。原因：數據獨立、需共享/保留；DROP 安全。執行 MSCK REPAIR TABLE table_name; 同步新分區。

答案 2:
DDL:

CREATE EXTERNAL TABLE orders_partitioned (
order_id BIGINT, 
user_id BIGINT, 
order_amount DECIMAL(18,2))
PARTITIONED BY (order_country STRING, order_date DATE) STORED AS ORC
LOCATION '/data/orders_part';

INSERT:

SET hive.exec.dynamic.partition.mode=nonstrict;
INSERT OVERWRITE TABLE orders_partitioned PARTITION (order_country, order_date)
SELECT order_id, user_id, order_amount, order_country, order_date FROM orders_source;

答案 3:

靜態：不必。指定值決定目錄。
動態：必須。分區值源自 SELECT 列實際值。

答案 4:
不會。WHERE 未用分區鍵 dt。基于 user_id 提速可考慮分桶 (CLUSTERED BY (user_id) ...)。

答案 5:
strict 要求至少一個靜態分區鍵。意圖：防誤操作（如忘加 WHERE）全表掃描創海量分區。nonstrict 無此限制。

答案 6:

ALTER TABLE prod_data SET TBLPROPERTIES('EXTERNAL'='TRUE');

答案 7:

SHOW CREATE TABLE orders_partitioned;

答案 8:

SHOW PARTITIONS orders_partitioned PARTITION(order_country='CA');

答案 9:
標準 HiveQL 不支持日期范圍批量 ADD PARTITION。需腳本循環或 MSCK REPAIR。
腳本思路 (偽代碼):

for day in {01..05}; do
hive -e "ALTER TABLE metrics_table ADD IF NOT EXISTS PARTITION (report_date='2023-12-${day}');"
done

答案 10:
需執行多次 ALTER TABLE ... DROP PARTITION。

ALTER TABLE orders_partitioned DROP IF EXISTS PARTITION (order_country='JP', order_date='2023-06-18');
ALTER TABLE orders_partitioned DROP IF EXISTS PARTITION (order_country='KR', order_date='2023-06-19');

答案 11:

SELECT COUNT(*) FROM orders_partitioned
WHERE order_country IN ('DE', 'FR')
AND order_date >= '2023-07-01' AND order_date <= '2023-09-30';

答案 12:

DESCRIBE FORMATTED page_views; -- 查看 "# Partition Information"
-- 或
DESCRIBE page_views; -- 分區鍵列在最后

答案 13:

INSERT OVERWRITE LOCAL DIRECTORY '/tmp/exported_data' -- LOCAL 指本地
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|'
SELECT user_id, page_url, view_time -- 選擇需要的列，而不是 *
FROM page_views
WHERE view_date='2023-11-03' AND country='US';

答案 14:
需要創建 daily_activity 表時定義分區鍵為 PARTITIONED BY (dt DATE, type STRING)。

SET hive.exec.dynamic.partition.mode=nonstrict;
INSERT OVERWRITE TABLE daily_activity
PARTITION (dt, type) -- dt 和 type 都是動態
SELECT user_id, event_date, activity_type -- 最后兩列 event_date, activity_type 對應分區鍵
FROM source_table;

答案 15:

CREATE TABLE user_profiles (
user_id INT,
profile MAP<STRING,STRING>
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
COLLECTION ITEMS TERMINATED BY '#' -- Map 內 KVP 分隔符
MAP KEYS TERMINATED BY ':'; -- Map 內 K 和 V 分隔符