新舊 Hive 集群之前數據遷移單表腳本
migrate_hive_single_table.sh
#!/bin/bash#配置參數
OLD_NAMENODE="hdfs://<old-namenode>:<old-port>"
EXPORT_PATH="/tmp/hive-export/dm"
NEW_DB="dm_events"
TABLE_NAME="dm_usereventfinal"
SIZE_THRESHOLD=$((32 * 1024*1024)) # 32MB大小閾值# 檢查命令執行結果的函數
check_command(){if [ $? -ne 0 ]; thenecho "Error: $1 失敗,退出腳本。"exit 1fi
}# 1.導出舊集群的數據
echo "正在導出數據..."
hive -e "EXPORT TABLE ${NEW_DB}.${TABLE_NAME} TO '${EXPORT_PATH}';"
check_command "數據導出"# 2.檢查導出文件的大小
echo "檢查文件大小..."
HDFS_SIZE=$(hadoop fs -du -s ${EXPORT_PATH} | awk '{print $1}')
check_command "獲取文件大小"
echo "導出文件大小為:$HDFS_SIZE 字節"# 3.根據文件大小選擇遷移方法
if ["$HDFS_SIZE" -le "$SIZE_THRESHOLD" ]; thenecho "文件小于 32MB,使用簡單復制方法..."hadoop fs -cp ${OLD_NAMENODE}${EXPORT_PATH} ${EXPORT_PATH} check_command "簡單復制"
elseecho "文件大于 32MB,使用 DistCp 工具遷移..."hadoop distcp -update -skipcrccheck
${OLD_NAMENODE}${EXPORT_PATH} ${EXPORT_PATH}check_command "數據遷移"
fi# 4.在新集群中創建數據庫(如果不存在)
echo "正在創建數據庫(如果不存在)..."
hive -e "CREATE DATABASE IF NOT EXISTS ${NEW_DB};"
check_command "創建數據庫"# 5.在新集群中導入數據echo "正在導入數據到新集群..."
hive -e "IMPORT TABLE ${NEW_DB}.${TABLE_NAME} FROM'${EXPORT_PATH}';"
check_command "數據導入"echo "數據遷移完成!"
新舊 Hive 集群之前數據遷移所有表、視圖、UDF函數的腳本
migrate_hive_all.sh
#!/bin/bash# 配置參數
OLD_NAMENODE="hdfs://<old-namenode>:<old-port>"
EXPORT_BASE_PATH="/tmp/hive-export"
NEW_DB="your_database_name"
SIZE_THRESHOLD=$((32*1024*1024)) # 32MB大小閾值# 檢查命令執行結果的函數
check_command() {if [ $? -ne 0 ]; thenecho "Error: $1 失敗,退出腳本。"exit 1fi
}# 導出元數據信息
echo "導出表和視圖信息..."
hive -e "SHOW TABLES IN ${NEW_DB};" > tables.txt
hive -e "SHOW VIEWS IN ${NEW_DB};"> views.txt# 遷移每個表
echo"遷移表數據..."
while read TABLE; doEXPORT_PATH="${EXPORT_BASE_PATH}/${TABLE}"echo"處理表:$TABLE"hive -e "EXPORT TABLE ${NEW_DB}.${TABLE} TO '${EXPORT_PATH}'" check_command "導出數據表"echo "檢查文件大小..."HDFS_SIZE=$(hadoop fs -du -s ${EXPORT_PATH} | awk '{print $1}')check_command "獲取文件大小"if["$HDFS_SIZE" -le "$SIZE_THRESHOLD" ]; thenecho "文件小于 32MB,使用簡單復制方法..."hadoop fs -cp ${OLD_NAMENODE}${EXPORT_PATH} ${EXPORT_PATH} elseecho "文件大于 32MB,使用DistCp工具遷移..."hadoop distcp -update -skipcrccheck
${OLD_NAMENODE}${EXPORT_PATH} ${EXPORT_PATH}ficheck_command"數據遷移"hive -e "IMPORT TABLE ${NEW_DB}.${TABLE} FROM '${EXPORT_PATH}'"check_command "導入數據表"
done < tables.txt# 重建視圖
echo "重建視圖..."
while read VIEW; doecho"處理視圖:$VIEW"DEFINITION=$(hive -e "SHOW CREATE TABLE ${NEW_DB}.${VIEW}") check_command "獲取視圖定義"echo "${DEFINITION}" | hive-echeck_command "重建視圖"
done <views.txt# 遷移 UDF
echo "列出并注冊 UDF..."
# 假設您已經收集了所有的UDF及其JAR路徑
UDF_LIST=("function_name_1" "function_name_2")
JAR_PATH_LIST=("/path/to/jar1" "/path/to/jar2")for i in "${!UDF_LIST[@]}"; doFUNCTION="${UDF_LIST[$i]}"JAR_PATH="${JAR_PATH_LIST[$i]}"echo"注冊 UDF: $FUNCTION from $JAR_PATH"hive -e "ADD JAR ${JAR_PATH}; CREATE TEMPORARY FUNCTION${FUNCTION} AS'fully.qualified.class.name.of.Function';" check_command "注冊UDF ${FUNCTION}" doneecho "所有 Hive 表、視圖和 UDF 函數遷移完成!"