Hive增量遷移方案與實操PB級

客戶一共1PB數據,每天新增10T,有些表只保留3天。

需要客戶提供:

a.tbl_size(大小GB)?? ?a.last_mtime(最新更新時間)?? ?a.tbl_ttl(保留時間)?? ?b.last_part_dt(分區值)?? ?b.last_part_size(最新分區大小) t_day(表更新規律,t+幾)


因為目前離全量遷移,已經過了一個月了
1、先update全部的表(去掉30天以內不保留的)
刪除30天內的,90T,重遷
2、其他表刪除當前最新分區(不改歷史,只改最近的,所以我刪除最近的)
,直接遷移update?
----檢測當前最新分區腳本輸出,刪除最新分區,update遷移整張表

增量hdfs數據追平-CSDN博客
3、定時update-delete表,T+2分區數據。(客戶自己跑T+1)

qianyi_delete_update.sh

#!/bin/bash#1.讀取文件su - hadoop
#改成自己互信的票據
`kinit -kt /var/krb5kdc/emr.keytab hadoop/xx.xx.xx.107@TBDS-09XXXXXE`
#獲取當天減2,T+2的時間
dt_jian_2=$(date -d "-2 days" +%Y%m%d)
echo $dt_jian_2BEELINE_CMD="beeline -u 'jdbc:hive2://xx.xx.xx.104:7001/cfc;principal=hadoop/xx.xx.xx.104@TBDS-09XXXXXE'"echo "時間$dt_jian_2-------------------------" >> /home/hadoop/qianyi_zengliang/rs.txt
while IFS= read -r table_name
dosource_path=hdfs://xx.xx.xx.7:8020/apps/hive/warehouse/bigdata.db/$table_nametarget_path=hdfs://xx.xx.xx.104:4007/apps/hive/warehouse/bigdata.db/$table_nameecho "刪除表: $table_name ,開始hdfs://xx.xx.xx.104:4007/apps/hive/warehouse/bigdata.db/$table_name/dt=$dt_jian_2"hdfs dfs -rm -r hdfs://xx.xx.xx.104:4007/apps/hive/warehouse/bigdata.db/$table_name/dt=$dt_jian_2#2.distcp,update,delete遷移#手動指定分區hadoop distcp -skipcrccheck -i -strategy dynamic -bandwidth 30 -m 20  $source_path/dt=$dt_jian_2 $target_path/dt=$dt_jian_2#修復分區$BEELINE_CMD -e "MSCK REPAIR TABLE $table_name;"if [ $? -eq 0 ]; thenecho "Successfully repaired partitions for table: $table_name"elseecho "Failed to repair partitions for table: $table_name"fi    echo "完成$source_path到$target_path的t-2的更新,$dt_jian_2" >> /home/hadoop/qianyi_zengliang/rs.txt
done < "$1"

b_input_table.txt

ods_xxx

dwd_xxx

crontab -e

46 12 * * * source /etc/profile && nohup sh /home/hadoop/qianyi_zengliang/qianyi_delete_update.sh /home/hadoop/qianyi_zengliang/b_input_table.txt > /home/hadoop/qianyi_z

engliang/b.log 2>&1 &

4、最后建表補數1241張
補數沒有分區的,以及分區不是dt的(1T)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/70251.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/70251.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/70251.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

未來游戲:當人工智能重構虛擬世界的底層邏輯

未來游戲&#xff1a;當人工智能重構虛擬世界的底層邏輯 在《賽博朋克2077》夜之城的霓虹燈下&#xff0c;玩家或許已經注意到酒吧里NPC開始出現微表情變化&#xff1b;在《艾爾登法環》的開放世界中&#xff0c;敵人的戰術包抄逐漸顯露出類人智慧。這些細節預示著游戲產業正站…

React中如何處理高階組件中的錯誤

在 React 高階組件中處理錯誤是確保應用程序健壯性和穩定性的重要環節。以下是一些處理高階組件中錯誤的常見方法&#xff1a; 1. 捕獲渲染時的錯誤 在高階組件中&#xff0c;渲染過程可能會因為各種原因&#xff08;如 props 數據格式錯誤、組件內部邏輯異常等&#xff09;拋…

deepseek-v3在阿里云和騰訊云的使用中的差異

隨著deepseek在各大云商上線&#xff0c;試用了下阿里云和騰訊云的deepseek服務&#xff0c;在回答經典數學問題9.9和9.11誰大時&#xff0c;發現還是有差異的。將相關的問題記錄如下。 1、問題表現 筆者使用的openai的官方sdk go-openai。 因本文中測驗主要使用阿里云和騰訊…

寶塔面板開始ssl后,使用域名訪問不了后臺管理

寶塔面板后臺開啟ssl訪問后&#xff0c;用的證書是其他第三方頒發的證書 再使用 域名/xxx 的形式&#xff1a;https://域名:xxx/xxx 訪問后臺&#xff0c;結果出現如下&#xff0c;不管使用 http 還是 https 的路徑訪問都進不后臺管理 這個時候可以使用 https://ip/xxx 的方式來…

開發板部署|RK3588部署DeepSeek-1.5B

前言 在 RK3588 上部署大模型可以顯著提升計算效率、節能、加速推理過程&#xff0c;并實現本地化推理&#xff0c;適合各種邊緣計算應用&#xff0c;如智能設備、自動駕駛、工業機器人、健康監測等領域。此外&#xff0c;RK3588 配備了強大的 NPU&#xff08;神經網絡處理單元…

UDP與TCP

用UDP一定比用TCP快嗎&#xff1f; 假設我們需要在a電腦的進程發一段數據到b電腦的進程我們可以選擇使用TCP或UDP協議進行通信。 對于TCP這樣的可靠性協議每次消息發出后都能明確知道對方有沒有收到&#xff0c;就像打電話一樣&#xff0c;只要“喂喂"兩下對方就能回你個…

【ELK】【Elasticsearch】數據查詢方式

1. 簡單查詢&#xff08;URI Search&#xff09; 通過 URL 參數直接進行查詢&#xff0c;適合簡單的搜索場景。 示例&#xff1a; bash 復制 GET /index_name/_search?qfield_name:search_value 說明&#xff1a; index_name&#xff1a;索引名稱。 field_name&#xf…

軟件測試:定義和實質

軟件缺陷的定義&#xff1a; 未實現說明書要求的功能出現了說明書指明不應出現的錯誤實現了說明書未提到的功能未實現說明書沒有明確提出但應該實現的目標軟件難以理解&#xff0c;不易使用&#xff0c;運行緩慢 或者從測試員客戶會認為不好的。 軟件缺陷的原因&#xff1a; …

【軟考】【2025年系統分析師拿證之路】【啃書】第十一章 軟件需求工程(十二)

目錄 需求的層次需求工程的主要活動需求的記錄技術需求分析需求定義 需求的層次 業務需求用戶需求系統需求 需求工程的主要活動 需求獲取需求分析形成需求規格需求確認和驗證需求管理 需求的記錄技術 任務卡片場景說明用戶故事 需求分析 方法&#xff1a; 結構化分析&a…

計算機網絡原理試題六

一、單項選擇 1.(單選題,5分)IP地址中網絡號的作用有 A.指定了設備能夠進行通信的網絡 B.指定了主機所屬的網絡 C.指定了被尋址的子網中的某個節點 D.標志了網絡中的主機 答案:B 2.(單選題,5分)關于IP主機地址,下列說法正確的是 A.網段部分不可以全1也不可以全0 B.主機部分可…

路由基礎 | 路由引入實驗 | 不同路由引入方式存在的問題

注&#xff1a;本文為 “路由基礎 | 路由表 | 路由引入” 相關文章合輯。 未整理去重。 路由基本概念 1—— 路由表信息、路由進表以及轉發流程、最長掩碼匹配原則 靜下心來敲木魚已于 2023-11-26 14:06:22 修改 什么是路由 路由就是指導報文轉發的路徑信息&#xff0c;可以…

更高效實用 vscode 的常用設置

VSCode 可以說是文本編輯神器, 不止程序員使用, 普通人用其作為文本編輯工具, 更是效率翻倍. 這里分享博主對于 VSCode 的好用設置, 讓 VSCode 如虎添翼 進入設置 首先進入設置界面, 后續都在這里進行配置修改 具體設置 每項配置通過搜索關鍵字, 來快速定位配置項 自動保存…

本地部署DeepSeek

1、下載ollama 瀏覽器輸入ollama&#xff0c;打開ollama網站&#xff0c;選擇版本下載 可以使用迅雷下載 打開迅雷&#xff0c;復制網址 2、安裝ollama ollama下載完成之后&#xff0c;安裝 3、查看ollama版本 Win R&#xff0c;cmd ollama -v 查看ollama版本 4、下載De…

大模型驅動的業務自動化

大模型輸出token的速度太低且為統計輸出&#xff0c;所以目前大模型主要應用在toP&#xff08;人&#xff09;的相關領域&#xff1b;但其智能方面的優勢又是如此的強大&#xff0c;自然就需要嘗試如何將其應用到更加廣泛的toM&#xff08;物理系統、生產系統&#xff09;領域中…

Leetcode1299:將每個元素替換為右側最大元素

題目描述&#xff1a; 給你一個數組 arr &#xff0c;請你將每個元素用它右邊最大的元素替換&#xff0c;如果是最后一個元素&#xff0c;用 -1 替換。 完成所有替換操作后&#xff0c;請你返回這個數組。 代碼思路&#xff1a; 方法 replaceElements 輸入參數&#xff1a;…

Java 大視界 -- 人才需求與培養:Java 大數據領域的職業發展路徑(92)

&#x1f496;親愛的朋友們&#xff0c;熱烈歡迎來到 青云交的博客&#xff01;能與諸位在此相逢&#xff0c;我倍感榮幸。在這飛速更迭的時代&#xff0c;我們都渴望一方心靈凈土&#xff0c;而 我的博客 正是這樣溫暖的所在。這里為你呈上趣味與實用兼具的知識&#xff0c;也…

Weboffice在線Word權限控制:限制編輯,只讀、修訂、禁止復制等

在現代企業辦公中&#xff0c;文檔編輯是一項常見且重要的任務。尤其是在線辦公環境中&#xff0c;員工需要在網頁中打開和編輯文檔&#xff0c;但如何確保這些文檔只能進行預覽而無法被編輯或復制&#xff0c;成為許多企業面臨的一個痛點。尤其是在處理涉密文檔時&#xff0c;…

基于 Spring Boot 和微信小程序的倉儲管理系統設計與實現

大家好&#xff0c;今天要和大家聊的是一款基于 Spring Boot 和 微信小程序 的“倉儲管理系統”的設計與實現。項目源碼以及部署相關事宜請聯系我&#xff0c;文末附上聯系方式。 項目簡介 基于 Spring Boot 和 微信小程序 的“倉儲管理系統”主要使用者分為 員工、供應商 和…

Stable Diffusion本地化部署超詳細教程(手動+自動+整合包三種方式)

一、 Stable Diffusion簡介 2022年作為AIGC&#xff08;Artificial Intelligence GeneratedContent&#xff09;時代的元年&#xff0c;各個領域的AIGC技術都有一個迅猛的發展&#xff0c;給工業界、學術界、投資界甚至競賽界都注入了新的“[AI(https://so.csdn.net/so/search…

WPS的AI助手進化跟蹤(靈犀+插件)

Ver V0.0 250216: 如何給WPS安裝插件用以支持其他大模型LLM V0.1 250217: WPS的靈犀AI現在是DeepSeek R1(可能是全參數671B) 前言 WPS也有內置的AI&#xff0c;叫靈犀&#xff0c;之前應是自已的LLM模型&#xff0c;只能說是屬于“能用&#xff0c;有好過無”&#xff0c;所…