主流大數據調度工具DolphinScheduler之數據ETL流程

?今天給大家分享主流大數據調度工具DolphinScheduler,以及數據的ETL流程。

一:調度工具DS

主流大數據調度工具DolphinScheduler,

其定位:解決數據處理流程中錯綜復雜的依賴關系

任務支持類型:支持傳統的shell任務,同時支持大數據平臺任務調度:MR、Spark、SQL(mysql、postgresql、hive/sparksql)、python、procedure、sub_process。

二,數據ETL流程(調度流程)

今天分享一個把數據從hive推送到人大金倉數據庫的案例。

1,源數據--hive

hive表數據如圖所示,

在這里一共5條數據,展示的4個字段都是主鍵,dt為分區。

2,DS主界面

項目管理主界面,包含了很多的工作流,工作流需要自己配置。

3,創建工作流

在這里,我們寫一個export的sheet頁,主要實現數據從hive推送到數據庫。

dept的內容是指的是前置依賴。

4,工作流內容配置

表名是? f_con_fund_deal_reminder

前綴 export 指的是數據推送,一般就是把數據從hive推送到其他數據庫。

最重要的是腳本內容:

這里腳本內容是支持shell任務,所以大家一定要懂shell語法。

當然還要再設置參數,這里根據shell內容來,參數可以設置多個。

5,shell腳本開發

在這里底層邏輯采用datex的方式來進行數據的ETL。

5.1,日期配置

涉及時間或者其他參數的傳參。

5.2,源表配置

這里的查詢語句? query_sql,是可以將其查詢出來的數據進行數據的傳輸(功能強大!!!)。

5.3,目標表配置

tgt_tab_pkey : 是數據庫該表的主鍵。(下次ETL,如果數據發生變更,會把同主鍵的數據進行變更。)

tgt_tab_column : 是源表查詢出來的字段映射到目標表的字段(映射靈活)。

tgt_pre_sql : 在數據ETL之前,可以先對數據庫的表先進行操作(牛逼)。

5.4,其他配置

該調度是自然日跑批還是交易日跑批。

通用配置:這部分不需要大家更改。

底層邏輯采用datex的方式來進行數據的ETL,

寫在了comment_data_sync.sh里面了。

6,參數的設置/調度運行

是否補數:就是可以跑批任意哪一天的調度。

調度日期:需要自己設置。然后點擊運行。

7,在目標庫看ETL結果

查詢發現,只有4條數據。要的就是這個,因為我們設置主鍵了。

同主鍵數據,會隨機插入一條數據。這個大家看步驟一。

8,工作流日志

看看工作日志長啥樣,里面運行了什么。

發現有剛剛的shell腳本運行過程:

打印最終數據推送的結果:


好啦,今天這篇主流調度工具DS的簡單介紹,以及工作流創建,腳本開發,調度流程,日志查看,一整個流程,就分享到這里。

下次再見!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/45888.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/45888.shtml
英文地址,請注明出處:http://en.pswp.cn/web/45888.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python學習4---迭代器和生成器的區別

一、迭代器 定義:迭代器是一個可以記住遍歷的位置的對象。迭代器對象必須實現兩個方法,iter() 和 next()。字符串、列表或元組等數據類型都是可迭代對象,但它們不是迭代器,因為它們不具有 next() 方法。迭代器對象用于遍歷可迭代對…

冷卻塔由那些配件組成

1、淋水填料 將需要冷卻的水(熱水)多次濺灑成水滴或形成水膜,以增加水和空氣的接觸面積和時間,促進水和空氣的熱交換。 填料在開式橫流冷卻塔的作用是增加循環水與空氣的接觸面積,并延長冷卻水停留在空氣中的時間&am…

LabVIEW工業設備姿態監測系統

開發了一種基于LabVIEW的工業設備姿態監測系統,針對現有監測設備在適應性和反應時間上的不足,采用了LabVIEW軟件和STM32微控制器,通過高精度姿態傳感器實現了對設備姿態的快速準確監測,大大提高了工業作業的安全與效率。 項目背景…

C++深度解析教程筆記9-靜態成員變量,靜態成員函數,二階構造,友元,函數重載,操作符重載

C深度解析教程筆記9 第25課 - 類的靜態成員變量實驗-數對象個數(失敗)實驗-靜態變量小結 第26課 - 類的靜態成員函數實驗-修改對象的靜態變量數值實驗-利用靜態成員函數實驗-靜態變量靜態函數實現統計對象個數小結 第27課 - 二階構造模式實驗-初始化是否…

百度人臉識別Windows C++離線sdk C#接入

百度人臉識別Windows C離線sdk C#接入 目錄 說明 設計背景 ? 場景特點: ? 客戶特點: ? 核心需求: SDK 包結構 效果 代碼 說明 自己根據SDK封裝了動態庫,然后C#調用。 功能接口 設計背景 ? 場景特點: -…

【滲透入門】XSS

文章目錄 XSS漏洞XSS舉例XSS類型防御方式 XSS漏洞 XSS(Cross-Site Scripting,跨站腳本攻擊)是一種常見的Web應用程序安全漏洞。XSS漏洞發生在應用程序未能充分過濾用戶提供的數據,使得惡意腳本得以在不知情的用戶的瀏覽器中被執行…

ARFoundation系列講解 - 91 Immersal 簡介

一、Immersal 簡介 Immersal是一家專注于增強現實(AR)技術的公司,致力于開發和推廣空間感知解決方案(簡稱:大空間技術)。他們的核心產品是一個名為Immersal SDK的開發工具包,通過視覺定位(VPS)能夠輕松地在現實世界中實現高精度的定位和增強現實體驗。 二、Immersal …

Spring Boot集成Knife4j:實現高效API文檔管理

Spring Boot集成Knife4j:實現高效API文檔管理 在軟件開發過程中,編寫和維護接口文檔是一項必不可少的任務。隨著微服務架構的流行,API文檔的重要性日益凸顯。然而,傳統的手動編寫文檔方式不僅效率低下,而且容易出錯。…

支持前端路由權限和后端接口權限的企業管理系統模版

一、技術棧 前端:iview-admin vue 后端:springboot shiro 二、基于角色的權限控制 1、路由權限 即不同角色的路由訪問控制 2、菜單權限 即不同角色的菜單列表展示 3、按鈕權限 即不同角色的按鈕展示 4、接口權限 即不同角色的接口訪問控制 三…

數字化時代的生產革新:數字孿生平臺如何助力新質生產力

一.新質生產力 在當今快速發展的科技和信息時代,企業和組織在提高生產效率和質量方面面臨著越來越多的挑戰和機遇。新質生產力的概念應運而生,強調通過創新和技術進步,不僅提升生產的數量和速度,更重要的是優化生產方式、改善產品…

leetcode熱題100.分割等和子集(動態規劃)

分割等和子集 Problem: 416. 分割等和子集 思路 我選擇使用動態規劃的方法來解題。我們需要判斷是否可以將數組分割成兩個子集,使得這兩個子集的和相等。這個問題可以轉化為在數組中找到一個子集,使得其和等于數組總和的一半。 解題過程 首先&#xf…

消息隊列-RocketMQ

消息隊列-RocketMQ 1、RocketMQ是什么?2、RocketMQ有什么優缺點?3、消息隊列主要有哪幾種消息模型?4、RocketMQ主要使用哪種消息模型?5、RocketMQ的基本架構是怎樣的?有哪些核心組件?6、RocketMQ通過什么方式保證消息的可用性和可靠性?7、什么情況下會發生消息丟失?Roc…

設計模式大白話之裝飾者模式

想象一下,你走進一家咖啡館,點了一杯美式咖啡。但是,你可能還想根據自己的口味添加一些東西,比如奶泡、巧克力粉、焦糖醬或是肉桂粉。每次你添加一種配料,你的咖啡就會變得更豐富,同時價格也會相應增加。 在…

圖——圖的應用02最短路徑(Dijkstra算法與Floyd算法詳解),拓撲排序及關鍵路徑

前面介紹了圖的應用——01最小生成樹章節,大家可以通過下面的鏈接學習: 圖——圖的應用01最小生成樹(Prim算法與Kruskal算法詳解) 今天就講一下圖的其他應用——最短路徑,拓撲排序及關鍵路徑。 目錄 一&#xff0c…

HG/T 3655-2024 紫外光UV固化木器涂料檢測

紫外光UV固化木器涂料是指由活性低聚物、活性稀釋劑、光引發劑和其他成分組成的水性、非水性紫外光固化木器涂料,主要用于室內用木質地板、家具、裝飾板等木器的裝飾與保護。 HG/T 3655-2024紫外光UV固化木器涂料檢測項目: 測試指標 測試方法 在容器中…

成都亞恒豐創教育科技有限公司 【插畫猴子:筆尖下的靈動世界】

在浩瀚的藝術海洋中,每一種創作形式都是人類情感與想象力的獨特表達。而插畫,作為這一廣闊領域中的璀璨明珠,以其獨特的視覺語言和豐富的敘事能力,構建了一個又一個令人遐想連篇的夢幻空間。成都亞恒豐創教育科技有限公司 在眾多插…

MYSQL設計索引一般需要考慮哪些因素?

在設計MySQL索引時,確實需要綜合考慮多個因素以確保索引的有效性和性能優化。以下是您提到的參考思路的詳細擴展: 1. 數據量 數據量大小:通常,當表中的數據量超過一定閾值(如幾百條記錄)時,創…

Linux——進程概念詳解

一、進程的基本概念 在給進程下定義之前,我們先了解一下進程: 我們在編寫完代碼并運行起來時,在我們的磁盤中會形成一個可執行文件,當我們雙擊這個可執行文件時(程序時),這個程序會加載到內存…

動手學深度學習6.3 填充和步幅-筆記練習(PyTorch)

以下內容為結合李沐老師的課程和教材補充的學習筆記,以及對課后練習的一些思考,自留回顧,也供同學之人交流參考。 本節課程地址:填充和步幅_嗶哩嗶哩_bilibili 代碼實現_嗶哩嗶哩_bilibili 本節教材地址:6.3. 填充和…

如何在 Ubuntu 14.04 服務器上使用 Nginx 安裝和保護 phpMyAdmin

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到網站。 介紹 像 MySQL 這樣的關系型數據庫管理系統在許多網站和應用程序中都是必不可少的。然而,并非所有用戶都習慣通過命令行來管…