DataOps驅動數據集成創新:Apache DolphinScheduler SeaTunnel on Amazon Web Services

file

引言

在數字化轉型的浪潮中,數據已成為企業最寶貴的資產之一。DataOps作為一種文化、流程和實踐的集合,旨在提高數據管道的質量和效率,從而加速數據從源頭到消費的過程。白鯨開源科技,作為DataOps領域的領先開源原生公司,由Apache成員成立,80%的員工都是Apache Committer,主導著兩個Apache頂級開源項目:Apache DolphinScheduler和Apache SeaTunnel。這些項目在全球6000多家企業中得到實踐和使用,展現了DataOps的優勢。

Apache DolphinScheduler:云原生時代的高穩定可視化調度平臺

Apache DolphinScheduler是一個云原生的可視化工作流調度平臺,它解決了企業級場景中的多個痛點,如任務單元多、執行頻率高、數據量和任務量大、存在依賴關系等。與傳統的老舊調度引擎相比,DolphinScheduler支持多任務類型、集群化部署與拓展,去中心分布式設計,高穩定可用,開源數據組件更新升級頻率高,以及多云異構數據的管理能力。

特點

  • 開源數據組件:更新升級頻率高,保持技術棧的先進性。
  • 多云異構數據管理:適應不同云環境和數據源的需求。
  • 任務穩定運行:支持百萬數據量級的任務穩定運行。

Apache SeaTunnel:新一代實時多源數據同步工具——大數據高速公路

Apache SeaTunnel是一個實時多源數據同步工具,支持上百種源數據庫/地點和目標數據庫/地點,包括MySQL、PostgreSQL、Kafka、MongoDB、Elastic、Hive等。SeaTunnel的性能比原有解決方案快50%-2倍,甚至在某些情況下快30倍。它支持批量數據全量、增量集成以及實時數據集成,為大數據提供了高速公路。

特點

  • 性能卓越:SeaTunnel性能快50%-2倍,某些情況下快30倍。
  • 數據同步與集成:支持批量數據全量、增量集成以及實時數據集成。

WhaleStudio簡介

WhaleStudio是白鯨開源科技根據全球最佳實踐發布的商業版版本,

file

file

調度模塊產品功能

工作流編排能力

它支持各類計算任務組件,如Amazon DMS、Amazon Datasync、Apache Linkis,DataX,Sqoop,SeaTunnel等,以及各類云數據庫和計算架構,支持K8S、MLDB。平臺采用插件式設計,支持自由擴展數據源支持,可視化的數據源管理,大大減少了配置修改帶來的工作量。

file

file

  • 工作流基本配置:包括標簽設置、租戶、牌、全局變量和超時告警。
  • 執行策略:可以是并行、串行等待或串行優先。
  • 數據開發能力:包括在線IDE&集成,實現DataOps。
數據開發能力

WhaleStudio可以實現在線 IDE & 集成 ,實現 DataOps.

file

產品功能詳解
  • SQL任務 在源中心創建數據源連接,在任務中指定數據源,在腳本中編寫SQL語句,支持讀寫混合和多行SQL,支持設置多個前置SQL語句,支持調試。

file

  • 跨項目依賴任務 依賴檢查任務,跨工作流檢查,支持時間日期檢查,支持自循環檢查,依賴策略包括失敗-繼續和失敗-等待。

  • 資源中心 – git打通 Git文件功能允許用戶將整個Git倉庫作為資源文件上傳到資源中心,執行任務時下載腳本文件,并提供更新接口。

file

  • 數據任務血緣關系影響分析 工作流定義和任務定義的影響分析,查看任務加工的影響深度和廣度,工作流實例和任務實例的影響分析。

file

  • 源中心 統一管理所有數據源,控制數據源的讀寫權限,重要信息加密顯示,多種使用場景。

file

同步模塊產品功能

WhaleTunnel支持160種數據源接口,多種數據集成方式,包括批量數據全量、增量集成和實時數據集成。它支持商業數據庫實時CDC,包括Mysql cdc、PostgreSQL cdc等。

離線同步任務定義

離線同步任務定義包括Source和Sink,Source用來定義數據的來源,Sink用來定義數據同步的目標。支持選擇同步字段、全表同步、已有表結構處理、已有數據處理和保障數據一致性。

file

實時同步任務定義

實時同步任務定義包括創建數據源、Source和任務設置。支持歷史數據階段每次讀取的行數、作業啟動模式、在快照讀取階段讀取增量日志并去重數據、并行度設置等。

file

數據轉換及處理–Transform

WhaleTunnel提供多種數據轉換節點,可以在數據同步管道中對表屬性或數據進行轉換處理,包括單列復制多列、單列拆分為多列、字段刪除、字段重命名、字段值替換、數據變更處理、自定義sql腳本等。

Transform可適配實時同步中的DDL變更,如根據表達式匹配的transform會自動對新增字段進行處理。

表DDL變更檢查–刷新表元數據

WhaleTunnel支持對同步任務中配置的表進行表結構變更檢查,以獲取尤其是離線同步任務中的表結構變化。支持主動批量檢查發現表結構變更和定時批量檢查發現表結構變更。

file

實時數據同步支持DDL變更觸發暫停、報警以及延遲告警

實時數據處理支持多種實時數據監測處理,包括DDL變更暫停、DDL變更告警、DDL暫停加表、DDL手工處理等。

產品功能
  • 數據質量校驗

數據質量支持多種數據源,包括正則表達式、表行數校驗、兩表值比對、空值檢測、使用Spark實現、及時性校驗、多表準確性、字段長度校驗、枚舉值校驗、自定義SQL、唯一性校驗。

file

  • 數據質量場景

數據質量比對類型包括兩表值比對,場景如計算語文成績詳情表yunwen_list所有人的總分和成績匯總表chengji中語文總成績,兩者差值在1分以內,否則就阻斷工作流執行。

file

Demo

下面是一個Demo,詳細演示如何從Aurora CDC實時數據同步到Redshift:

https://www.bilibili.com/video/BV19zq2YpEFd/

src="//player.bilibili.com/player.html?isOutside=true&aid=113632822167469&bvid=BV19zq2YpEFd&cid=27285128673&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true">

結語

Apache DolphinScheduler和Apache SeaTunnel作為全球領先的開源原生DataOps平臺,不僅提供了強大的數據集成和調度能力,還通過其商業版本WhaleStudio,幫助企業智能化地完成多數據源、多云及信創環境的數據集成、數據開發、工作流編排運維及部署、數據質量管控、團隊敏捷協作等一系列問題。這些工具的全球應用案例證明了它們在數據集成領域的創新和領導地位。隨著技術的不斷進步和企業需求的日益增長,DataOps將繼續引領數據管理的未來。

本文由 白鯨開源科技 提供發布支持!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/63441.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/63441.shtml
英文地址,請注明出處:http://en.pswp.cn/web/63441.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【硬件IIC】stm32單片機利用硬件IIC驅動OLED屏幕

之前操作OLED屏幕都是用GPIO模擬IIC去驅動,最近打算用硬件IIC去驅動,于是寫下這個demo,在這個過程中遇到一點小坑,記錄一下,本文章非小白教程,所以只突出踩到的坑點,文章中涉及到的OLED也是網上資料寫爛的&…

python如何自動加空格

首先,需要進行打開的一個pycharm的軟件,可進行雙擊的打開該軟件。 可以看到的是在當前的打開的文件中,格式相對較亂一下。格式不對會格式錯誤。 然后點擊菜單欄中的“code”。 在彈出的下拉菜單中選擇“reformat code”選項。 可以看到的是在…

【開源免費】基于SpringBoot+Vue.JS網上訂餐系統(JAVA畢業設計)

本文項目編號 T 018 ,文末自助獲取源碼 \color{red}{T018,文末自助獲取源碼} T018,文末自助獲取源碼 目錄 一、系統介紹二、演示錄屏三、啟動教程四、功能截圖五、文案資料5.1 選題背景5.2 國內外研究現狀5.3 可行性分析 六、核心代碼6.1 新…

串口通信和SPI通信詳解

0、背景 在現代嵌入式系統中,通信是不同模塊之間交換數據的核心。串口通信和 SPI(串行外設接口)是兩種常見的通信方式,它們各自有獨特的優勢和適用場景。 1、串口通信 1.1、串口通信概念 串口通信是一種常見的異步串行通信協議…

javase-17、API.數學相關

一、Math類 Math類提供了大量的靜態方法來便于我們實現數學計算,如求絕對值、取最大或最小值等。 https://doc.qzxdp.cn/jdk/17/zh/api/java.base/java/lang/Math.html 所在模塊:java.base所在包: java.lang static double abs(double a)…

答題考試系統v1.6.1高級版源碼分享+uniapp+搭建測試環境

一.系統介紹 一款基于FastAdminThinkPHPUniapp開發的小程序答題考試系統,支持多種試題類型、多種試題難度、練題、考試、補考模式,提供全部前后臺無加密源代碼,支持私有化部署 二.測試環境 系統環境:CentOS、 運行環境&#x…

淺談倉頡語言的優劣

倉頡語言,作為華為自研的新一代編程語言,以其高效、安全、現代化的特點,引起了廣泛的關注。 倉頡語言的優勢 高效并發 倉頡語言的一大亮點是其輕松并發的能力。它實現了輕量化用戶態線程和并發對象庫,使得高效并發變得輕松。倉頡…

Sass系統數據隔離的三種方式

1.完全獨立的數據庫 為每一個租戶單獨部署一個數據庫 優點:達到了真正的按租戶進行隔離,不同租戶之間相互沒有影響,可以針對一些特殊租戶例如大客戶做一些定制化的開發,計費相對簡單,按照資源使用進行計費。 缺點&…

FFmpeg 主要結構體剖析

FFmpeg 探索之旅 FFmpeg 主要結構體剖析 FFmpeg 探索之旅前言1、AVFormatContext2、AVCodecContext3、AVCodec4、AVStream5、AVPacket6、AVFrame7、AVCodecParameters7、SwsContext8、AVIOContext9、AVRational 總結 前言 嘿,各位小伙伴!在如今這個多媒…

經典電荷泵/Charge pump——1998.JSSC

電路結構 工作原理 M3 and M4 are the series switches, and M5, M6 switch to the highest voltage. If M5 and M6 are missing, having a large capacitor is of absolute necessity, because must always stay between 2 Vin and 2Vin - Uj to avoid switching on the vert…

Swin transformer 論文閱讀記錄 代碼分析

該篇文章,是我解析 Swin transformer 論文原理(結合pytorch版本代碼)所記,圖片來源于源paper或其他相應博客。 代碼也非原始代碼,而是從代碼里摘出來的片段,配上簡單數據,以便理解。 當然&…

GPT-Omni 與 Mini-Omni2:創新與性能的結合

近年來,隨著人工智能技術的飛速發展,各種模型和平臺應運而生,以滿足從個人用戶到企業級應用的多樣化需求。在這一領域,GPT-Omni 和 Mini-Omni2 是兩款備受矚目的技術產品,它們憑借獨特的設計和強大的功能,在…

龍迅#LT7911E適用于EDP/DP/TPYE-C轉MIPIDSI應用,支持圖像處理功能,內置I2C,主應用副屏顯示,投屏領域!

1. 描述 LT7911E 是一款高性能 eDP 轉 MIPI D-PHY 轉換器,旨在將 eDP 源連接到 MIPI 顯示面板。 LT7911E 集成了一個符合 eDP1.4 標準的接收器,支持 1.62Gbps 至 5.67Gbps 的輸入數據,以 270Mbps 的遞增步長,以及一個 2 端口 D…

C語言——實現求出最大值

問題描述&#xff1a;利用C語言自定義函數求出一維數組里邊最大的數字 //利用函數找最大數#include<stdio.h>int search(int s[9]) //查找函數 {int i , max s[0] , max_xia 0;for(i0;i<9;i){if(s[i] > max){max_xia i;max s[max_xia];}}return max; } in…

解鎖 draw.io 流程圖制作工具Docker私有化部署(2/2)

一、draw.io 流程圖制作工具簡介 &#xff08;一&#xff09;基礎介紹 draw.io 是一款備受青睞的開源流程圖軟件&#xff0c;它有著諸多優點。首先&#xff0c;其界面十分整潔有序&#xff0c;完全沒有廣告的干擾&#xff0c;并且所有功能都是免費向用戶開放的&#xff0c;這一…

[HNCTF 2022 Week1]baby_rsa

源代碼&#xff1a; from Crypto.Util.number import bytes_to_long, getPrime from gmpy2 import * from secret import flag m bytes_to_long(flag) p getPrime(128) q getPrime(128) n p * q e 65537 c pow(m,e,n) print(n,c) # 62193160459999883112594854240161159…

docker run命令大全

docker run命令大全 基本語法常用選項基礎選項資源限制網絡配置存儲卷和掛載環境變量重啟策略其他高級選項示例總結docker run 命令是 Docker 中最常用和強大的命令之一,用于創建并啟動一個新的容器。該命令支持多種選項和參數,可以滿足各種使用場景的需求。以下是 docker ru…

Java中JDBC過時方法的替代方案以及JDBC為什么過時詳細分析

在Java中&#xff0c;JDBC的一些方法因為安全問題、性能問題或者因為引入了更好的替代方法已經被標記為過時&#xff08;Deprecated&#xff09;。 以下是一些被過時的JDBC方法以及它們的替代方案&#xff1a; 1.DriverManager.getDrivers(): 這個方法用于獲取所有當前注冊的J…

詳細指南:在Ubuntu 20.04 ROS 1環境下設置和使用OpenNI2 SDK

詳細指南&#xff1a;在Ubuntu 20.04 ROS 1環境下設置和使用OpenNI2 SDK 要在Ubuntu 20.04系統上使用ROS 1環境中的OpenNI2 SDK&#xff0c;您需要按照一系列有組織的步驟進行操作&#xff0c;以確保軟件和驅動正確安裝&#xff0c;并配置好相應的開發環境。以下是詳細的步驟說…

RK3568平臺(Kbuild篇)vmlinux 編譯過程

一.vmlinux是什么 vmlinux 是 Linux 操作系統的內核映像文件,它包含了 Linux 內核的所有功能代碼和必要的數據結構。這個文件通常是沒有經過壓縮和符號表去除的原始可執行文件。 具體來說,vmlinux 文件是編譯后的 Linux 內核的最終產物,通常是 ELF(可執行和可鏈接格式)格…