引言
在數字化轉型的浪潮中,數據已成為企業最寶貴的資產之一。DataOps作為一種文化、流程和實踐的集合,旨在提高數據管道的質量和效率,從而加速數據從源頭到消費的過程。白鯨開源科技,作為DataOps領域的領先開源原生公司,由Apache成員成立,80%的員工都是Apache Committer,主導著兩個Apache頂級開源項目:Apache DolphinScheduler和Apache SeaTunnel。這些項目在全球6000多家企業中得到實踐和使用,展現了DataOps的優勢。
Apache DolphinScheduler:云原生時代的高穩定可視化調度平臺
Apache DolphinScheduler是一個云原生的可視化工作流調度平臺,它解決了企業級場景中的多個痛點,如任務單元多、執行頻率高、數據量和任務量大、存在依賴關系等。與傳統的老舊調度引擎相比,DolphinScheduler支持多任務類型、集群化部署與拓展,去中心分布式設計,高穩定可用,開源數據組件更新升級頻率高,以及多云異構數據的管理能力。
特點
- 開源數據組件:更新升級頻率高,保持技術棧的先進性。
- 多云異構數據管理:適應不同云環境和數據源的需求。
- 任務穩定運行:支持百萬數據量級的任務穩定運行。
Apache SeaTunnel:新一代實時多源數據同步工具——大數據高速公路
Apache SeaTunnel是一個實時多源數據同步工具,支持上百種源數據庫/地點和目標數據庫/地點,包括MySQL、PostgreSQL、Kafka、MongoDB、Elastic、Hive等。SeaTunnel的性能比原有解決方案快50%-2倍,甚至在某些情況下快30倍。它支持批量數據全量、增量集成以及實時數據集成,為大數據提供了高速公路。
特點
- 性能卓越:SeaTunnel性能快50%-2倍,某些情況下快30倍。
- 數據同步與集成:支持批量數據全量、增量集成以及實時數據集成。
WhaleStudio簡介
WhaleStudio是白鯨開源科技根據全球最佳實踐發布的商業版版本,
調度模塊產品功能
工作流編排能力
它支持各類計算任務組件,如Amazon DMS、Amazon Datasync、Apache Linkis,DataX,Sqoop,SeaTunnel等,以及各類云數據庫和計算架構,支持K8S、MLDB。平臺采用插件式設計,支持自由擴展數據源支持,可視化的數據源管理,大大減少了配置修改帶來的工作量。
- 工作流基本配置:包括標簽設置、租戶、牌、全局變量和超時告警。
- 執行策略:可以是并行、串行等待或串行優先。
- 數據開發能力:包括在線IDE&集成,實現DataOps。
數據開發能力
WhaleStudio可以實現在線 IDE & 集成 ,實現 DataOps.
產品功能詳解
- SQL任務 在源中心創建數據源連接,在任務中指定數據源,在腳本中編寫SQL語句,支持讀寫混合和多行SQL,支持設置多個前置SQL語句,支持調試。
跨項目依賴任務 依賴檢查任務,跨工作流檢查,支持時間日期檢查,支持自循環檢查,依賴策略包括失敗-繼續和失敗-等待。
資源中心 – git打通 Git文件功能允許用戶將整個Git倉庫作為資源文件上傳到資源中心,執行任務時下載腳本文件,并提供更新接口。
- 數據任務血緣關系影響分析 工作流定義和任務定義的影響分析,查看任務加工的影響深度和廣度,工作流實例和任務實例的影響分析。
- 源中心 統一管理所有數據源,控制數據源的讀寫權限,重要信息加密顯示,多種使用場景。
同步模塊產品功能
WhaleTunnel支持160種數據源接口,多種數據集成方式,包括批量數據全量、增量集成和實時數據集成。它支持商業數據庫實時CDC,包括Mysql cdc、PostgreSQL cdc等。
離線同步任務定義
離線同步任務定義包括Source和Sink,Source用來定義數據的來源,Sink用來定義數據同步的目標。支持選擇同步字段、全表同步、已有表結構處理、已有數據處理和保障數據一致性。
實時同步任務定義
實時同步任務定義包括創建數據源、Source和任務設置。支持歷史數據階段每次讀取的行數、作業啟動模式、在快照讀取階段讀取增量日志并去重數據、并行度設置等。
數據轉換及處理–Transform
WhaleTunnel提供多種數據轉換節點,可以在數據同步管道中對表屬性或數據進行轉換處理,包括單列復制多列、單列拆分為多列、字段刪除、字段重命名、字段值替換、數據變更處理、自定義sql腳本等。
Transform可適配實時同步中的DDL變更,如根據表達式匹配的transform會自動對新增字段進行處理。
表DDL變更檢查–刷新表元數據
WhaleTunnel支持對同步任務中配置的表進行表結構變更檢查,以獲取尤其是離線同步任務中的表結構變化。支持主動批量檢查發現表結構變更和定時批量檢查發現表結構變更。
實時數據同步支持DDL變更觸發暫停、報警以及延遲告警
實時數據處理支持多種實時數據監測處理,包括DDL變更暫停、DDL變更告警、DDL暫停加表、DDL手工處理等。
產品功能
- 數據質量校驗
數據質量支持多種數據源,包括正則表達式、表行數校驗、兩表值比對、空值檢測、使用Spark實現、及時性校驗、多表準確性、字段長度校驗、枚舉值校驗、自定義SQL、唯一性校驗。
- 數據質量場景
數據質量比對類型包括兩表值比對,場景如計算語文成績詳情表yunwen_list所有人的總分和成績匯總表chengji中語文總成績,兩者差值在1分以內,否則就阻斷工作流執行。
Demo
下面是一個Demo,詳細演示如何從Aurora CDC實時數據同步到Redshift:
https://www.bilibili.com/video/BV19zq2YpEFd/
src="//player.bilibili.com/player.html?isOutside=true&aid=113632822167469&bvid=BV19zq2YpEFd&cid=27285128673&p=1" scrolling="no" border="0" frameborder="no" framespacing="0" allowfullscreen="true">結語
Apache DolphinScheduler和Apache SeaTunnel作為全球領先的開源原生DataOps平臺,不僅提供了強大的數據集成和調度能力,還通過其商業版本WhaleStudio,幫助企業智能化地完成多數據源、多云及信創環境的數據集成、數據開發、工作流編排運維及部署、數據質量管控、團隊敏捷協作等一系列問題。這些工具的全球應用案例證明了它們在數據集成領域的創新和領導地位。隨著技術的不斷進步和企業需求的日益增長,DataOps將繼續引領數據管理的未來。
本文由 白鯨開源科技 提供發布支持!