企業里真實的數據流轉是什么樣子的呢?
左側描述了一個企業真實的樣子,我們總是需要把數據從一個地方搬到另一個地方,最后就是搬來搬去搬成了一張張解不開的網。
右側則表達了使用DataX為中心實現數據的同步。
什么是DataX
DataX是一個異構數據源離線同步工具,致力于實現包括關系型數據庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構數據源之間穩定高效的數據同步功能。
簡單說,DataX也是一款數據集成工具。
DataX設計理念
為了解決異構數據源同步問題,DataX將復雜的網狀的同步鏈路變成了星型數據鏈路,DataX作為中間傳輸載體負責連接各種數據源。當需要接入一個新的數據源的時候,只需要將此數據源對接到DataX,便能跟已有的數據源做到無縫數據同步。
DataX框架設計
DataX本身作為離線數據同步框架,采用Framework + plugin架構構建。將數據源讀取和寫入抽象成為Reader/Writer插件,納入到整個同步框架中。
- Reader
Reader為數據采集模塊,負責采集數據源的數據,將數據發送給Framework。
- Writer
Writer為數據寫入模塊,負責不斷向Framework取數據,并將數據寫入到目的端。
- Framework
Framework用于連接Reader和Writer,作為兩者的數據傳輸通道,并處理緩沖,流控,并發,數據轉換等核心技術問題。
DataX優勢
- 可靠的數據質量監控
- 豐富的數據轉換功能
- 精準的速度控制
- 強勁的同步性能
- 健壯的容錯機制
- 極簡的使用體驗
DataX支持的插件
類型 | 數據源 | Reader(讀) | Writer(寫) |
---|---|---|---|
RDBMS 關系型數據庫 | MySQL | √ | √ |
Oracle | √ | √ | |
OceanBase | √ | √ | |
SQLServer | √ | √ | |
PostgreSQL | √ | √ | |
DRDS | √ | √ | |
Kingbase | √ | √ | |
通用RDBMS(支持所有關系型數據庫) | √ | √ | |
阿里云數倉數據存儲 | ODPS | √ | √ |
ADB | √ | ||
ADS | √ | ||
OSS | √ | √ | |
OCS | √ | ||
Hologres | √ | ||
AnalyticDB For PostgreSQL | √ | ||
阿里云中間件 | datahub | √ | √ |
SLS | √ | √ | |
圖數據庫 | 阿里云 GDB | √ | √ |
Neo4j | √ | ||
NoSQL數據存儲 | OTS | √ | √ |
Hbase0.94 | √ | √ | |
Hbase1.1 | √ | √ | |
Phoenix4.x | √ | √ | |
Phoenix5.x | √ | √ | |
MongoDB | √ | √ | |
Cassandra | √ | √ | |
數倉數據存儲 | StarRocks | √ | √ |
ApacheDoris | √ | ||
ClickHouse | √ | √ | |
Databend | √ | ||
Hive | √ | √ | |
kudu | √ | ||
selectdb | √ | ||
無結構化數據存儲 | TxtFile | √ | √ |
FTP | √ | √ | |
HDFS | √ | √ | |
Elasticsearch | √ | ||
時間序列數據庫 | OpenTSDB | √ | |
TSDB | √ | √ | |
TDengine | √ | √ |
進階
前面有介紹過SeaTunnel和Kettle兩款數據集成工具,每一款工具都是自己的特色和使用場景。如果你正為同步數據而發愁,不妨試一試DataX吧。
關注:遇碼,回復datax獲取官方使用說明。