MaxCompute介紹
MaxCompute是適用于數據分析場景的企業級SaaS(Software as a Service)模式云數據倉庫,以Serverless架構提供快速、全托管的在線數據倉庫服務,消除了傳統數據平臺在資源擴展性和彈性方面的限制,最小化用戶運維投入,使您可以經濟并高效地分析處理海量數據。
MaxCompute提供離線和流式數據的接入,支持大規模數據計算及查詢加速能力,為您提供面向多種計算場景的數據倉庫解決方案及分析建模服務。
MaxCompute適用于100 GB以上規模的存儲及計算需求,最大可達EB級別,并且MaxCompute已經在阿里巴巴集團內部得到大規模應用。MaxCompute適用于大型互聯網企業的數據倉庫和BI分析、網站的日志分析、電子商務網站的交易分析、用戶特征和興趣挖掘等。
?(MaxCompute架構)
MaxCompute數據同步需求
MaxCompute雖然提供了SQL或者類SQL的語法形式,但是和關系型數據庫的傳統SQL相比,仍然存在許多不同之處。很多開源的ETL工具均不支持MaxCompute云數倉的同步,不得不編寫代碼來實現數據的同步,要不就只能借助阿里自身的DataWorks來進行同步。
由于DataWorks本身不支持私有化部署,數據同步也存在很多因無法私有化部署而不能解決的問題。ETLCloud根據企業遇到的痛點專門開發了針對MaxCompute數倉的高效同步組件,支持私有化部署,企業可以將不同來源的業務系統及文件數據同步至MaxCompute云數據庫中。
ETLCloud MaxCompute同步組件開箱即用,無需學習只需幾分鐘分鐘即可完成同步配置。
使用ETLCloud來完成MaxCompute數據同步
作為集團的數據分析師需要處理非常龐大的跨地域的用戶數據。這些數據散布在各種不同的數據庫中,并且存儲格式和架構也各不相同。
大型企業集團面臨著從多個數據庫中抽取海量數據并將其整合成一個可用于分析的統一數據集的挑戰。
為了解決該問題,企業可以利用ETLCloud平臺來完成數據快速遷移到MaxCompute的需求。
首先,企業可以使用ETLCloud中內置的數據庫或者API接口來連接各種類型的數據源,并抽取所需的數據。
然后,企業可以針對每個數據庫設計特定的數據清洗和轉換流程,以確保所有數據都適合于提供有價值的信息并準備統一傳送到MaxCompute中。
最后,通過幾步即可實現數據快速同步到MaxCompute中,在ETLCloud中使用可視化界面來同步MaxCompute數據庫,并將源數據進行清洗過濾,再將數據輸出到MaxCompute云數倉中。
?圖1?流程概覽
?圖2 MaxCompute輸入組件基本配置
?圖3?MaxCompute輸入組件屬性配置
?圖4 MaxCompute 組件支持自定義SQL,使數據處理更加靈活多變
?圖5?數據過濾配置
?圖6?流程運行結果
?圖7?數據預覽
ETLCloud介紹
ETLCloud是一款零代碼ETL工具,可以快速對接上百種數據源和應用系統,無需編碼即可快速完成數據同步和傳輸,企業IT人員只需簡單幾步即可快速完成各種數據抽取同步并配合BI工具實現數據的統計分析。
?(ETLCloud可視化流程同步界面)
ETLCloud社區版本永久免費下載使用https://www.etlcloud.cn