?? 寫在前面參與規則!!!
?參與方式:關注博主、點贊、收藏、評論,任意評論(每人最多評論三次)
??本次送書1~4本【取決于閱讀量,閱讀量越多,送的越多】
目前市面上絕大部分數據血緣產品是用于跟蹤數據流轉過程和關系的平臺,可以記錄數據的來源、傳輸路徑和用途,幫助企業管理和保護其數據資產。這些平臺提供了跟蹤數據血緣的功能,并可以自動記錄和管理數據資產,提高數據的質量和可靠性。那么企業要如何選擇適合自己的工具呢?今天就來對主流的數據血緣產品進行簡單剖析。
作者:成于念 賽助力
- 01 Apache Atlas
- 02 Datahub
- 03 Gudu SQLFlow
- 04 FineBI
- 05 億信華辰智能數據治理平臺
- 06 飛算SoData數據機器人
- 07 Informatica的數據平臺
- 08 Alation
- 09 Collibra數據平臺
01 Apache Atlas
Apache Atlas是一款由Apache托管的元數據管理和治理產品,在大數據領域得到廣泛應用。它能夠幫助企業有效管理數據資產,對這些資產進行分類和治理,提供高質量的數據信息以支持數據分析和數據治理。
Apache Atlas采用分層架構,包括三層架構,如下圖所示。
Apache Atlas服務器:負責管理和存儲元數據,提供REST API用于查詢和修改元數據。Apache Ranger:用于管理訪問控制策略。Apache Atlas客戶端:用于與服務器交互,執行元數據查詢和修改操作。
Apache Atlas整體架構
Apache Atlas核心功能:元數據管理、數據資源分類和搜索、訪問控制和安全、對元數據查詢和可視化展示、功能擴展(插件形式)。
Apache Atlas具有平臺開源、可擴展性好、?元數據管理功能強大、插件系統豐富等優勢,但是存在學習曲線陡峭、功能較為單一等缺點。
Apache Atlas適用場景:大型企業數據管理,分布式環境,數據合規治理。
02 Datahub
LinkedIn開源的Datahub數據平臺是一個面向數據資產的集成平臺,旨在提高數據發現、可用性和可信度。該平臺允許用戶在數據集合、元數據、數據血緣關系和數據使用上創建、管理、發現和消費數據。它宗旨為:The Metadata Platform for the Modern Data Stack - 為現代數據棧而生的元數據平臺。它可以幫助用戶創建、存儲和管理數據,提供數據血緣和數據質量管理功能。Datahub可以記錄和跟蹤數據元素的來源、處理和消費過程,為用戶提供數據血緣視圖和分析工具。同時,Datahub可以對數據進行質量分析和評估,包括數據完整性、一致性、準確性等方面。
Datahub整體架構主要包括前端用戶界面、后端API、元數據存儲、數據連接器、數據管道、數據質量檢查器。
Datahub整體架構
Datahub核心功能包括數據發現和搜索、數據血緣和影響分析、數據協作、數據使用監控、數據質量和完整性。
Datahub的優勢包括開源、可擴展性好、平臺集成性高、支持數據挖掘和可視化、支持檢查數據質量和完整性。
Datahub的缺點包括使用門檻高、平臺維護成本高、要配備專門的數據安全性措施。
Datahub主適用場景:創建數據集,發布數據,管理數據血緣,分析數據質量,集成其他數據管理工具。
總之,Datahub是一個數據管理平臺,可以幫助用戶創建、存儲和管理數據,提供數據血緣和數據質量管理功能,支持數據分析和業務決策。
03 Gudu SQLFlow
Gudu SQLFlow(馬哈魚數據血緣分析工具)是一款用于分析 SQL 語句,它可以幫助用戶在SQL環境中進行機器學習建模和推理,并且能夠能夠輕易上手的數據血緣平Gudu SQLFlow 支持多種機器學習框架,包括 TensorFlow、XGBoost、LightGBM 等,并提供了可視化的工具來幫助用戶分析和理解數據。
馬哈魚數據血緣平臺的整體架構分為三層:數據源采集層、數據處理層和數據服務層。
Gudu SQLFlow 可以幫助用戶快速構建和部署機器學習模型,從而在數據分析和應用開發中提高效率和準確性。主要功能包含:全面采集元數據信息,數據血緣關系圖展示,數據查詢和管理,數據治理和安全,多維度分析。
Gudu SQLFlow優勢包括:全面、深度的數據血緣分析,操作簡單,支持多維度的數據探查和分析,支持實時的數據質量和安全監控。
Gudu SQLFlow缺點包括:需要大量的硬件資源支持,不適用于小企業。
綜合來看,馬哈魚數據血緣平臺是一款功能強大、可靠性高的數據管理工具,能夠有效幫助企業掌握和管理數據的流向、質量和安全等關鍵信息,從而提高數據管理和決策的效率和準確性。
04 FineBI
FineBI是帆軟軟件有限公司推出的商業智能(Business Intelligence)產品,旨在幫助企業的業務人員充分了解和利用數據。作為新一代大數據分析的BI工具,FineBI具備強大的大數據引擎,用戶可以通過簡單的拖拽操作創建多樣化的數據可視化信息,自由地進行數據分析和探索,從而釋放數據的潛能。
在應用場景方面,FineBI提供了血緣分析功能,幫助用戶直觀地了解當前數據表的來源表、以及使用該表創建的子孫表、組件和儀表板。用戶可以通過血緣分析功能快速跳轉到相關位置,便于對數據進行有效的管理。
05 億信華辰智能數據治理平臺
億信元數據管理平臺專注于處理技術元數據、業務元數據和管理元數據,旨在幫助用戶獲取更多的數據洞察力,并挖掘出資源中隱藏的價值。
對于技術人員而言,元數據管理平臺通過對分散、存儲結構差異大的資源信息進行描述、定位、檢索、評估和分析,實現了信息的描述和分類的結構化。這為機器處理創造了可能性,顯著降低了數據治理的人工成本。因此,元數據已成為許多大型數據治理項目的核心。
對于業務人員而言,元數據管理平臺通過描述、定位、檢索、評估和分析業務指標、業務術語、業務規則、業務含義等業務信息,協助業務人員了解業務含義、行業術語和規則,以及業務指標的數據口徑和影響范圍等。
該產品主要具備數據產品的基本功能,如規范的元模型管理、端到端的自動化采集、全面的采集適配器、可靈活定制的采集模板、便捷的元數據檢索、監控、版本變更和元數據分析等。此外,還提供了數據血緣分析應用,例如數據起源及其推移位置的分析、血緣關鍵信息定位分析、數據影響分析、數據全鏈路分析和數據關聯度分析。
06 飛算SoData數據機器人
飛算SoData數據機器人是一套實時+批次、批流一體、高效的數據開發治理工具,能夠幫助企業快速實現數據應用。
相較于傳統的數據加工流程,飛算SoData數據機器人實現了流批一體的數據同步機制,基于Spark和Flink框架進行深度二次開發,實現了數據采集、集成、轉換、裝載、加工、落盤等全流程的實時+批次處理,快速滿足企業的數據應用需求。
飛算SoData數據機器人具有以下八大特性:數據質量和血緣關系管理,批流一體分布式計算,實時+批次同步,低代碼數據開發,AI應用(NLP、深度學習等,深度集成10大組件,運維可視化,低成本可擴展。
綜上所述,飛算SoData數據機器人可以幫助企業高效、低門檻、低成本地進行數據開發、治理和應用。不論是數據量較小的初創企業,還是數據龐大的企業,都可以受益于該工具的使用。
07 Informatica的數據平臺
Informatica是一種企業級數據集成和數據管理平臺,可以提供數據血緣和數據資產管理功能。它可以跟蹤數據資產的來源、傳輸路徑和用途,以提高數據的可靠性和可用性。主要特點包括以下幾個方面:數據集成,數據質量管理,數據轉換,數據血緣分析,數據安全和隱私。
總之,使用Informatica可以幫助企業更好地集成、管理和轉換數據,提高數據質量和效率。使用步驟包括安裝和配置、創建數據集成任務、數據血緣分析、數據質量管理、數據安全和隱私等。在數據血緣分析方面,Informatica提供了完善的工具和功能,可以方便地查看數據資產之間的關系,了解數據的來源和去向。
08 Alation
Alation是一種數據協作平臺,可以自動化記錄和跟蹤數據血緣。它提供了一種集中管理和控制數據資產的方式,可以提高數據質量、降低風險和提高數據的可用性。其特點包括以下幾個方面:可以自動分析數據血緣,可以自動掃描和分類數據資產,可以分析數據質量,可以提供協作和溝通功能,可以提供數據訪問控制功能。
總之,使用Alation可以幫助數據團隊更好地管理和治理數據資產,提高數據質量和效率。使用步驟包括安裝和配置、數據血緣分析、數據目錄管理、數據質量分析、協作和溝通、數據訪問控制等。
09 Collibra數據平臺
Collibra是一種數據治理和血緣平臺,可以跟蹤數據血緣,提供一種集中化的數據資產管理和數據治理解決方案。它支持多種數據存儲和處理引擎,包括Hadoop、Spark、Hive和Kafka等。主要特點包括以下幾個方面:對企業內的數據資產進行管理和分類,對數據資產進行血緣分析,對數據質量進行管理和監控,提供數據安全和隱私功能,提供數據治理工作流。
總之,使用Collibra可以幫助數據團隊更好地管理和治理數據資產,提高數據質量和效率。使用步驟包括安裝和配置、數據資產管理、數據血緣分析、數據質量管理、數據安全和隱私、數據治理工作流等。
- END -
本文摘編自《數據血緣分析原理與實踐》,經出版方授權發布。