4A架構系列文章
-
數字化轉型-4A架構(業務架構、應用架構、數據架構、技術架構)
-
數字化轉型-4A架構之業務架構
-
數字化轉型-4A架構之應用架構
-
數字化轉型-4A架構之數據架構
-
數字化轉型-4A架構之技術架構
數據架構 Data Architecture(DA)
1. 定義
數據架構,是組織管理數據資產的科學之道,描述如何管理從收集到轉換、分發和使用數據。它為數據及其在數據存儲系統中流動的方式設定了藍圖。涵蓋數據的收集、存儲、使用及管理等環節,涉及數據模型、數據庫系統設計及集成治理技術的實施。
2. 目的
數據架構的目標是支持業務需求、提高數據的質量和一致性,并促進數據的共享和集成。
3. 價值
通過梳理一個全面而清晰的數據架構藍圖,企業可以有效地管理和利用其數據資產,確保數據的一致性,以支持業務需求和決策過程。
實現精簡數據冗余,打破企業數據孤島,提升信息化水平,確保數據質量與一致性。
清晰準確的數據助力決策速度,滿足國家政策要求,保障數據處理和存儲遵循行業規范與法規。
一、 如何繪制企業的數據架構(DA)圖?
繪制企業的數據架構圖一般分為如下四步:
- 數據需求分析
- 數據模型設計
- 數據治理
- 數據共享開放與入表
具體設計步驟:
1.上接業務,分析數據需求,識別數據類型,采集數據
2.數據模型設計,概念模型(識別業務域),邏輯模型(實體關系ER),物理模型(表字段)
3.數據治理,數據安全合規,數據質量管理
4.數據共享開放,支撐業務決策,業務創新
二、 數據架構6大模塊
新版本的數據架構中,數據架構的核心在于【數據聲明、數據原則、數據模型、數據流動、數據管理和數據治理】這六大板塊。
1、數據聲明
架構工作聲明是TOGAF架構開發方法(ADM)中的關鍵文檔之一,用于詳細描述架構開發的范圍、方法、資源和計劃。它定義了架構項目的基本框架和預期成果,數據申明是其中的一部分。
2、數據原則
架構原則是用于指導企業架構設計和實施的一組基本準則和指導方針。它們幫助確保架構的一致性、靈活性和可擴展性,使架構決策在不同的項目和團隊中保持一致。架構原則通常由組織的高級管理層和架構師共同制定,并在整個組織中推廣和遵循。
3、數據模型
定義數據元素、它們的屬性以及數據元素之間的關系。輸出物包括概念模型、邏輯模型、物理模型、數據目錄等等。(1)概念模型概念模型是高層次的抽象模型,用于描述業務實體及其關系,主要面向業務用戶和利益相關者。它通常不涉及技術細節,而是強調業務需求。
4、數據流動
描述數據在系統內和系統間的流動和傳輸方式。數據流動的主要輸出物包括數據流轉、數業映射等。
(1)數據流轉
數據分布用于表示數據在系統間的流動過程,包括數據流圖、數據映射文檔、數據流規范、數據轉換規則等。
(2)數業映射
數業映射是數據流動的基礎,定義了數據實體存在于在哪些業務功能和應用程序中,幫助定義和管理數據需求,確保數據與業務功能的一致性和完整性,有效支持業務流程的執行和優化。
5、數據管理
數據管理是指對企業內所有數據資產的管理和控制,旨在確保數據的高質量、完整性、安全性、可用性和可訪問性,以支持業務決策和運營。數據管理的主要輸出物包括數據質量管理、元數據管理、數據安全管理、數據存儲管理、數據集成管理及數據生命周期管理等等。
(1)數據質量管理
數據質量管理包括數據清洗、數據驗證和數據質量監控,以確保數據的準確性和完整性。
(2)元數據管理
元數據管理涉及收集、存儲和維護描述數據的數據(元數據),以便于數據發現和使用。
(3)數據安全管理
數據安全管理涉及保護數據免受未經授權的訪問、使用和泄露,確保數據的機密性、完整性和可用性,
(4)數據存儲管理
數據存儲管理涉及設計和優化數據存儲方案,確保數據的高效存儲和訪問。
(5)數據集成管理
數據集成管理涉及將來自不同源的數據集成到統一的數據平臺,以支持業務分析和決策。
(6)數據生命周期管理
數據生命周期管理涉及數據從創建、使用、存儲到歸檔和銷毀的整個生命周期管理。
6、數據治理
數據治理涉及制定數據策略、建立數據管理組織結構和流程,以確保數據的一致性、完整性和使用合規性。數據治理的主要輸出物包括數據策略、數據政策、數據組織及數據標準等等。
(1)數據策略
制定企業的數據戰略,包括數據管理的總體目標和方向。
(2)數據政策
數據政策是指導數據管理和使用的高層次原則和規定,旨在確保數據的一致性、完整性、可用性和安全性。這些政策通常由企業的管理層制定和批準,并在整個組織中實施,
(3)數據標準
數據標準是關于如何定義、格式化和管理數據的詳細規則和技術規范。數據標準確保在整個組織中一致地創建、管理和使用數據。包括有數據命名標準、數據格式標準、數據質量標準及元數據標準等,
(4)數據組織
明確數據管理的角色和職責,確保數據管理活動的有效執行
三、 數據管理系統及數據架構的類型
1. 數據倉庫
數據倉庫將來自企業內不同關系數據源的數據聚合到單個集中的統一存儲庫中。提取后,數據流經 ETL 數據管道,經過各種數據轉換,才能滿足預定義數據模型的需求。一旦加載到數據倉庫中,數據就可以支持不同的商業智能 (BI) 和數據科學應用程序。
2.數據集市
數據集市是一個有針對性的數據倉庫版本,它包含一個較小的數據子集,這些數據對組織內的單個團隊或選定用戶組很重要且是必需的。由于數據集市包含較小的數據子集,因此在使用更廣泛的數據倉庫數據集時,數據集市使部門或業務線能夠更快地發現更有針對性的洞察。最初創建數據集市的目的是應對組織在 20 世紀 90 年代建立數據倉庫的困難。當時集成來自整個組織的數據需要進行大量手動編碼,而且非常耗時。與集中式數據倉庫相比,數據集市的范圍更有限,使其實現起來更容易且更快速。
3. 數據湖
數據倉庫存儲已處理的數據,而數據湖存儲原始數據,通常為 PB 級別。數據湖可以存儲結構化和非結構化數據,這使其與其他數據存儲庫不同。這種靈活的存儲需求對于數據科學家、數據工程師和開發人員尤其有用。最初創建數據湖的目的是應對數據倉庫無法處理數量、速度和種類不斷增加的大數據的情況。雖然數據湖比數據倉庫慢,但它們的價格也更低廉,因為在采集之前幾乎不需要數據準備。
4.數據結構
數據結構是一種架構,它側重于數據提供者和數據使用者之間的數據價值鏈中的數據集成、數據工程和治理的自動化 數據結構基于“活動元數據”的概念,使用知識圖、語義、數據挖掘和機器學習 (AI) 技術來發現各種類型元數據(例如系統日志、社交等)中的模式。然后,將這種洞察應用于自動化并編排數據價值鏈。例如,它可以使數據使用者能夠找到數據產品,然后自動向他們提供該數據產品。數據產品和數據使用者之間數據訪問的增加減少了數據孤島,并提供了更完整的組織數據視圖。數據結構是一種具有巨大潛力的新興技術,可用于增強客戶概要分析、欺詐檢測和預防性維護。根據 Gartner 的數據,數據結構使集成設計時間減少 30%,部署時間減少 30%,維護時間減少 70%。
5.數據網格
數據網格是一種去中心化的數據架構,按業務領域來組織數據。使用數據網格時,組織需要不再將數據視為流程的副產品,而是開始將其視為產品本身。數據生產者充當數據產品所有者。作為主題專家,數據生產者可以利用他們對數據主要使用者的理解為他們設計 API。這些 API 也可以從組織的其他部分訪問,提供了更廣泛的受管數據訪問渠道。
數據湖、數據倉庫等相對傳統的存儲系統可以作為多個去中心化的數據存儲庫來實現數據網格。數據網格還可以與數據結構一起使用,借助數據結構的自動化,可以更快地創建新的數據產品或執行全球治理。
四、企業數據架構參考框架
大數據技術推進委員會的實踐指南圍繞企業中聯機分析處理(OLAP)和聯機事務處理(OLTP)兩類主要數據處理形式,從數據靜態描述和動態描述視角提出數據架構的參考框架如下圖所示:
主要內容如下:
① OLTP側以應用系統集成為核心,OLAP側以數據集成整合為核心,分別支持業務交易活動和業務分析活動的順利開展;
② OLTP側以范式數據模型為核心,確保應用系統滿足業務交易的數據需求;OLAP側以維度模型為主,承接OLTP側的物理數據實體后進行轉換整合,滿足跨業務域的數據分析挖掘等需求;
③ OLTP 和OLAP 側均需要數據標準的全面規范和支持,前者以數據項標準為主,后者以指標數據標準為主;
④ OLTP側以數據分布、數據流管理為主,核心在于構建數據實體與業務流程的關聯關系;OLAP側以數據采集接入、總線矩陣管理為主,確保數據資源的準確采集和高效匯聚,保證數據分析結果回流到業務活動中;
⑤主數據是介于應用集成和數據集成之間的一種特殊狀態,其本身是業務數據的一種特別狀態,但其既可以有力推動應用集成,又可為數據集成和數據分析挖掘提供高質量的核心業務數據資源;
⑥企業數據架構參考框架需要結合企業實際的數字化現狀進行重構,并進行業務的實例化才能發揮作用。
五、實際案例
在知乎的沐以成舟的文章中,給出了如下的數據架構。
數據架構從數據側描述數據怎么來、怎么存、怎么加工、怎么使用。
- 數據源:數據通過哪些方式集成過來;
- 集成到數倉:都存在哪里,數倉怎么分層,每一層都干啥;
- 數據集市:怎么存、怎么管;
- 數據應用層:提供哪些應用;
最后,上面所有的一切,都用什么技術,什么組件,解決什么問題,系統需要什么樣的數據、如何存儲、如何進行數據架構設計。