數字化轉型-4A架構之數據架構

4A架構系列文章

  1. 數字化轉型-4A架構(業務架構、應用架構、數據架構、技術架構)

  2. 數字化轉型-4A架構之業務架構

  3. 數字化轉型-4A架構之應用架構

  4. 數字化轉型-4A架構之數據架構

  5. 數字化轉型-4A架構之技術架構


數據架構 Data Architecture(DA)

1. 定義

數據架構,是組織管理數據資產的科學之道,描述如何管理從收集到轉換、分發和使用數據。它為數據及其在數據存儲系統中流動的方式設定了藍圖。涵蓋數據的收集、存儲、使用及管理等環節,涉及數據模型、數據庫系統設計及集成治理技術的實施。

2. 目的

數據架構的目標是支持業務需求、提高數據的質量和一致性,并促進數據的共享和集成。

3. 價值

通過梳理一個全面而清晰的數據架構藍圖,企業可以有效地管理和利用其數據資產,確保數據的一致性,以支持業務需求和決策過程。
實現精簡數據冗余,打破企業數據孤島,提升信息化水平,確保數據質量與一致性。
清晰準確的數據助力決策速度,滿足國家政策要求,保障數據處理和存儲遵循行業規范與法規。

一、 如何繪制企業的數據架構(DA)圖?

繪制企業的數據架構圖一般分為如下四步:

  1. 數據需求分析
  2. 數據模型設計
  3. 數據治理
  4. 數據共享開放與入表

具體設計步驟:

1.上接業務,分析數據需求,識別數據類型,采集數據

2.數據模型設計,概念模型(識別業務域),邏輯模型(實體關系ER),物理模型(表字段)

3.數據治理,數據安全合規,數據質量管理

4.數據共享開放,支撐業務決策,業務創新

在這里插入圖片描述

二、 數據架構6大模塊

新版本的數據架構中,數據架構的核心在于【數據聲明、數據原則、數據模型、數據流動、數據管理和數據治理】這六大板塊。
在這里插入圖片描述

1、數據聲明

架構工作聲明是TOGAF架構開發方法(ADM)中的關鍵文檔之一,用于詳細描述架構開發的范圍、方法、資源和計劃。它定義了架構項目的基本框架和預期成果,數據申明是其中的一部分。

2、數據原則

架構原則是用于指導企業架構設計和實施的一組基本準則和指導方針。它們幫助確保架構的一致性、靈活性和可擴展性,使架構決策在不同的項目和團隊中保持一致。架構原則通常由組織的高級管理層和架構師共同制定,并在整個組織中推廣和遵循。

3、數據模型

定義數據元素、它們的屬性以及數據元素之間的關系。輸出物包括概念模型、邏輯模型、物理模型、數據目錄等等。(1)概念模型概念模型是高層次的抽象模型,用于描述業務實體及其關系,主要面向業務用戶和利益相關者。它通常不涉及技術細節,而是強調業務需求。

4、數據流動

描述數據在系統內和系統間的流動和傳輸方式。數據流動的主要輸出物包括數據流轉、數業映射等。
(1)數據流轉
數據分布用于表示數據在系統間的流動過程,包括數據流圖、數據映射文檔、數據流規范、數據轉換規則等。
(2)數業映射
數業映射是數據流動的基礎,定義了數據實體存在于在哪些業務功能和應用程序中,幫助定義和管理數據需求,確保數據與業務功能的一致性和完整性,有效支持業務流程的執行和優化。

5、數據管理

數據管理是指對企業內所有數據資產的管理和控制,旨在確保數據的高質量、完整性、安全性、可用性和可訪問性,以支持業務決策和運營。數據管理的主要輸出物包括數據質量管理、元數據管理、數據安全管理、數據存儲管理、數據集成管理及數據生命周期管理等等。

(1)數據質量管理
數據質量管理包括數據清洗、數據驗證和數據質量監控,以確保數據的準確性和完整性。
(2)元數據管理
元數據管理涉及收集、存儲和維護描述數據的數據(元數據),以便于數據發現和使用。
(3)數據安全管理
數據安全管理涉及保護數據免受未經授權的訪問、使用和泄露,確保數據的機密性、完整性和可用性,
(4)數據存儲管理
數據存儲管理涉及設計和優化數據存儲方案,確保數據的高效存儲和訪問。
(5)數據集成管理
數據集成管理涉及將來自不同源的數據集成到統一的數據平臺,以支持業務分析和決策。
(6)數據生命周期管理
數據生命周期管理涉及數據從創建、使用、存儲到歸檔和銷毀的整個生命周期管理。

6、數據治理

數據治理涉及制定數據策略、建立數據管理組織結構和流程,以確保數據的一致性、完整性和使用合規性。數據治理的主要輸出物包括數據策略、數據政策、數據組織及數據標準等等。

(1)數據策略
制定企業的數據戰略,包括數據管理的總體目標和方向。
(2)數據政策
數據政策是指導數據管理和使用的高層次原則和規定,旨在確保數據的一致性、完整性、可用性和安全性。這些政策通常由企業的管理層制定和批準,并在整個組織中實施,
(3)數據標準
數據標準是關于如何定義、格式化和管理數據的詳細規則和技術規范。數據標準確保在整個組織中一致地創建、管理和使用數據。包括有數據命名標準、數據格式標準、數據質量標準及元數據標準等,
(4)數據組織
明確數據管理的角色和職責,確保數據管理活動的有效執行

三、 數據管理系統及數據架構的類型

1. 數據倉庫

數據倉庫將來自企業內不同關系數據源的數據聚合到單個集中的統一存儲庫中。提取后,數據流經 ETL 數據管道,經過各種數據轉換,才能滿足預定義數據模型的需求。一旦加載到數據倉庫中,數據就可以支持不同的商業智能 (BI) 和數據科學應用程序。

2.數據集市

數據集市是一個有針對性的數據倉庫版本,它包含一個較小的數據子集,這些數據對組織內的單個團隊或選定用戶組很重要且是必需的。由于數據集市包含較小的數據子集,因此在使用更廣泛的數據倉庫數據集時,數據集市使部門或業務線能夠更快地發現更有針對性的洞察。最初創建數據集市的目的是應對組織在 20 世紀 90 年代建立數據倉庫的困難。當時集成來自整個組織的數據需要進行大量手動編碼,而且非常耗時。與集中式數據倉庫相比,數據集市的范圍更有限,使其實現起來更容易且更快速。

3. 數據湖

數據倉庫存儲已處理的數據,而數據湖存儲原始數據,通常為 PB 級別。數據湖可以存儲結構化和非結構化數據,這使其與其他數據存儲庫不同。這種靈活的存儲需求對于數據科學家、數據工程師和開發人員尤其有用。最初創建數據湖的目的是應對數據倉庫無法處理數量、速度和種類不斷增加的大數據的情況。雖然數據湖比數據倉庫慢,但它們的價格也更低廉,因為在采集之前幾乎不需要數據準備。

4.數據結構

數據結構是一種架構,它側重于數據提供者和數據使用者之間的數據價值鏈中的數據集成、數據工程和治理的自動化 數據結構基于“活動元數據”的概念,使用知識圖、語義、數據挖掘和機器學習 (AI) 技術來發現各種類型元數據(例如系統日志、社交等)中的模式。然后,將這種洞察應用于自動化并編排數據價值鏈。例如,它可以使數據使用者能夠找到數據產品,然后自動向他們提供該數據產品。數據產品和數據使用者之間數據訪問的增加減少了數據孤島,并提供了更完整的組織數據視圖。數據結構是一種具有巨大潛力的新興技術,可用于增強客戶概要分析、欺詐檢測和預防性維護。根據 Gartner 的數據,數據結構使集成設計時間減少 30%,部署時間減少 30%,維護時間減少 70%。

5.數據網格

數據網格是一種去中心化的數據架構,按業務領域來組織數據。使用數據網格時,組織需要不再將數據視為流程的副產品,而是開始將其視為產品本身。數據生產者充當數據產品所有者。作為主題專家,數據生產者可以利用他們對數據主要使用者的理解為他們設計 API。這些 API 也可以從組織的其他部分訪問,提供了更廣泛的受管數據訪問渠道。

數據湖、數據倉庫等相對傳統的存儲系統可以作為多個去中心化的數據存儲庫來實現數據網格。數據網格還可以與數據結構一起使用,借助數據結構的自動化,可以更快地創建新的數據產品或執行全球治理。

四、企業數據架構參考框架

大數據技術推進委員會的實踐指南圍繞企業中聯機分析處理(OLAP)和聯機事務處理(OLTP)兩類主要數據處理形式,從數據靜態描述和動態描述視角提出數據架構的參考框架如下圖所示:
在這里插入圖片描述
主要內容如下:

① OLTP側以應用系統集成為核心,OLAP側以數據集成整合為核心,分別支持業務交易活動和業務分析活動的順利開展;

② OLTP側以范式數據模型為核心,確保應用系統滿足業務交易的數據需求;OLAP側以維度模型為主,承接OLTP側的物理數據實體后進行轉換整合,滿足跨業務域的數據分析挖掘等需求;

③ OLTP 和OLAP 側均需要數據標準的全面規范和支持,前者以數據項標準為主,后者以指標數據標準為主;

④ OLTP側以數據分布、數據流管理為主,核心在于構建數據實體與業務流程的關聯關系;OLAP側以數據采集接入、總線矩陣管理為主,確保數據資源的準確采集和高效匯聚,保證數據分析結果回流到業務活動中;

⑤主數據是介于應用集成和數據集成之間的一種特殊狀態,其本身是業務數據的一種特別狀態,但其既可以有力推動應用集成,又可為數據集成和數據分析挖掘提供高質量的核心業務數據資源;

⑥企業數據架構參考框架需要結合企業實際的數字化現狀進行重構,并進行業務的實例化才能發揮作用。

五、實際案例

在知乎的沐以成舟的文章中,給出了如下的數據架構。
數據架構從數據側描述數據怎么來、怎么存、怎么加工、怎么使用。

  • 數據源:數據通過哪些方式集成過來;
  • 集成到數倉:都存在哪里,數倉怎么分層,每一層都干啥;
  • 數據集市:怎么存、怎么管;
  • 數據應用層:提供哪些應用;

最后,上面所有的一切,都用什么技術,什么組件,解決什么問題,系統需要什么樣的數據、如何存儲、如何進行數據架構設計。
在這里插入圖片描述

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/79449.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/79449.shtml
英文地址,請注明出處:http://en.pswp.cn/web/79449.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

每日腳本 5.11 - 進制轉換和ascii字符

前置知識 python中各個進制的開頭 二進制 : 0b 八進制 : 0o 十六進制 : 0x 進制轉換函數 : bin() 轉為2進制 oct() 轉換為八進制的函數 hex() 轉換為16進制的函數 ascii碼和字符之間的轉換 : chr(97) 碼轉為字符 …

Vulnhub Lazysysadmin靶機攻擊實戰(一)

導語 ??靶機下載地址 https://download.vulnhub.com/lazysysadmin/Lazysysadmin.zip ??靶機信息地址 https://www.vulnhub.com/entry/lazysysadmin-1,205/ 文章目錄 信息收集掃描路徑提權其他思路探索其他方式找密碼總結下載安裝好靶機之后啟動虛擬機如下所示。 信息收集 我…

【DB2】DB2啟動失敗報錯SQL1042C

在本地某次啟動db2時報錯SQL1042C,具體報錯如下 [db2inst1standby ~]$ db2start 05/07/2025 16:32:53 0 0 SQL1042C An unexpected system error occurred. SQL1032N No start database manager command was issued. SQLSTATE57019在網上百度到說是需要…

Python中的re庫詳細用法與代碼解析

目錄 1. 前言 2. 正則表達式的基本概念 2.1 什么是正則表達式? 2.2 常用元字符 3. re庫的適應場景 3.1 驗證用戶輸入 3.2 從文本中提取信息 3.3 文本替換與格式化 3.4 分割復雜字符串 3.5 數據清洗與預處理 4. re庫的核心功能詳解 4.1 re.match()&#…

藍橋杯2025年第十六屆省賽真題-水質檢測

C語言代碼&#xff1a; #include <stdio.h> #include <string.h>#define MAX_LEN 1000000int main() {char a[MAX_LEN 1], b[MAX_LEN 1];// 使用 scanf 讀取字符數組scanf("%s", a);scanf("%s", b);int ans 0;int pre -1;int state -1;i…

65.Three.js案例-使用 MeshNormalMaterial 和 MeshDepthMaterial 創建 3D 圖形

65.Three.js案例-使用 MeshNormalMaterial 和 MeshDepthMaterial 創建 3D 圖形 實現效果 在該案例中&#xff0c;Three.js 被用來創建一個包含多個 3D 對象的場景。其中包括&#xff1a; 圓環結&#xff08;TorusKnot&#xff09;立方體&#xff08;Box&#xff09;球體&…

Python學習筆記--Django的安裝和簡單使用(一)

一.簡介 Django 是一個用于構建 Web 應用程序的高級 Python Web 框架。Django 提供了一套強大的工具和約定&#xff0c;使得開發者能夠快速構建功能齊全且易于維護的網站。Django 遵守 BSD 版權&#xff0c;初次發布于 2005 年 7 月, 并于 2008 年 9 月發布了第一個正式版本 1…

《汽車噪聲控制》復習重點

題型 選擇 填空 分析 計算 第一章 噪聲定義 不需要的聲音&#xff0c;妨礙正常工作、學習、生活&#xff0c;危害身體健康的聲音&#xff0c;統稱為噪聲 噪聲污染 與大氣污染、水污染并稱現代社會三大公害 聲波基本概念 定義 媒質質點的機械振動由近及遠傳播&am…

冒泡排序的原理

冒泡排序是一種簡單的排序算法&#xff0c;它通過重復地遍歷待排序的列表&#xff0c;比較相鄰的元素并交換它們的位置來實現排序。具體原理如下&#xff1a; 冒泡排序的基本思想 冒泡排序的核心思想是通過相鄰元素的比較和交換&#xff0c;將較大的元素逐步“冒泡”到列表的…

前端npm包發布流程:從準備到上線的完整指南

無論是使用第三方庫還是創建和分享自己的工具&#xff0c;npm都為我們提供了一個強大而便捷的平臺&#xff0c;然而很多開發者在將自己的代碼發布到npm上時往往面臨各種困惑和挑戰&#xff0c;本篇文章將從準備工作到發布上線&#xff0c;探討如何讓npm包更易發布及避免常見的坑…

使用 CDN 在國內加載本地 PDF 文件并處理批注:PDF.js 5.x 實戰指南

PDF.js 是一個強大的開源 JavaScript 庫&#xff0c;用于在 Web 瀏覽器中渲染 PDF 文件。它由 Mozilla 開發&#xff0c;能夠將 PDF 文檔繪制到 HTML5 Canvas 或 SVG 上&#xff0c;無需任何本機代碼或瀏覽器插件。對于許多需要在網頁中展示 PDF 內容的應用場景來說&#xff0c…

網絡化:DevOps 工程的必要基礎(Networking: The Essential Foundation for DevOps Engineering)

李升偉 編譯 理解網絡化基礎知識 你是否曾想過是什么真正讓卓越的DevOps工程師與眾人區別開來&#xff1f;答案是網絡化。是的&#xff0c;對網絡的基本理解不僅僅是有幫助的——它是絕對必要的。在當今以微服務、容器和分布式系統為主宰的互聯互通世界中&#xff0c;對網絡原…

C++基本知識 —— 缺省參數·函數重載·引用

C基本知識 —— 缺省參數函數重載引用 1. 缺省參數2. 函數重載3. 引用3.1 引用的基礎知識3.2 引用的作用3.3 const 引用3.4 指針與引用的關系 1. 缺省參數 什么是缺省參數&#xff1f;缺省參數是聲明或定義函數時為函數的參數指定一個缺省值。在調用該函數的時候&#xff0c;如…

Rust 官方文檔:人話版翻譯指南

鑒于大部分翻譯文檔都不太會說人話&#xff0c;本專欄主要內容為 rust 程序設計語言、rust 參考手冊、std 庫 等官方文檔的中譯中。

FlySecAgent:——MCP全自動AI Agent的實戰利器

最近&#xff0c;出于對人工智能在網絡安全領域應用潛力的濃厚興趣&#xff0c;我利用閑暇時間進行了深入研究&#xff0c;并成功開發了一款小型輕量化的AI Agent安全客戶端FlySecAgent。 什么是 FlySecAgent&#xff1f; 這是一個基于大語言模型和MCP&#xff08;Model-Contr…

實戰項目5(08)

目錄 任務場景一 【r1配置】 【r2配置】 【r3配置】 ???????任務場景二 【r1配置】 【r2配置】 ???????任務場景一 按照下圖完成網絡拓撲搭建和配置 任務要求&#xff1a; 通過在路由器R1、R2和R3上配置靜態路由&#xff0c;實現網絡中各終端PC能夠正常…

基于Kubernetes的Apache Pulsar云原生架構解析與集群部署指南(下)

文章目錄 k8s安裝部署Pulsar集群前期準備版本要求 安裝 Pulsar Helm chart管理pulsarClustersBrokersTopic k8s安裝部署Pulsar集群 前期準備 版本要求 Kubernetes 集群&#xff0c;版本 1.14 或更高版本Helm v3&#xff08;3.0.2 或更高版本&#xff09;數據持久化&#xff…

C35-數組和函數開發初見

一 數組作為函數的參數 用于傳遞數組中的某一個元素→意義不大 數組名當做函數實際參數 示例 代碼 #include <stdio.h>//封裝函數PrintArr void PrintArr(int arr[3]){int i;for(i0;i<3;i){printf("%d ",arr[i]);}putchar(\n);}//主函數 int main() { …

【小沐學GIS】基于C++繪制二維瓦片地圖2D Map(QT、OpenGL、GIS)

&#x1f37a;三維數字地球系列相關文章如下&#x1f37a;&#xff1a;1【小沐學GIS】基于C繪制三維數字地球Earth&#xff08;OpenGL、glfw、glut&#xff09;第一期2【小沐學GIS】基于C繪制三維數字地球Earth&#xff08;OpenGL、glfw、glut、GIS&#xff09;第二期3【小沐學…

idea左側項目資源管理器不見了處理

使用idea誤觸導致&#xff0c;側邊欄和功能欄沒了&#xff0c;如何打開&#xff1f; 1.打開文件&#xff08;File&#xff09; 2. 打開設置&#xff08;Settings&#xff09; 3.選擇Appearance&Behavior--->Appearance劃到最下面&#xff0c;開啟顯示工具欄和左側并排布…