【系統分析師】高分論文:論企業數據治理

【摘要】
2022年3月,我作為系統分析師及IT 負責人,參加了我司的企業級數據平臺建設項目,該項目作為我司在企業數字化轉型過程中重要的里程碑,在我司數字化運營中扮演著關鍵的角色。該項目主要包含企業級數據倉庫,數據治理,數據建模,OLAP 即席查詢與 B1數據分析展示等模塊,旨在為公司打造實時性(Real-time)、按需定制(On-Demand )、全在線(All-online)、自助服務(DIY)以及社交化(Social)的綜合數據平臺,為公司邁入數字化運營管理打下基礎。本文以該項目為例,結合本人項目實踐經驗,從企業對數據的需求、企業數據治理的痛點、數據平臺需達到的目標、數據治理實施的方法三個方面米闡述我對企業數據治理的理解與我司開展數據治理的方法、背景以及實施效果。

【正文】
我司作為擁有近 20 年經驗的通信工程行業的建設單位,自 2003年起便開始了企業信息化建設工作。隨著云計算、大數據、人工智能、區塊鏈等技術的日漸成熱,我司于 2015 年開啟了數字化轉型的進程,伴隨著傳統業務與新業務規模的不斷擴張,公司對于數字化運營的訴求也越來越強烈。

2022 年3 月,我作為系統分析師及1T 團隊負責人,正式開始打造企業級數據平臺,本項目周期為1年,投資金額500 萬元。公司管理層期望通過木項目的建設,規范公司級數據標準、統一數據存儲與管理、將數據真正應用于業務過程與經營決策中,為公司數字化運營提供平臺支撐。本項目采用目前行業最佳實踐 Hadoop 技術生態,通過 Sqoop 對業務數據和文件數據進行抽取:通過 Flume對系統日志及管理日志進行抽取:采用 Zookeeper 對 ETL 的過程進行統一配置管理:利用 Kalka消息中間件對數據的生產與消費進行管理;用 HDFS 對數據進行分布式存儲:通過 Hive 和 HBase對數據進行分類和建模;最終通過數據治理 ADS 數據主題層,利用 Kylin對 ADS 進行 OLAP 即P席查詢,同時采用 Metabase、Superset 和商用 BI 產品對數據進行分析與展示。

一、企業對數據的需求
近10 年來,各行各業因國際局勢與市場情況等因素發生著刷烈的變化,企業的競爭日趨激烈。自2013年以來,我所處的通信工程行業以每年接近 50%的企業淘達率開啟了無情的行業洗牌階段,規模效應越來越明顯,與我司類似的情況公司都面臨著生存的壓力和增長的挑戰。隨著利潤率越來越低,客戶要求越來越高,資金壓力越來越大等一系列市場的壓力,企業若固守傳統的經營理念則注定是死路一條,唯有進行徹底的變革才是生存與發展之道,企業數字化轉型應運而生。

以數字世界為視角,企業分為兩類,一類是數字原生,企業,以 BAT 等互聯網公司為代表,另一類是非數字原生企業,以傳統行業為代表。企業數化轉型的主力軍就是廣大的非數字原生企業,我司也是非數字原生,企業的典型,是以物理世界為業務開展的校心,認為邁向數字世界的成功關鍵就在于數據。在目前快速變化的市場格局下,企業在業務開展過程中需要大量的數據進行分柝、判斷與決策,從量化的角度做出最優的選擇才能讓企業持續保持核心競爭力,這是企業對數據的基本需求。

同時,在數字化轉型過程中,往往還伴隨者新的業務拓展,而這些新業務的基礎便是數據,這些數據是企業重要的數據資產,將這些數據發揮其價值就能為企業拓展出新的發展道路,這是企業對數據的發展需求。隨著企業數字化轉型的進程不斷推進,各式各樣的結構化與非結構化數據源源不斷地產生,大量的數據資產需要進行管理,這是企業對數據的管理需求。隨著數據更多的價值被持續地挖掘,這些有價值的數據將會成為企業的核心資產和競爭資源,這些數據牽扯到商業機密,業務活動與用戶隱私,對數據進行安全可靠的管理將成為重中之重,這是企業對數據的安全需求。以上就是基于目前的行業和市場的背景,企業對數據的主要需求。

二、企業數據治理的痛點
在企業數字化轉型過程中,信息化系統建設是必備的階段,這些信息化系統建設往往都是圍繞著局部的業務主體進行開展的。例如企業財務系統、ERP 生產資源管理系統、CRM 客戶關系管理系統等,然而正是因為信息化系統建設的規劃與變化問題,導致各種數據孤島,財務、人事、運營等數據無法共享,管理層無法得到真實完整的數據從而判斷公司的經營情況,更不要提決策支撐了,這是數據孤島的痛點。

在信息化系統建設過程中,這些系統和應用往往是圍繞業務流轉為核心,而不是以數據應用為核心,這也直接導致了在數據生產過程中沒有相應的標準與規范,導致大量的錯誤數據、臟數據、重復數據,并且這些數據占比之大,令人咋舌,在真正統計分析時才發現這些數據根本無法利用,即使可以使用,也需要花費大量的人力、物力對數據進行結構化處理和校對,企業真正想利用的數據少得可憐,這就是數據不規范的痛點。

在企業的某些部門,為了匯報材料中的數據,給基層和一線員工派發大量的數據表格要求填寫,這些數據表格填報后再層層上報,最終由部分員工花費大量的時間精力進行整理和合并上交給公司進行匯報,給各級員工增加了大量的額外工作量,而這些采集的數據往往需要幾周甚至幾個月才能最終統計形成,效率極其低下,數據質量也無法考證,這是數據滯后與采集效率低下的痛點。以上數據洽理的痛點在企業中普遍存在,如何有效解決這些痛點并滿足企業對數據的需求是企業數據治理過程中的關鍵。

三、數據治理的實施方法
管理大師德魯克先生提出過,企業的首要職貴是創造經濟效益,所以企業一定是需要面向業務面向市場的。既然如此。企業數據治理也一定是需要服務于業務和市場的,不能以單純的技術標準和實施過程為目標。以我司數據治理為例,開展數據治理的首要工作是對企業主線業務進行識別與分析,例如 LTC 線索到現金管理主線,OTD 訂單限行交付主線,1SC 采購供應鏈管理主線等。這些管理主線在企業中天然存在,是企業創造經濟效益的血脈,也是數據生產和數據應用的主戰場。所以識別企業主線業務并進行分析一定是數據治理的首要工作,其主要目的是確定數據治理的范圍與目標。

在確定了數據治理的范圍和目標后,需要對各生產數據的信息化系統和數據本身進行調研與分析。這個過程中的關鍵是按照不同的分類方式對現有數據進行分類,從數據來源對內部數據和外部數據進行識別:從結構化數據的角度對主數據、基礎數據、事務數據、報告數據、觀測數據、規則數據進行識別:從非結構化數據的角度對文件、圖片、聲音、視頻等進行識別。此階段的主要目的是按照標準的分類的體現對現有數據進行識別,基本對企業的數據情況有了詳細的了解,根據識別的結果對數據治理實施工作進行規劃。

接下來就是按照規劃有序地開展數據治理實施工作,在這個過程中需要遵循一系列規范準則。對基礎數據進行治理時需要以外部協同有效性為準則,例如“國家”“貨幣”“稅率”等,不要按照企業自己的意愿對數據進行自定義,這樣做的結果將會導致在內部和外部數據的交互過程中出現差異。主數據是企業生產交互的主要對象,針對主數據的治理需要遵從唯一性、聯邦管控、單一數據源、數據流程IT協同、事前的數據質量策略,其中單一數據源一定是重中之重。

以我司對主數據治理為例,在過程中發現不同的 IT 系統都在生產主數據,例如“客戶”主數據,在 CRM 系統中會產生“客戶”,在財務系統中也會產生“客戶”,這種專科直接導致了在對單一“客戶”進行統計時,發生了許多差異,最終導致了統計不準確的結果。發現此類問題后,首先需要對數據的最初來源進行定義。以“客戶”為例,其源頭一定是從CRM 中而來,故在數據治理過程中需要對 IT 系統同步進行優化,保證數據的唯一性。其次,為了保證數據治理的有效性,公司需要明確各類數據的責任主體與貴任人,我司在數據治理中明確了數據責任人,誰負責的業務板塊所生產的數據,誰就對這些數據負貴,這些制度的建立也有效地推動了數據治理的過程,提升了數據治理的有效性和質量。

【總結】
企業數據治理是一項龐大且系統化的工程,并且會伴隨著企業的發展而發展。我司企業數據平臺建設項目在歷時1年后,按時 且圓滿地完成了上線運行工作。在這個過程中,對數據治理的方法探索是項目成功的核心,經過以上對數據需求的分析、對數據痛點的挖掘、對數據治理方法的踐行,我司基本完成了數據的實時性(Real-time)、按需定制(On-Demand)、全在線(All-online)、自助服務(DIY)以及社交化(Social),為公司數字化運營打下了堅實的基礎。同時,我也深刻地意識到企業數據治理不僅僅只是1T 單方面的工作,這需要整個企業和廣大員工對共同的愿景為之努力并付出,才能夠真正地完成企業數據治理的目標,為企業積累核心數據資產,快速響應變化的市場環境,為企業拓展新的發展方向。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/96667.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/96667.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/96667.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Seata原理分析

簡介Apache Seata? (incubating) 是什么?Seata 是一款開源的分布式事務解決方案,致力于在微服務架構下提供高性能和簡單易用的分布式事務服務。在 Seata 開源之前,其內部版本在阿里系內部一直扮演著應用架構層數據一致性的中間件角色&#x…

力扣 30 天 JavaScript 挑戰 第38天 (第九題)學習了 語句表達式的區別 高級函數 promise async await 節流

開始答題 版本一: /*** param {Function} fn* return {Function}*/ var once function(fn) {let runCount0return function(...args){runCountrunCount 1 ? return fn(...args) :return undefined} };/*** let fn (a,b,c) > (a b c)* let onceFn once(fn)…

25年八月份寧德時代社招部分崗位入職Verify測評演繹數字推理SHL題型變更、題庫使用說明

開始測評前,請注意:1、挑選一個安靜的環境,選擇一臺網速正常且無任何網絡端口限制的電腦進行測評;2、移動設備無法兼容遠程監考功能,請使用配備有可正常運作的攝像頭的臺式機或筆記本電腦,建議使用最新版本的Chrome,Fi…

【KO】前端面試四

以下是剩余題目的詳細解答,結合前端知識體系和實際應用場景展開: 91. JS 放在 head 里和放在 body 里有什么區別? 對比維度 放在 <head> 放在 <body> 加載阻塞性 會阻塞頁面渲染,需等待 JS 下載/執行完成后,才繼續渲染頁面 一般放在 </body> 前,頁面渲…

[Vid-LLM] 數據集 | 基準測試

第5章&#xff1a;數據集與基準測試 在前一章中&#xff0c;我們探討了**視頻大語言模型(Vid-LLMs)**能夠執行的各種"工作"或"功能"&#xff0c;從視頻總結到充當智能代理。 我們了解了它們的構建方式和扮演的角色。 但這里有個關鍵問題&#xff1a;這些驚…

34、擴展倉儲管理系統 (跨境汽車零部件模擬) - /物流與倉儲組件/extended-warehouse-management

76個工業組件庫示例匯總 擴展倉儲管理系統 (跨境汽車零部件模擬) 概述 這是一個高級的倉儲管理系統 (WMS) 模擬組件&#xff0c;專為展示跨境汽車零部件的復雜物流場景而設計。它模擬了從海外供應商發貨&#xff0c;經過海運/空運、清關、質檢&#xff0c;到最終入庫上架&am…

nodejs koa留言板案例開發

包含功能 登錄注冊(不開放注冊只是用固定的賬號信息) 查看列表 查看詳情 發布信息 編輯信息 刪除信息 項目接口 npm init -y npm install koa --save npm istall koa-router --save (舊版本) 或者 npm install koa/router --save &#xff08;新版本&#xff09; npm instal…

4+ 圖論高級算法

強連通分量 基礎概念 強連通&#xff1a;在有向圖 GGG 中&#xff0c;如果兩個點 uuu 和 vvv 是互相可達的&#xff0c;即從 uuu 出發可以到達 vvv , 從 vvv 也可以到達 uuu , 則稱 uuu 和 vvv 是強連通的。如果 GGG 中任意兩個點都是互相可達的&#xff0c;則稱 GGG 是強連通圖…

從羅永浩訪談李想中學習現代家庭教育智慧

引言 在這個信息爆炸的時代&#xff0c;每個父母都在尋找培養孩子的最佳方式。在羅永浩與理想汽車創始人李想的深度訪談中&#xff0c;我們看到了一個成功企業家童年成長的真實樣本。李想的成長經歷為現代家庭教育提供了許多值得深思的啟示。 一、正義感與樂觀精神的種子 李想回…

AI實現超級客戶端打印 支持APP 網頁 小程序 調用本地客戶端打印

核心思路都是&#xff1a;需要一個安裝在用戶電腦上的“中間人”程序&#xff08;本地客戶端&#xff09;來接管打印任務&#xff0c;然后通過某種通信方式命令這個客戶端進行打印。下面我將分平臺詳細闡述各種實現思路、優缺點和適用場景。一、核心思路與公共組件&#xff1a;…

Java集合(Collection、Map、轉換)

? 推薦使用 ? 已過時 1. Collection Collection 是集合框架的根接口之一&#xff0c;它是所有單列集合&#xff08;如 List、Set、Queue 等&#xff09;的公共父接口。Collection 接口定義了集合的基本操作&#xff0c;比如添加、刪除、遍歷等。 Collection ├── List │ …

全國網絡安全知識競賽有哪些

全國范圍內有多種類型的網絡安全知識競賽&#xff0c;涵蓋國家級、行業級、高校、青少年和企業等多個維度。以下是主要的網絡安全知識競賽分類及詳細介紹&#xff1a;一、國家級網絡安全競賽"強網杯"全國網絡安全挑戰賽主辦單位&#xff1a;中央網信辦、河南省人民政…

系統架構設計師備考第1天——系統架構概述

一、架構本質與角色定位架構 系統的骨架 ? 核心作用&#xff1a; 決定系統的健壯性、生命周期、擴展性銜接需求與實現&#xff0c;保障早期質量 &#x1f468;&#x1f4bb; 架構師核心能力&#xff1a;能力維度具體要求技術掌控力精通基礎技術&#xff0c;洞悉局部瓶頸決策設…

c#實現鼠標mousemove事件抽稀,避免大數據阻塞網絡

這個封裝類可以獨立于具體的網絡傳輸邏輯&#xff0c;為任何需要減少鼠標移動數據量的應用提供靈敏度和數據量優化。 核心優化功能 1. 靈敏度調整 // 減少微小移動的數據發送 (2, 1) 0.5 → (1, 0) // 忽略微小移動2. 移動累積 // 累積多次小移動&#xff0c;批量發送 (1, 0) …

機器學習 [白板推導](十三)[條件隨機場]

? 17. 條件隨機場&#xff08;Conditional Random Field&#xff0c;CRF&#xff09; 17.1. 背景 機器學習分類模型中&#xff0c;有硬分類和軟分類兩種主流思想&#xff0c;其中硬分類模型有支持向量機SVM&#xff08;最大化幾何間隔&#xff09;、感知機PLA&#xff08;誤…

調味品生產過程優化中Ethernet/IP轉ProfiNet協議下施耐德 PLC 與歐姆龍 PLC 的關鍵通信協同案例

案例背景在食品飲料行業&#xff0c;生產過程的精準控制對于保證產品質量和安全至關重要。某知名食品飲料企業的生產線上&#xff0c;前處理、灌裝和包裝環節采用了基于 ProfiNet 主站的施耐德 M340 系列 PLC 進行控制&#xff0c;以確保生產過程的穩定性和精確性。而原料倉儲和…

Elasticsearch vs 單表LIKE查詢性能對比

關鍵因素影響 1、索引結構&#xff1a; .Elasticsearch使用倒排索引&#xff0c;特別適合文本搜索 .傳統數據庫即使有索引&#xff0c;對LIKE %keyword%這種模式也無法有效利用 2、查詢復雜度&#xff1a; .簡單查詢&#xff1a;ES快5-10倍 .復雜組合查詢&#xff1a;ES可能快1…

如何通過WordPress聯盟營銷獲取潛在客戶

您是否經營著一個銷售周期較長的業務&#xff1f; 那么你就會知道&#xff0c;從首次訪問者那里獲得立即銷售的機會是很少見的。 當然&#xff0c;您的潛在客戶在進行重大投資之前需要時間進行研究、比較各種方案并建立信任。這時&#xff0c;聯盟營銷線索挖掘就成為您的秘密…

git實戰(8)git高階命令分析【結合使用場景】

以下是 Git 高階命令分享&#xff0c;涵蓋高效協作、歷史重構、問題排查等場景&#xff0c;助你成為 Git 高手&#xff1a; 一、歷史重構與清理 1. 交互式變基&#xff08;改寫歷史&#xff09; git rebase -i HEAD~3 # 修改最近3次提交操作選項&#xff1a; reword&#xff1…

生成一個豎直放置的div,寬度是350px,上面是標題固定高度50px,下面是自適應高度的div,且有滾動條

<!-- 我要生成一個豎直放置的div&#xff0c;寬度是350px&#xff0c;上面是標題固定高度50px&#xff0c;下面是自適應高度的div&#xff0c;且有滾動條。 --><style>html,body{/* height:100vh; */margin:10px; padding:10px;} </style><div style"…