【摘要】
2022年3月,我作為系統分析師及IT 負責人,參加了我司的企業級數據平臺建設項目,該項目作為我司在企業數字化轉型過程中重要的里程碑,在我司數字化運營中扮演著關鍵的角色。該項目主要包含企業級數據倉庫,數據治理,數據建模,OLAP 即席查詢與 B1數據分析展示等模塊,旨在為公司打造實時性(Real-time)、按需定制(On-Demand )、全在線(All-online)、自助服務(DIY)以及社交化(Social)的綜合數據平臺,為公司邁入數字化運營管理打下基礎。本文以該項目為例,結合本人項目實踐經驗,從企業對數據的需求、企業數據治理的痛點、數據平臺需達到的目標、數據治理實施的方法三個方面米闡述我對企業數據治理的理解與我司開展數據治理的方法、背景以及實施效果。
【正文】
我司作為擁有近 20 年經驗的通信工程行業的建設單位,自 2003年起便開始了企業信息化建設工作。隨著云計算、大數據、人工智能、區塊鏈等技術的日漸成熱,我司于 2015 年開啟了數字化轉型的進程,伴隨著傳統業務與新業務規模的不斷擴張,公司對于數字化運營的訴求也越來越強烈。
2022 年3 月,我作為系統分析師及1T 團隊負責人,正式開始打造企業級數據平臺,本項目周期為1年,投資金額500 萬元。公司管理層期望通過木項目的建設,規范公司級數據標準、統一數據存儲與管理、將數據真正應用于業務過程與經營決策中,為公司數字化運營提供平臺支撐。本項目采用目前行業最佳實踐 Hadoop 技術生態,通過 Sqoop 對業務數據和文件數據進行抽取:通過 Flume對系統日志及管理日志進行抽取:采用 Zookeeper 對 ETL 的過程進行統一配置管理:利用 Kalka消息中間件對數據的生產與消費進行管理;用 HDFS 對數據進行分布式存儲:通過 Hive 和 HBase對數據進行分類和建模;最終通過數據治理 ADS 數據主題層,利用 Kylin對 ADS 進行 OLAP 即P席查詢,同時采用 Metabase、Superset 和商用 BI 產品對數據進行分析與展示。
一、企業對數據的需求
近10 年來,各行各業因國際局勢與市場情況等因素發生著刷烈的變化,企業的競爭日趨激烈。自2013年以來,我所處的通信工程行業以每年接近 50%的企業淘達率開啟了無情的行業洗牌階段,規模效應越來越明顯,與我司類似的情況公司都面臨著生存的壓力和增長的挑戰。隨著利潤率越來越低,客戶要求越來越高,資金壓力越來越大等一系列市場的壓力,企業若固守傳統的經營理念則注定是死路一條,唯有進行徹底的變革才是生存與發展之道,企業數字化轉型應運而生。
以數字世界為視角,企業分為兩類,一類是數字原生,企業,以 BAT 等互聯網公司為代表,另一類是非數字原生企業,以傳統行業為代表。企業數化轉型的主力軍就是廣大的非數字原生企業,我司也是非數字原生,企業的典型,是以物理世界為業務開展的校心,認為邁向數字世界的成功關鍵就在于數據。在目前快速變化的市場格局下,企業在業務開展過程中需要大量的數據進行分柝、判斷與決策,從量化的角度做出最優的選擇才能讓企業持續保持核心競爭力,這是企業對數據的基本需求。
同時,在數字化轉型過程中,往往還伴隨者新的業務拓展,而這些新業務的基礎便是數據,這些數據是企業重要的數據資產,將這些數據發揮其價值就能為企業拓展出新的發展道路,這是企業對數據的發展需求。隨著企業數字化轉型的進程不斷推進,各式各樣的結構化與非結構化數據源源不斷地產生,大量的數據資產需要進行管理,這是企業對數據的管理需求。隨著數據更多的價值被持續地挖掘,這些有價值的數據將會成為企業的核心資產和競爭資源,這些數據牽扯到商業機密,業務活動與用戶隱私,對數據進行安全可靠的管理將成為重中之重,這是企業對數據的安全需求。以上就是基于目前的行業和市場的背景,企業對數據的主要需求。
二、企業數據治理的痛點
在企業數字化轉型過程中,信息化系統建設是必備的階段,這些信息化系統建設往往都是圍繞著局部的業務主體進行開展的。例如企業財務系統、ERP 生產資源管理系統、CRM 客戶關系管理系統等,然而正是因為信息化系統建設的規劃與變化問題,導致各種數據孤島,財務、人事、運營等數據無法共享,管理層無法得到真實完整的數據從而判斷公司的經營情況,更不要提決策支撐了,這是數據孤島的痛點。
在信息化系統建設過程中,這些系統和應用往往是圍繞業務流轉為核心,而不是以數據應用為核心,這也直接導致了在數據生產過程中沒有相應的標準與規范,導致大量的錯誤數據、臟數據、重復數據,并且這些數據占比之大,令人咋舌,在真正統計分析時才發現這些數據根本無法利用,即使可以使用,也需要花費大量的人力、物力對數據進行結構化處理和校對,企業真正想利用的數據少得可憐,這就是數據不規范的痛點。
在企業的某些部門,為了匯報材料中的數據,給基層和一線員工派發大量的數據表格要求填寫,這些數據表格填報后再層層上報,最終由部分員工花費大量的時間精力進行整理和合并上交給公司進行匯報,給各級員工增加了大量的額外工作量,而這些采集的數據往往需要幾周甚至幾個月才能最終統計形成,效率極其低下,數據質量也無法考證,這是數據滯后與采集效率低下的痛點。以上數據洽理的痛點在企業中普遍存在,如何有效解決這些痛點并滿足企業對數據的需求是企業數據治理過程中的關鍵。
三、數據治理的實施方法
管理大師德魯克先生提出過,企業的首要職貴是創造經濟效益,所以企業一定是需要面向業務面向市場的。既然如此。企業數據治理也一定是需要服務于業務和市場的,不能以單純的技術標準和實施過程為目標。以我司數據治理為例,開展數據治理的首要工作是對企業主線業務進行識別與分析,例如 LTC 線索到現金管理主線,OTD 訂單限行交付主線,1SC 采購供應鏈管理主線等。這些管理主線在企業中天然存在,是企業創造經濟效益的血脈,也是數據生產和數據應用的主戰場。所以識別企業主線業務并進行分析一定是數據治理的首要工作,其主要目的是確定數據治理的范圍與目標。
在確定了數據治理的范圍和目標后,需要對各生產數據的信息化系統和數據本身進行調研與分析。這個過程中的關鍵是按照不同的分類方式對現有數據進行分類,從數據來源對內部數據和外部數據進行識別:從結構化數據的角度對主數據、基礎數據、事務數據、報告數據、觀測數據、規則數據進行識別:從非結構化數據的角度對文件、圖片、聲音、視頻等進行識別。此階段的主要目的是按照標準的分類的體現對現有數據進行識別,基本對企業的數據情況有了詳細的了解,根據識別的結果對數據治理實施工作進行規劃。
接下來就是按照規劃有序地開展數據治理實施工作,在這個過程中需要遵循一系列規范準則。對基礎數據進行治理時需要以外部協同有效性為準則,例如“國家”“貨幣”“稅率”等,不要按照企業自己的意愿對數據進行自定義,這樣做的結果將會導致在內部和外部數據的交互過程中出現差異。主數據是企業生產交互的主要對象,針對主數據的治理需要遵從唯一性、聯邦管控、單一數據源、數據流程IT協同、事前的數據質量策略,其中單一數據源一定是重中之重。
以我司對主數據治理為例,在過程中發現不同的 IT 系統都在生產主數據,例如“客戶”主數據,在 CRM 系統中會產生“客戶”,在財務系統中也會產生“客戶”,這種專科直接導致了在對單一“客戶”進行統計時,發生了許多差異,最終導致了統計不準確的結果。發現此類問題后,首先需要對數據的最初來源進行定義。以“客戶”為例,其源頭一定是從CRM 中而來,故在數據治理過程中需要對 IT 系統同步進行優化,保證數據的唯一性。其次,為了保證數據治理的有效性,公司需要明確各類數據的責任主體與貴任人,我司在數據治理中明確了數據責任人,誰負責的業務板塊所生產的數據,誰就對這些數據負貴,這些制度的建立也有效地推動了數據治理的過程,提升了數據治理的有效性和質量。
【總結】
企業數據治理是一項龐大且系統化的工程,并且會伴隨著企業的發展而發展。我司企業數據平臺建設項目在歷時1年后,按時 且圓滿地完成了上線運行工作。在這個過程中,對數據治理的方法探索是項目成功的核心,經過以上對數據需求的分析、對數據痛點的挖掘、對數據治理方法的踐行,我司基本完成了數據的實時性(Real-time)、按需定制(On-Demand)、全在線(All-online)、自助服務(DIY)以及社交化(Social),為公司數字化運營打下了堅實的基礎。同時,我也深刻地意識到企業數據治理不僅僅只是1T 單方面的工作,這需要整個企業和廣大員工對共同的愿景為之努力并付出,才能夠真正地完成企業數據治理的目標,為企業積累核心數據資產,快速響應變化的市場環境,為企業拓展新的發展方向。