?大家好,本篇文章是在新年之際寫的,所以在這里先給大家拜個年。
今天要介紹的名詞為ETL:
ETL,是英文Extract-Transform-Load的縮寫,用來描述將數據從來源端經過抽取(extract)、轉換(transform)、加載(load)至目的端的過程。ETL一詞較常用在數據倉庫,但其對象并不限于數據倉庫。
ETL常用于大數據和數據治理的過程中,對于2025年來說,數據資產已經越來越重要,因為數據在未來將會驅動一切,來代替人來做判斷。
常與ETL一起出現的還有ELT:
ELT是利用數據庫的處理能力,E=從源數據庫抽取數據,L=把數據加載到目標庫的臨時表中,T=對臨時表中的數據進行轉換,然后加載到目標庫目標表中。
這兩個名詞常常會和BI一起出現使用,BI為:
商業智能(Business Intelligence,簡稱:BI),又稱商業智慧或商務智能,指用現代數據倉庫技術、線上分析處理技術、數據挖掘和數據展現技術進行數據分析以實現商業價值。
商業智能的概念在1996年最早由加特納集團(Gartner Group)提出,加特納集團將商業智能定義為:商業智能描述了一系列的概念和方法,通過應用基于事實的支持系統來輔助商業決策的制定。商業智能技術提供使企業迅速分析數據的技術和方法,包括收集、管理和分析數據,將這些數據轉化為有用的信息,然后分發到企業各處。
數據質量與商業智能
數據質量角色
對于增強數據資產準確度和價值而言,將數據質量規則與活動(探查、清洗和監測)和MDM流程相集成顯得十分關鍵。在啟動任何MDM項目之前,您都需要了解源數據的內容、質量和結構。在數據源進行的數據探查使數據管理員和數據倉庫管理員能夠在數據進入MDM系統之前,快速發現和分析跨所有數據源的所有數據異常。此流程可極大加快從MDM實施中獲取價值。
由于數據清洗增強了數據的準確度,帶來了數據完整性,并從源頭增進了數據的可信度,因此數據清洗改善了MDM系統中的數據一致性。一旦源數據進入MDM系統,它將接受數據質量處理,其中包括驗證、更正和標準化。MDM系統存儲了在數據清洗前后的整個歷史記錄,從而開發人員不必再跟蹤數據倉庫中的數據沿襲。
最后,數據質量度量標準使數據倉庫管理員能夠更好地監控參考數據的質量,并確保可以長期持續使用高質量的數據。
因此,從技術角度看,實施MDM和Informatica Data Quality,作為數據倉庫中主數據的確定來源,可以從提取、轉換和加載(ETL)流程中簡化數據集成。此方法可極大減低與數據倉庫有關的整個開發和維護工作。通過建立數據質量度量標準和定義數據質量目標,數據倉庫管理員和數據管理員能夠更好地監控參考數據的質量,并確保隨著時間的推移能夠跨企業持續使用高質量的數據。MDM簡化了對數據倉庫維度更新的處理,因為用于確定更改內容的所有邏輯均封裝在MDM系統中。
此外,MDM系統可以卸除大多數數據倉庫的歷史記錄跟蹤負擔,使數據倉庫僅管理它需要為進行聚合而應跟蹤的變更。此系統可帶來更小的數據倉庫維度以及對負荷和查詢性能的重大改進。運用MDM和Informatica Data Quality將最終降低數據集成的工作量,提高從商業智能和報表推導的洞察分析的質量,確保能夠從為商業智能增效的數據倉庫方案中獲得預期的價值和投資回報。
數據質量水平與商業智能的關系
當無法通過商業智能系統和報告系統提供準確的數據時,業務總體上都會受到影響。以下是為創建報表的商業智能系統提供不可靠數據所造成的一些后果:
業務負責人:不準確的管理報告導致決策不夠明智。
合規主管:合規性法案要求公司能為其財務和合規報表提供一定的透明度和可審計性。
業務分析師:如果業務分析師花費過多時間在多個商業智能系統間手動搜索和整理信息以更新和修正報表,則業務分析師的生產率會受到影響。此低效的工作會直接影響成本和營利能力。
這些業務問題的根源在于沒有關于客戶、產品、渠道合作伙伴和供應商的唯一真實版本。由于在處理每個業務流程的不同系統間收集、存儲和管理這些數據(亦稱之為參考數據或主數據),因此,需要正確地解析重疊和沖突的參考數據,以獲得唯一真實版本,從而帶來寶貴而可操作的洞察力。許多組織擁有數十或數百數據庫,并且在這些數據庫中有維護相同核心參考對象的數十個(有時為數百個)不同的應用程序,而這些核心參考對象還具有重疊的屬性。
商業智能系統的用途是以中立的視角報告取自多個系統的現有數據。商業智能系統可以為維度分析進行一些累積工作,但是設計或配備商業智能系統并非為了創建唯一的真實版本。在取自應用程序孤島的客戶或產品數據中存在的不一致會對數據倉庫中運行的分析可靠性產生消極的影響。
總而言之,企業的商業智能只會與企業的數據質量水平相當。
數據質量與五種形式的商業智能。
商業智能已經發展成為多種形式,旨在滿足企業不斷增長的要求和任務關鍵型活動日益增長的水平。這些形式都有其自己的一套數據質量要求。
儀表板
記分卡和儀表板正被廣泛采用,越來越多的用戶利用它們獲取財務,業務和績效監控的鳥瞰圖。通過可視化的圖形、圖標和計量表,這些傳輸機制幫助跟蹤性能指標并向員工通知相關趨勢和可能需要的決策。提供集成視圖所需的數據元素通常跨越多個部門和學科,需要絕對最新才能有效。
數據質量會影響記分卡和儀表板用戶,因此這些用戶必須能夠:
1. 使用儀表板中計量表和刻度盤上的完整數據,并迅速采取措施。
2. 獲取集成視圖并使用標準化數據進行協作。
3. 利用具有一致數據的正式記分卡方法。
4. 向下鉆取以查看組或個人級別績效的準確數據。
5. 找到能夠生成明顯趨勢且重復數據最少的業務流程。
6. 推導關聯性并通過驗證的數據執行交叉影響分析。
企業報告
企業報告為所有級別的個人提供來自企業資源規劃(ERP)、客戶關系管理(CRM)、合作伙伴關系管理(PRM)、發票和帳單系統,以及整個企業內其他源系統的各種運營報告和其他業務報告。這些報告分布廣泛,而薪酬和其他激勵計劃通常與報告的結果有關。
數據質量會影響組織報告,因為組織必須:
1. 瀏覽多個報告,將它們顯示到從不同來源聚合數據的多個表單中。
2. 選擇各種參數并通過標準化數據為用戶定制報告。
3. 利用各種性能指標的協調數據呈現多個表格和圖表。
4. 使業務用戶能夠利用高精準數據創建自己的報告,無需IT部門參與。
5. 通過清洗和匹配的數據減少合規性管理的人工檢查和審計。
6. 利用完整財務數據直接從商業智能報告開具發票和帳單。
本篇文章要介紹的就是這么多,我們下篇文章再見。