一、前言
隨著各行業數字化發展的深化,數據資產和數據價值已越來越被深入企業重要發展的戰略重心,海量數據已成為多數企業生產實際面臨的重要問題,無論存儲容量還是成本,可靠性都成為考驗企業數據治理的考驗。本文來看下海量數據存儲的數據湖和數據倉,數據倉庫和數據湖,他們都是基于數據進行價值挖掘,只是側重點不同,下面讓我們來認識一下。
關聯資源:TPC-DS V3 Top Performance Results、Delta Lake、databricks文檔、iceberg文檔、 Apache Hudi
二、數據倉
數據倉庫最開始是一種面向商務智能 (BI) 活動(尤其是分析)的數據管理系統,出現于 1990 年代,主要基于 MPP(Massively Parallel Processing,大規模并行處理)或者關系型數據庫實現,主要用于查詢和分析,幫助企業做數據存儲、處理和分析,發展數據看板、BI(商業智能)等,通常涉及大量的歷史數據。在實際應用中,數據倉庫中的數據一般來自應用日志文件和事務應用數據采集/上報的一些指標等廣泛來源。
數據倉庫能夠集中、整合多個來源的大量數據,借助數據倉庫的分析功能,企業可從數據中獲得寶貴的業務洞察,改善決策。同時,隨著時間推移,它還會建立一個對于數據科學家和業務分析人員極具價值的歷史記錄。基于此,數據倉庫最終為企業提供一個面向用戶的單一信息源,屏蔽了底層的源數據。
三、數據湖
數據湖(Data Lake)是一個集