大家可能發現了,近些年湖倉一體數據架構被提及的頻率越來越高。各家大廠也有湖倉一體架構的實踐,也有很多公開分享。 那什么是湖倉一體?為什么出現了湖倉一體架構,換言之,它解決了以前數據倉庫、數據湖+數倉兩層架構所不能解決的什么問題?
本文會從數倉、數據湖依次介紹,最終介紹LakeHouse湖倉一體架構。
主要參考了CIDR 2021
上Databricks 發表的論文:《 Lakehouse: a new generation of open platforms that unify data warehousing and advanced analytics》。
paper下載地址:https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
一、背景
數據倉庫的歷史始于幫助企業領導者獲取分析洞察,方法是將運營數據庫中的數據收集到集中式倉庫中,然后用于決策支持和商業智能(BI)。這些倉庫中的數據將采用Schema-on-Write
的的方式寫入,從而確保數據模型針對下游 BI的使用進行了優化。我們稱之為第一代數據分析平臺。
這樣的數據倉庫在十多年前開始面臨一些問題:
- 1、這樣的數倉將存儲和計算資源綁定到同一個設備上,企業不得不為了峰值負載而預留一些資源,隨著數據越來越多,這樣做的成本也變得越來越昂貴。
- 2、第一代數據倉庫主要是針對結構化數據設計的,但是隨著互聯網的發展,出現了越來越多的半結構化或者非結構化數據,例如視頻、音頻、文檔等,第一代分析平臺沒有辦法很好地處理這樣的數據。