🍋🍋大數據學習🍋🍋
🔥系列專欄: 👑哲學語錄: 用力所能及,改變世界。
💖如果覺得博主的文章還不錯的話,請點贊👍+收藏??+留言📝支持一下博主哦🤞
一、數倉分層
????????數據倉庫分層是一種組織和管理數據倉庫的結構化方法,它將數據倉庫劃分為不同的層次或級別,每個層次具有特定的功能和目的。這種分層方法有助于管理數據倉庫中的數據流程、數據處理和數據訪問,并提供一種清晰的結構來支持數據管理和分析需求。
一個好的分層架構,要有以下好處:
1 清晰數據結構 :
????????數倉每一層都有對應的作用,方便在使用時更好的定位與了解。
2 數據血緣追蹤:
????????清晰知道表或任務上下游,方便排查問題,知道下游哪個模塊在使用,提升開發效率以及后期管理維護。
3 減少重復開發:
????????提高數據復用性,完善好數據倉庫的中間層,減少后期不必要的開發,從而減少資源消耗,保障口徑、數據統一。
4 復雜問題簡單化:
????????將復雜問題拆解成多個步驟來完成,每一層處理單一步驟,當數據問題出現時,只需從問題出現處開始修復。
5、屏蔽原始數據的影響
????????數據倉庫對接的源系統眾多,且每個源系統的表命名、字段命名、字段含義等各有不同,通過數據倉庫的分層設計,從底層來規范和屏蔽所有這些復雜性,保證下游數據用戶使用數據的便捷和規范。如果源系統發生變更,只需要再相應的數據倉庫層來處理,對下游用戶透明無感。
????????數據倉庫分層用空間換時間,通過大量的預處理來提升應用系統的用戶體驗(效率),因此數據倉庫會存在大量冗余的數據;不分層的話,如果源業務系統的業務規則發生變化將會影響整個數據清洗過程,工作量巨大。
????????通過數據分層管理可以簡化數據清洗的過程,把一個復雜的工作拆成了多個簡單的工作,把一個大的黑盒變成了一個白盒,每一層的處理邏輯都相對簡單和容易理解,這樣比較容易保證每一個步驟的正確性,當數據發生錯誤的時候,往往我們只需要溯源并局部調整某個步驟即可。
二、數據建倉基本流程
參考:如何確定數倉構建的目標與需求_智能數據建設與治理 Dataphin(Dataphin)-阿里云幫助中心