數倉架構
主要用來描述 數據加工的實時鏈路 和 離線鏈路之間的關系,即 流批 關系;
lamda 架構, 是兩條路, 實時計算式的, 維護數據的實時性。然后每天經過批計算后, 覆蓋實時的計算結果。 保證數據準確性。
kappa架構, 即流批一體了
數據建模
星型模型是數據倉庫中最簡單的模型,由1張事實表和1級維表構成,適合大數據處理,但存在數據冗余。雪花模型則通過維表的層次化減少了數據存儲量,提高了查詢性能,但查詢效率較低。星座模型是星型模型的擴展,多張事實表共享維表,適用于復雜數據關系。選擇模型時應根據場景權衡數據冗余、查詢效率和擴展性。
主要說明事實表和維度表之間的關系。
星型模型如下
雪花模型
當一個或多個維表沒有直接連接到事實表上,而是通過其他維表連接到事實表上時,其圖解就像多個雪花連接在一起,故稱雪花模型。雪花模型是對星型模型的擴展。它對星型模型的維表進一步層次化,原有的各維表可能被擴展為小的事實表,形成一些局部的"層次"區域,這些被分解的表都連接到主維表而不是事實表。
星座模型
星座模型也是星型模型的擴展。區別是星座模型中存在多張事實表,不同事實表之間共享維表信息,常用于數據關系更復雜的場景。其經常被稱為星系模型。