實時數據倉庫已經成為各大企業構建核心指標監控與業務實時洞察的基礎能力。面試中,關于實時建模的題目頻繁出現,尤其聚焦于建模思路、寬表設計、狀態管理、亂序處理等方面。本文整理典型題目及答題思路,幫助你應對相關考察。
一、建模原則與數倉分層認知
1. 實時數倉與離線數倉建模有什么區別?
答:
維度 | 離線建模 | 實時建模 |
---|---|---|
數據來源 | 批量導入,數據快照 | 流式數據,如 Kafka |
數據一致性 | 可批量補數,強一致性 | 補數困難,更強調最終一致 |
表設計方式 | 精細分層、維度規范化 | 寬表為主,強調性能 |
亂序處理 | 不敏感 | 需處理亂序、延遲、重復等問題 |
狀態管理 | 無狀態 | 需管理窗口狀態、延遲數據 |
2. 實時 DWD 層怎么建模?舉例說明
答:
實時 DWD 層關注業務事件建模,常按事件類型建模。
舉例:電商實時訂單數倉
-
dwd_trade_order_detail_rt
:訂單明細流表(維度冗余) -
dwd_trade_payment_rt</