1、問:數據倉庫 建設過程中 經常會遇到那些問題?
????????模型(邏輯)重復建設
????????數據不一致性
????????????????維度不一致:命名、維度屬性值、維度定義
????????????????指標不一致:命名、計算口徑
????????數據不規范(字段命名、表名、分層、主題命名規范)
2、OneData數據建設核心方法論?
3、OneData數據建設體系架構?
4、數據倉庫中經常用到的概念?
4.1 什么是 業務過程?
? ? ? ? 指的是 企業活動中的一個行為事件,如 下單、支付、退款都是業務過程
? ? ? ? 業務過程是一個不可拆分的行為事件,也可以說 業務過程 = 企業活動中的事件
4.2 什么是 數據域/主題域?
? ? ? ? 指定是 將業務過程或者維度進行抽象的集合
? ? ? ? 為保證數倉的穩定性,數據域需要抽象提煉,并且長期維護和更新,但不輕易變動。
4.3?什么是 度量/原子指標?
? ? ? ? 原子指標和度量含義相同,是基于某個業務過程下的度量值,表示不可再拆分的指標
? ? ? ? 經常以數值的形式出現,具有明確的業務含義的名稱,如支付金額
4.4?什么是 修飾詞?
? ? ? ? 業務過程中對業務場景限定的抽象(除維度以外),例如 流量域中有修飾詞 PC端、APP端
4.5?什么是 修飾類型?
? ? ? ? 對修飾詞抽象劃分,修飾類型從屬于某個業務域
????????如流量域中有訪問終端類型,該類型下有?PC端、移動端? ? ? ?
4.6?什么是 維度?
????????維度是業務過程中度量的環境,也可以稱為實體對象
4.7?什么是 維度屬性?
? ? ? ?維度屬性隸屬于一個維度,是維度的組成部分
? ? ? ?如 地理維度包含(國家、地區、省份、城市等級等屬性)
4.8?什么是 時間周期?
? ? ? ? 用來明確數據統計的時間范圍或者時間點,如最近30天、自然周、歷史至今
4.9?什么是 派生指標?
? ? ? ? 派生指標 = 一個原子指標 + 修飾詞(可選多個) + 時間周期
? ? ? ? 可以理解為 對原子指標按照業務統計范圍的圈定
? ? ? ? 例如:原子指標:支付金額
? ? ? ? ? ? ? ? ? 派生指標:最近1天海外買家的支付金額
????????????????????????????????(最近一天為時間周期、海外為修飾詞、買家為維度)
5、指標體系的構成是什么?
原子指標:
????????含義:某個業務過程中不可拆分的度量
????????構成:動作 + 度量
????????示例:支付金額、借款金額
派生指標:
????????含義:將原子指標按照業務范圍的圈定(聚合)
????????構成:多個修飾詞(可選) + 時間周期 + 原子指標
????????示例:最近一天海外買家的支付金額
派生指標分類:
????????事務型指標、存量型指標、復合型指標
事務型指標:
????????含義:對某個業務活動進行衡量的指標
????????示例:訂單支付金額、新增會員數
存量型指標:
????????含義:對實體對象(如商品、會員)某些狀態的統計
????????示例:商品總數、注冊會員數
復合型指標:
????????含義:在 事務型指標和存量型指標的基礎上復合而成
????????示例:流量UV-下單買家數的轉化率
6、數倉中模型設計時的指導理論?
? ? ? ? 設計數據模型時,主要以維度建模為理論基礎,基于維度數據模型總線架構,構建一致性的維度和一致性的事實。
7、問:數據倉庫為什么要分層設計(分層的好處)?
? ? ? ? 分層能夠使數據有秩序的流轉,數據的生命周期能夠清晰的被數倉開發人員和使用人員感知到
? ? ? ? 數據結構清晰:
????????????????每一個數據分層都有它的作用域和職責,在使用表的時候能更方便地定位和理解
????????減少重復開發:
????????????????規范數據分層,開發一些通用的中間層數據,能夠減少極大的重復計算
????????統一數據口徑:
????????????????通過數據分層,提供統一的數據出口,統一對外輸出的數據口徑
????????復雜問題簡單化:
????????????????將一個復雜的任務分解成多個步驟來完成,每一層解決特定的問題
通過構建全域的公共層數據,極大地控制了數據規模的增長,同時也能提高數據研發的效率
,解約成本,提高性能。
8、問:數據倉庫應該如何分層?
ODS_數據操作層:
? ? ? ? 存儲數據特點:各個業務系統的原始數據、日志數據、第三方數據
????????數據加工方式:幾乎無處理(基礎清洗數據)
????????作用:數據同步(增量、全量),清洗,保存歷史
CDM_公共維度模型層:
????????存儲數據特點:存放明細事實數據、維度數據、公共指標匯總數據
????????細分: DWD、DWS
? ? ? ? 作用:提升公共指標的復用性,減少重復加工
DWD_明細數據層:
????????存儲數據特點:存放明細事實數據
????????數據加工方式:
????????????????以維度建模為理論基礎,將業務相同或相似且粒度相同的數據放到同一個模型中
????????????????采用維度退化的手段,來構建明細寬表,基于ODS和DIM表加工而成
????????作用:
? ? ? ? ? ? ? ? 1、整合業務相同或相似數據:
????????????????????????構建明細寬表,復用關聯計算,減少數據掃描(DWD)
? ? ? ? ? ? ? ? 2、公共指標統一加工:
????????????????????????基于 OneData體系構建 命名規范、口徑統一、算法統一的統計指標
? ? ? ? ? ? ? ? ? ? ? ? 為上層數據產品、應用、服務提供公共指標,并建立匯總寬表
? ? ? ? ? ? ? ? 3、構建一致性維度:
? ? ? ? ? ? ? ? ? ? ? ? 建立一致性的維表,降低多維度分析時計算口徑、算法不統一的風險? ? ? ? ? ? ? ? ? ? ? ?
DWS_匯總數據層:
????????存儲數據特點:公共指標匯總數據
????????數據加工方式:
????????????????加強指標的維度退化,采用寬表化手段,構建公共指標數據層
????????????????常基于DWD和DIM表加工而成
????????作用:
????????????????存放公共指標匯總數據,構建公共指標寬表,提升公共指標的復用性、減少重復加工
ADS_應用數據層:
????????存儲數據特點:存儲個性化的統計指標數據
????????作用:計算個性化的指標(沒有公用性,復雜)、基于應用的數據組裝(跨主體構建寬表)
9、問:下游使用數倉模型時,應該遵循哪些原則?
? ? ? ? 優先使用公共維度模型層(CDM)數據,當公共層沒有數據時,需要評估是否需要創建公共層數據,當不需要建設公共層數據時,方可直接使用操作數據層數據(ODS)