2、數倉理論概述與相關概念

1、問:數據倉庫 建設過程中 經常會遇到那些問題?

????????模型(邏輯)重復建設

????????數據不一致性

????????????????維度不一致:命名、維度屬性值、維度定義

????????????????指標不一致:命名、計算口徑

????????數據不規范(字段命名、表名、分層、主題命名規范)


2、OneData數據建設核心方法論?


3、OneData數據建設體系架構?


4、數據倉庫中經常用到的概念?

4.1 什么是 業務過程

? ? ? ? 指的是 企業活動中的一個行為事件,如 下單、支付、退款都是業務過程

? ? ? ? 業務過程是一個不可拆分的行為事件,也可以說 業務過程 = 企業活動中的事件

4.2 什么是 數據域/主題域

? ? ? ? 指定是 將業務過程或者維度進行抽象的集合

? ? ? ? 為保證數倉的穩定性,數據域需要抽象提煉,并且長期維護和更新,但不輕易變動。

4.3?什么是 度量/原子指標

? ? ? ? 原子指標和度量含義相同,是基于某個業務過程下的度量值,表示不可再拆分的指標

? ? ? ? 經常以數值的形式出現,具有明確的業務含義的名稱,如支付金額

4.4?什么是 修飾詞

? ? ? ? 業務過程中對業務場景限定的抽象(除維度以外),例如 流量域中有修飾詞 PC端、APP端

4.5?什么是 修飾類型

? ? ? ? 對修飾詞抽象劃分,修飾類型從屬于某個業務域

????????如流量域中有訪問終端類型,該類型下有?PC端、移動端? ? ? ?

4.6?什么是 維度

????????維度是業務過程中度量的環境,也可以稱為實體對象

4.7?什么是 維度屬性

? ? ? ?維度屬性隸屬于一個維度,是維度的組成部分

? ? ? ?如 地理維度包含(國家、地區、省份、城市等級等屬性)

4.8?什么是 時間周期

? ? ? ? 用來明確數據統計的時間范圍或者時間點,如最近30天、自然周、歷史至今

4.9?什么是 派生指標

? ? ? ? 派生指標 = 一個原子指標 + 修飾詞(可選多個) + 時間周期

? ? ? ? 可以理解為 對原子指標按照業務統計范圍的圈定

? ? ? ? 例如:原子指標:支付金額

? ? ? ? ? ? ? ? ? 派生指標:最近1天海外買家的支付金額

????????????????????????????????(最近一天為時間周期、海外為修飾詞、買家為維度)


5、指標體系的構成是什么?

原子指標:

????????含義:某個業務過程中不可拆分的度量

????????構成:動作 + 度量

????????示例:支付金額、借款金額

派生指標:

????????含義:將原子指標按照業務范圍的圈定(聚合)

????????構成:多個修飾詞(可選) + 時間周期 + 原子指標

????????示例:最近一天海外買家的支付金額

派生指標分類:

????????事務型指標、存量型指標、復合型指標

事務型指標:

????????含義:對某個業務活動進行衡量的指標

????????示例:訂單支付金額、新增會員數

存量型指標:

????????含義:對實體對象(如商品、會員)某些狀態的統計

????????示例:商品總數、注冊會員數

復合型指標:

????????含義:在 事務型指標和存量型指標的基礎上復合而成

????????示例:流量UV-下單買家數的轉化率


6、數倉中模型設計時的指導理論?

? ? ? ? 設計數據模型時,主要以維度建模為理論基礎,基于維度數據模型總線架構,構建一致性的維度和一致性的事實。


7、問:數據倉庫為什么要分層設計(分層的好處)?

? ? ? ? 分層能夠使數據有秩序的流轉,數據的生命周期能夠清晰的被數倉開發人員和使用人員感知到

? ? ? ? 數據結構清晰:

????????????????每一個數據分層都有它的作用域和職責,在使用表的時候能更方便地定位和理解

????????減少重復開發:

????????????????規范數據分層,開發一些通用的中間層數據,能夠減少極大的重復計算

????????統一數據口徑:

????????????????通過數據分層,提供統一的數據出口,統一對外輸出的數據口徑

????????復雜問題簡單化:

????????????????將一個復雜的任務分解成多個步驟來完成,每一層解決特定的問題

通過構建全域的公共層數據,極大地控制了數據規模的增長,同時也能提高數據研發的效率

,解約成本,提高性能。


8、問:數據倉庫應該如何分層?

ODS_數據操作層:

? ? ? ? 存儲數據特點:各個業務系統的原始數據、日志數據、第三方數據

????????數據加工方式:幾乎無處理(基礎清洗數據)

????????作用:數據同步(增量、全量),清洗,保存歷史

CDM_公共維度模型層:

????????存儲數據特點:存放明細事實數據、維度數據、公共指標匯總數據

????????細分: DWD、DWS

? ? ? ? 作用:提升公共指標的復用性,減少重復加工

DWD_明細數據層:

????????存儲數據特點:存放明細事實數據

????????數據加工方式:

????????????????以維度建模為理論基礎,將業務相同或相似且粒度相同的數據放到同一個模型中

????????????????采用維度退化的手段,來構建明細寬表,基于ODS和DIM表加工而成

????????作用:

? ? ? ? ? ? ? ? 1、整合業務相同或相似數據:

????????????????????????構建明細寬表,復用關聯計算,減少數據掃描(DWD)

? ? ? ? ? ? ? ? 2、公共指標統一加工:

????????????????????????基于 OneData體系構建 命名規范、口徑統一、算法統一的統計指標

? ? ? ? ? ? ? ? ? ? ? ? 為上層數據產品、應用、服務提供公共指標,并建立匯總寬表

? ? ? ? ? ? ? ? 3、構建一致性維度:

? ? ? ? ? ? ? ? ? ? ? ? 建立一致性的維表,降低多維度分析時計算口徑、算法不統一的風險? ? ? ? ? ? ? ? ? ? ? ?

DWS_匯總數據層:

????????存儲數據特點:公共指標匯總數據

????????數據加工方式:

????????????????加強指標的維度退化,采用寬表化手段,構建公共指標數據層

????????????????常基于DWD和DIM表加工而成

????????作用:

????????????????存放公共指標匯總數據,構建公共指標寬表,提升公共指標的復用性、減少重復加工

ADS_應用數據層:

????????存儲數據特點:存儲個性化的統計指標數據

????????作用:計算個性化的指標(沒有公用性,復雜)、基于應用的數據組裝(跨主體構建寬表)


9、問:下游使用數倉模型時,應該遵循哪些原則?

? ? ? ? 優先使用公共維度模型層(CDM)數據,當公共層沒有數據時,需要評估是否需要創建公共層數據,當不需要建設公共層數據時,方可直接使用操作數據層數據(ODS)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/161504.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/161504.shtml
英文地址,請注明出處:http://en.pswp.cn/news/161504.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python爬蟲HMAC加密案例:某企業信息查詢網站

聲明: 該文章為學習使用,嚴禁用于商業用途和非法用途,違者后果自負,由此產生的一切后果均與作者無關 一、找出需要加密的參數 js運行 atob(‘aHR0cHM6Ly93d3cucWNjLmNvbS93ZWIvc2VhcmNoP2tleT0lRTQlQjglODclRTglQkUlQkUlRTklOUI…

飛槳——總結PPOCRLabel中遇到的坑

操作系統:win10 python環境:python3.9 paddleocr項目版本:2.7 1.報錯:ModuleNotFoundError: No module named Polygon(已解決) 已解決所以沒有復現報錯內容 嘗試方法一:直接使用pip命令安裝&…

oracle rac 19.3安裝補丁19.19

使用opatchauto apply DIR來進行安裝 1.升級之前先備份一下GRID_HOME和ORACLE_HOME 2.現在新的opatch安裝不需要先停止集群和數據庫,在升級過程中,他會自動關閉和啟動集群 3.先將OPatch(P6880880)包拷貝到$GRID_HOME和$ORACLE_HOM…

【Web安全】sqlmap的使用筆記及示例

【Web安全】sqlmap的使用筆記 文章目錄 【Web安全】sqlmap的使用筆記1. 目標2. 脫庫2.1. 脫庫(補充) 3. 其他3.1. 其他(補充) 4. 繞過腳本tamper講解 1. 目標 操作作用必要示例-u指定URL,檢測注入點sqlmap -u http://…

ts實現合并數組對象中key相同的數據

背景 在平常的業務中,后端同學會返回以下類似的結構數據 // 后端返回的數據結構 [{ id: 1, product_id: 1, pid_name: "Asia", name: "HKG01" },{ id: 2, product_id: 1, pid_name: "Asia", name: "SH01" },{ id: 3, pro…

實現極坐標圖表QPolarChart的角度軸范圍是[0,360]時,0度在水平右側

目錄 參考角度軸范圍是[0,360]時,0度在水平右側.h.cpp 參考 Qt數據可視化(QPolarChart雷達圖) 默認QPolarChart的范圍是[0,360]時,0度在垂直上方 如官方例子QValueAxis角度軸范圍是[-100,100] 角度軸范圍是[0,360]時,0度在水平右側 原理&am…

用eclipse搭建簡單的JavaWeb環境

在 Eclipse 中搭建 JavaWeb 項目的環境涉及到配置服務器、創建項目、添加庫等步驟。以下是基于 Eclipse 的 JavaWeb 項目搭建的簡要步驟: 步驟: 1. 安裝 Eclipse IDE for Java EE Developers 確保你已經安裝了 Eclipse IDE for Java EE Developers 版…

MyBatis-Plus: 簡化你的MyBatis應用

MyBatis-Plus: 簡化你的MyBatis應用 在Java開發中,MyBatis一直是一個受歡迎的持久層框架,提供了靈活的數據訪問方式。然而,MyBatis的使用往往涉及許多樣板代碼,這在一定程度上增加了開發的復雜性。這里,MyBatis-Plus&…

刷題筆記(第八天)

1. 請補全JavaScript代碼,實現一個函數,要求如下: 根據輸入的數字范圍[start,end]和隨機數個數"n"生成隨機數生成的隨機數存儲到數組中,返回該數組返回的數組不能有相同元素 注意: 不需要考慮"n"…

【C++11】auto與decltype關鍵字使用詳解

系列文章目錄 C11新特性使用詳解-持續更新 文章目錄 系列文章目錄前言一、auto關鍵字1.根據變量的初始化表達式來推導變量的類型2.const與引用 二、decltype關鍵字1.推斷表達式的類型2.const與引用 三、總結 前言 auto和decltype是C11引入的倆個重要的新關鍵字,用…

簡單幾步,借助Aapose.Cells將 Excel XLS 轉換為PPT

數據呈現是商業和學術工作的一個重要方面。通常,您需要將數據從一種格式轉換為另一種格式,以創建信息豐富且具有視覺吸引力的演示文稿。當您需要在幻燈片上呈現工作表數據時,需要從 Excel XLS 轉換為 PowerPoint 演示文稿。在這篇博文中&…

原理Redis-QuickList

QuickList **問題1:**ZipList雖然節省內存,但申請內存必須是連續空間,如果內存占用較多,申請內存效率很低。怎么辦? 為了緩解這個問題,我們必須限制ZipList的長度和entry大小。 **問題2:**但是…

[網鼎杯 2018]Fakebook

[網鼎杯 2018]Fakebook 打開環境出現一個登錄注冊的頁面 在登錄和注冊中發現 了地址欄出現變化&#xff0c;掃一波看看 看看robots.txt和flag.php 訪問robots.txt看看 再訪問user.php.bak <?php class UserInfo { public $name ""; public …

Head、Neck、Backbone介紹

在深度學習中&#xff0c;通常將模型分為三個部分&#xff1a;backbone、neck 和 head。 Backbone&#xff1a;backbone 是模型的主要組成部分&#xff0c;通常是一個卷積神經網絡&#xff08;CNN&#xff09;或殘差神經網絡&#xff08;ResNet&#xff09;等。backbone 負責…

ON1 Photo RAW 2024 for Mac——專業照片編輯的終極利器

ON1 Photo RAW 2024 for Mac是一款專為Mac用戶打造的照片編輯器&#xff0c;以其強大的功能和易用的操作&#xff0c;讓你的照片編輯工作變得輕松愉快。 一、強大的RAW處理能力 ON1 Photo RAW 2024支持大量的RAW格式照片&#xff0c;能夠讓你在編輯過程中獲得更多的自由度和更…

練習九-利用狀態機實現比較復雜的接口設計

練習九-利用狀態機實現比較復雜的接口設計 1&#xff0c;任務目的&#xff1a;2&#xff0c;RTL代碼3&#xff0c;RTL原理框圖4&#xff0c;測試代碼5&#xff0c;波形輸出 1&#xff0c;任務目的&#xff1a; &#xff08;1&#xff09;學習運用狀態機控制的邏輯開關&#xff…

【C++11】=default與=delete關鍵字使用詳解

系列文章目錄 C11新特性使用詳解-持續更新 文章目錄 系列文章目錄一、default關鍵字1. 為什么要引入default關鍵字2. 注意事項3. 使用default關鍵字有什么好處4.實例代碼 二、delete關鍵字1. 為什么要引入delete關鍵字2. 注意事項3. 使用場景3.1刪除默認構造函數3.2 刪除拷貝構…

2023.11.22 -數據倉庫的概念和發展

目錄 https://blog.csdn.net/m0_49956154/article/details/134320307?spm1001.2014.3001.5501 1經典傳統數倉架構 2離線大數據數倉架構 3數據倉庫三層 數據運營層,源數據層&#xff08;ODS&#xff09;&#xff08;Operational Data Store&#xff09; 數據倉庫層&#…

開發上門送桶裝水小程序要考慮哪些業務場景

上門送水業務已經有很長一段時間了&#xff0c;但是最開始都是給用戶發名片、貼小廣告&#xff0c;然后客戶電話訂水&#xff0c;水站工作人員再上門去送&#xff0c;這種人工記單和派單效率并不高&#xff0c;并且電話溝通中也比較容易出現偏差&#xff0c;那么根據這個情況就…

IT 領域中的主要自動化趨勢

48%的IT自動化流程屬于IT服務管理&#xff0c;過去一年中&#xff0c;IT運維自動化增長了272%。 IT部門從交付者轉變為戰略伙伴 今年的《工作自動化指數》數據顯示&#xff0c;自動化正在蔓延到組織的各個部門&#xff0c;越來越多的部門采用自動化&#xff0c;并且IT以外的員工…