數據質量檢測標準

背景

為支持數據倉庫全局的數據質量管控,需做好風險點監控,確保數據的完整性、準確性、及時性、一致性。為此,擬定DQC配置方案&規則,評審通過后落地實施。

目標

  • 核心任務dqc覆蓋率100%,質量問題及時知曉
  • 非核心任務運行情況知曉概貌

方案

基于數據質量中心提供的能力,實現時效性和數據質量監控。時效監控和etl任務綁定,數據質量監控和數倉中的物理表綁定。

出錯監控

工作流中任務出錯會阻斷下游任務,因此任務出錯需立即發出預警,此功能由平臺提供,無需配置。

時效性監控

任務延遲監控,對超時未完成的任務,及時發出預警。

  1. 在調度平臺(az/dophlin)上線任務后,在工作流級別配置調度表達式cron
  2. 在數據質量中心,新建時效性規則,綁定對應任務,設定最大運行時長
  3. 數據質量質量中心后臺調度,每2分鐘掃描時效性規則,并根據工作流cron表達式,當前時間計算任務運行時間是否超出“最大運行時長”,超出即報警

數據質量監控

不同于時效性監控,數據質量監控需要主動觸發執行。即數據質量監控需要在etl任務執行后,check文件生成前,主動觸發數據質量規則校驗。規則校驗未通過則報警,并且根據強弱規則,判定是否生成check文件和執行下游任務,弱規則生成check文件和繼續執行下游任務,強規則不生成check文件和執行下游任務。

  1. 改造run_sql.sh腳本,在生成check文件前,觸發規則校驗(@郭奎
  2. 在數據質量中心,配置表/字段監控規則(@物理表owner)
  3. 切換azkaban任務中run_sql.sh腳本到run_sql_with_rule.sh

數據質量監控規則

規則 = 邏輯 + 期望值

邏輯用于檢測統計,期望值用于預警。統計結果不符合期望值即規則校驗不通過

規則類型

規則明細類型

規則

邏輯

比較方式(>、

期望值

字段規則

規范

主鍵唯一

主鍵重復的條數

=

0

非空校驗

字段值為空的條數

=

0

枚舉值校驗

枚舉值不在所給的枚舉值列表中的條數

=

0

范圍

最大值

所選字段最大值

自選

自填

最小值

所選字段最小值

自選

自填

平均值

所選字段平均值

自選

自填

總和

所選字段總和

自選

自填

同比/環比

同比/環比

所選字段同比/環比

自選

自填

表規則

數據行數

行數

數據行數

自選

自填

同比/環比

數據行數同比/環比

自選

自填

數據文件

文件大小

數據文件大小

自選

自填

同比/環比

數據文件大小同比/環比

自選

自填

自定義規則

自定義

自定義規則

自定義sql(正則、業務校驗)

自選

自填

監控細則

Y-必須監控;

T-電話告警;

S-釘釘or飛書告警;

F強規則/W弱規則

空格-可選

風險點監控

風險點描述

規則

數據資產等級

A1

A2

A3

A4

A5

出錯監控

任務出錯

平臺提供

Y&T

Y&T

Y&T

Y&S

Y&S

延遲監控

任務延遲

時效性監控

Y&T

Y&T

Y&T

Y&S

Y&S

表監控

分區數據行數波動

同比/環比

Y&T&F

Y&T&F

自定義

字段監控

主鍵重復

主鍵唯一

Y&T&F

Y&T&F

Y&T&F

Y&S&F

Y&S&F

核心指標,重要維度為空

非空校驗

Y&T

Y&T

字段值不在所給的枚舉值列表中

枚舉值校驗

核心指標波動

同比/環比

自定義

  • 配置規則時,每張表分別配置強、弱兩個規則,強規則下增加規則明細類型統一為“強”,若規則下增加規則明細類型統一為“弱”。
  • 除上述必須配置的監控外:
    • A1~A2任務:3+表/字段規則,1+自定義業務校驗規則,其中2+強規則
    • A3~A5任務:3+表/字段規則,其中2+強規則

規則統計

數據質量規則統計

節奏

  • 時效性監控測試,2021-04-14 ~ 2021-04-16
  • 數據質量監控測試,2021-04-19 ~ 2021-04-23
  • 規則細化 @郭奎
  • 核心任務時效性和數據質量監控配置覆蓋率100% @物理表owner
  • 非核心任務,時效規則、數據質量規則配置

期待

數據質量中心功能已經非常強大,非常豐富。但是規則配置略微繁瑣,且需要二次跳轉。期待平臺做一些微調,提升易用性

  • 出錯監控
  • 數據開發界面嵌入數據質量配置
  • 核心任務,時效性監控默認配置,包括出錯監控,延遲監控
  • 規則配置語義更清晰
  • 監控大盤

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/12876.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/12876.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/12876.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java學習48-Java 流(Stream)、文件(File)和IO - 復習章節

1.File類的使用 File類的一個實例對應著磁盤上的文件或文件目錄。(必須熟悉)File的實例化(新建一個對象),常用的方法File類中只有新建,刪除,獲取路徑等方法,不包含讀寫文件的方法,此時需要使用使用下面說的IO流 IO流…

論文閱讀:基于改進 YOLOv5算法的密集動態目標檢測方法

目錄 概要 Motivation 整體架構流程 技術細節 小結 論文地址:基于改進YOLOv5算法的密集動態目標檢測方法 - 中國知網 (cnki.net) 概要 目的:提出一種基于 YOLOv5改進的檢測算法,解決密集動態目標檢測精度低及易漏檢的問題。 方法&…

Linux虛擬主機cPanel重置密碼

我使用的Hostease的Linux虛擬主機產品默認帶普通用戶權限的cPanel面板,這邊自購買后一直未重新設置過cPanel面板的密碼,但是了解到要定期重置一下cPanel面板的密碼,以確保主機數據安全,因此想要進行重置cPanel面板的密碼&#xff…

二刷算法訓練營Day08 | 字符串(1/2)

今日任務: 344.反轉字符串 541. 反轉字符串II卡碼網:54.替換數字 151.翻轉字符串里的單詞卡碼網:55.右旋轉字符串 詳細布置: 1. 344. 反轉字符串 編寫一個函數,其作用是將輸入的字符串反轉過來。輸入字符串以字符數組 …

Django 從零到一:pip 基本使用

文章目錄 pip 常用命令pip 命令演示pip 自動補全 pip 是 Python 的包管理工具,就如同 Gnu/Linux 系統的 yum、apt,MacOS 系統的 brew。因此,我們必須要熟練使用該工具。 接下來我們就演示一下 pip 的常用命令。 pip 常用命令 pip 提供的命令…

SpringBoot上傳文件到服務器(跨服務器上傳)

目錄 (一)上傳文件到本地(windows) (二)上傳文件到linux服務器 (三)跨服務器上傳文件 (一)上傳文件到本地(windows) 1.新建一個文件…

第十四屆藍橋杯大賽軟件賽國賽C/C++ 大學 B 組 AB路線

//bfs 1000100010不會超時 #include<bits/stdc.h> using namespace std; #define int long long const int n1e311; int a,b,c,h[n][n][12],k[4][2]{0,1,0,-1,1,0,-1,0}; char t[n][n]; struct s {int x,y,z,w; }; signed main() {ios::sync_with_stdio(false);cin.t…

(規格參考)ADP5360ACBZ-1-R7 電量計 電池管理IC,ADP5072ACBZ 雙通道直流開關穩壓器,ADL5903ACPZN 射頻檢測器

1、ADP5360ACBZ-1-R7&#xff1a;具有超低功耗電量計、電池保護功能的先進電池管理PMIC 功能&#xff1a;電池保護 電池化學成份&#xff1a;鋰離子/聚合物 電池數&#xff1a;1 故障保護&#xff1a;超溫&#xff0c;過壓 接口&#xff1a;I2C 工作溫度&#xff1a;-40C ~ 85…

Spring Security入門教程:實現自定義用戶配置

在上一篇文章中&#xff1a;Spring Security入門教程&#xff1a;利用Spring Security實現安全控制 我們學會了使用Spring Security實現安全控制&#xff0c;學會了他的基礎使用&#xff0c;這節課我們來學習一下它的自定義的功能&#xff0c;更深入的了解和使用Spring Securit…

OpenHarmony 實戰開發——ArkUI canvas組件

canvas 是 ArkUI 開發框架里的畫布組件&#xff0c;常用于自定義繪制圖形。因為其輕量、靈活、高效等優點&#xff0c;被廣泛應用于 UI 界面開發中。本期&#xff0c;我們將為大家介紹 ArkUI 開發框架中 canvas 組件的使用。 一、canvas 介紹 1.1 什么是 canvas&#xff1f; …

rocketmq的存儲和檢索

messageId是rocketmq自動生成的。

Java的response返回Json格式

問題 今天開發過程中&#xff0c;寫了個攔截器&#xff0c;對于所以請求進行一個token的工作&#xff0c;對于不合標準的token返回錯誤&#xff0c;在網上找了個攔截器進行二次開發。 package com.maizhiyu.yzt.handle;import org.springframework.beans.factory.annotation.…

AWS Lambda配置CloudWatch日志

Hello example&#xff1a;AWS Lambda 第一個例子Hello (JAVA)-CSDN博客 創建lambda函數&#xff0c;測試&#xff0c;然后點擊CloudWatch日志 CloudWatch日志組不存在 創建CloudWatch日志組 1) CloudWatch -> 日志組 -> 創建日志組 2) 填寫名稱&#xff0c;創建 添加權…

掌握這些神器,讓你的編程之路更加“絲滑”

前言&#xff1a; 在軟件開發的旅程中&#xff0c;程序員的實用神器確實如同指南針&#xff0c;幫助他們在復雜的代碼海洋中導航。以下是從三個方向——自動化測試工具、持續集成/持續部署&#xff08;CI/CD&#xff09;以及代碼審查與質量分析——來探討這些實用神器的應用和影…

Prettier與ESLint:代碼風格與質量的自動化保證

Prettier 和 ESLint 是兩個互補的工具&#xff0c;它們共同確保代碼的風格一致性和質量。Prettier 負責格式化代碼&#xff0c;而 ESLint 則執行更復雜的靜態分析和規則檢查。 2500G計算機入門到高級架構師開發資料超級大禮包免費送&#xff01; Prettier 作用&#xff1a; …

python數據清洗-找到重復的txt并輸出字數最少的

import os import json from collections import Counterdef find_and_write_duplicate_txt_files(root_folder, output_file):# 存儲所有找到的 txt 文件名和路徑的字典列表txt_files_dict_list []# 統計每個文件名出現的次數filename_counts Counter()# 遍歷文件夾及其子文…

nmap端口掃描工具——LInux

目錄 系統版本: nmap主要功能 安裝: nmap命令使用方法

SC8908電機驅動芯片替代AN41908

SC8908 描述 五路H橋靜音驅動電機驅動芯片&#xff0c;閉環直流電機光圈調節&#xff0c;支持霍爾位置檢測&#xff0c; 2個步進電機。步進電機驅動帶256微步細分。 主要特性 ? 步進驅動H橋每路250mA最大驅動電流 ? 光圈直流驅動H橋每路150mA最大驅動電流 ? 單獨…

web學習筆記(五十四)Vue

目錄 1.初始Vue 1.1 什么是Vue 1.2 Vue的特點 1.3 引入Vue 1.4 使用Vue 2. 數據綁定的方法 2.1 Mustache&#xff08;雙大括號插值法&#xff09; 2.2 v-text 2.3 v-html 3. 列表渲染 1.初始Vue 1.1 什么是Vue Vue 是一套用于構建用戶界面的漸進式JavaScript框架。…

1725 ssm資產管理系統myeclipse開發mysql數據庫springMVC模式java編程計算機網頁設計

一、源碼特點 java ssm資產管理系統是一套完善的web設計系統&#xff08;系統采用SSM框架進行設計開發&#xff0c;springspringMVCmybatis&#xff09;&#xff0c;對理解JSP java編程開發語言有幫助&#xff0c;系統具有完整的源代碼和數據庫&#xff0c;系統主要采用B/…