數據庫數據清洗、預處理與質量監控、 數據質量的核心概念

數據庫數據清洗、預處理與質量監控、 數據質量的核心概念

準確性 (Accuracy)

準確性指數據正確反映其所描述的實體或事件真實狀況的程度。準確的數據應當與現實世界中的實際情況一致。

一致性 (Consistency)

一致性指數據在不同表、系統或時間點之間保持邏輯上一致的程度。一致性確保數據遵循業務規則和關系約束。

數據清洗與預處理技術

1. 處理缺失值

-- 識別缺失值
SELECT COUNT(*) FROM customers WHERE phone IS NULL;-- 處理缺失值
UPDATE customers 
SET phone = 'Unknown' 
WHERE phone IS NULL;-- 或者刪除包含關鍵缺失值的記錄
DELETE FROM orders 
WHERE customer_id IS NULL;

2. 處理重復數據

-- 識別重復記錄
SELECT email, COUNT(*) 
FROM customers 
GROUP BY email 
HAVING COUNT(*) > 1;-- 刪除重復記錄 (保留一條)
WITH duplicates AS (SELECT email, ROW_NUMBER() OVER(PARTITION BY email ORDER BY id) AS rnFROM customers
)
DELETE FROM duplicates WHERE rn > 1;

3. 標準化數據格式

-- 統一日期格式
UPDATE transactions 
SET transaction_date = TO_DATE(transaction_date, 'YYYY-MM-DD')
WHERE transaction_date ~ '^\d{4}-\d{2}-\d{2}$';-- 統一電話號碼格式
UPDATE customers 
SET phone = REGEXP_REPLACE(phone, '[^0-9]', '');

4. 處理異常值

-- 識別異常交易金額
SELECT * FROM transactions 
WHERE amount < 0 OR amount > 100000;-- 修正異常值 (根據業務規則)
UPDATE transactions 
SET amount = 0 
WHERE amount < 0;

數據質量監控

1. 創建數據質量規則表

CREATE TABLE data_quality_rules (rule_id INT PRIMARY KEY,rule_name VARCHAR(100),rule_description VARCHAR(500),check_query TEXT,threshold INT,severity VARCHAR(20)
);-- 示例規則
INSERT INTO data_quality_rules VALUES
(1, 'Null Customer Names', 'Customer names should not be null', 'SELECT COUNT(*) FROM customers WHERE customer_name IS NULL', 0, 'High'),
(2, 'Negative Order Quantities', 'Order quantities should not be negative', 'SELECT COUNT(*) FROM order_items WHERE quantity < 0', 0, 'High'),
(3, 'Invalid Email Formats', 'Emails should follow standard format', 'SELECT COUNT(*) FROM customers WHERE email !~ ''^[A-Za-z0-9._%-]+@[A-Za-z0-9.-]+[.][A-Za-z]+$''', 5, 'Medium');

2. 自動化質量檢查

-- 創建數據質量檢查存儲過程
CREATE OR REPLACE PROCEDURE run_data_quality_checks()
LANGUAGE plpgsql
AS $$
DECLARErule_record RECORD;violation_count INT;
BEGINFOR rule_record IN SELECT * FROM data_quality_rules LOOPEXECUTE rule_record.check_query INTO violation_count;IF violation_count > rule_record.threshold THENINSERT INTO data_quality_violations (rule_id, violation_count, check_date)VALUES (rule_record.rule_id, violation_count, CURRENT_DATE);-- 可以添加通知邏輯RAISE NOTICE 'Data quality violation: % - % violations found', rule_record.rule_name, violation_count;END IF;END LOOP;
END;
$$;

案例分析

案例: 電商平臺數據清洗

問題描述:

  • 客戶表中有重復的電子郵件
  • 訂單表中的某些價格與產品表中的價格不一致
  • 客戶地址格式不統一

解決方案:

-- 1. 處理重復客戶
WITH ranked_customers AS (SELECT *,ROW_NUMBER() OVER(PARTITION BY email ORDER BY created_at) AS rnFROM customers
)
DELETE FROM customers 
WHERE id IN (SELECT id FROM ranked_customers WHERE rn > 1);-- 2. 修復價格不一致問題
UPDATE order_items oi
SET unit_price = p.price
FROM products p
WHERE oi.product_id = p.id AND oi.unit_price != p.price;-- 3. 標準化地址
UPDATE customers
SET address = INITCAP(TRIM(address)),postal_code = REGEXP_REPLACE(postal_code, '[^0-9]', '');

一致性驗證示例

-- 檢查訂單總價是否等于各項目總和
SELECT o.order_id, o.total_amount, SUM(oi.quantity * oi.unit_price) AS calculated_amount,o.total_amount - SUM(oi.quantity * oi.unit_price) AS discrepancy
FROM orders o
JOIN order_items oi ON o.order_id = oi.order_id
GROUP BY o.order_id, o.total_amount
HAVING ABS(o.total_amount - SUM(oi.quantity * oi.unit_price)) > 0.01;

準確性驗證示例

-- 檢查產品價格是否在合理范圍內
SELECT product_id, product_name, price
FROM products
WHERE price < 0 OR price > 10000;  -- 假設10000是合理上限-- 檢查客戶年齡是否合理
SELECT customer_id, birth_date, EXTRACT(YEAR FROM AGE(birth_date)) AS age
FROM customers
WHERE EXTRACT(YEAR FROM AGE(birth_date)) < 18 OR EXTRACT(YEAR FROM AGE(birth_date)) > 120;

持續改進機制

  1. 定期執行數據質量檢查: 設置定時任務每天/每周運行質量檢查
  2. 建立數據質量儀表板: 可視化展示數據質量趨勢
  3. 源頭治理: 在應用層添加驗證邏輯,防止低質量數據進入數據庫
  4. 文檔化數據標準: 明確各字段的數據格式、取值范圍和業務規則

通過以上方法,可以系統地提高和維持數據庫中的數據質量,確保數據的準確性和一致性,為業務決策提供可靠的數據基礎。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/80687.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/80687.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/80687.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Docker組件詳解:核心技術與架構分析

Docker詳解&#xff1a;核心技術與架構分析 Docker作為一種容器化技術&#xff0c;已經徹底改變了軟件的開發、交付和部署方式。要充分理解和利用Docker的強大功能&#xff0c;我們需要深入了解其核心組件以及它們如何協同工作。本文將詳細介紹Docker的主要組件、架構設計以及…

【言語】刷題3

front&#xff1a;刷題2 題干 超限效應介紹冰桶挑戰要避免超限效應 B明星的作用只是病痛挑戰的一個因素&#xff0c;把握程度才是重點&#xff0c;不是強化弱化明星作用&#xff0c;排除 A雖沒有超限效應&#xff0c;但是唯一的點出“冰桶效應”的選項&#xff0c;“作秀之嫌…

【fastadmin開發實戰】在前端頁面中使用bootstraptable以及表格中實現文件上傳

先看效果&#xff1a; 1、前端頁面中引入了表格 2、表格中實現文件上傳 3、增加截止時間頁面 難點在哪呢&#xff1f; 1、這是前端頁面&#xff0c;并不支持直接使用btn-dialog的類屬性實現彈窗&#xff1b; 2、前端頁面一般綁定了layout模板&#xff0c;如何實現某個頁面不…

豆包:基于多模態交互的智能心理咨詢機器人系統設計與效果評估——情感計算框架下的對話機制創新

豆包:基于多模態交互的智能心理咨詢機器人系統設計與效果評估——情感計算框架下的對話機制創新 摘要 隨著人工智能在心理健康領域的應用深化,本文提出一種融合情感計算與動態對話管理的智能心理咨詢機器人系統架構。通過構建“用戶狀態-情感響應-策略生成”三層模型,結合…

【漫話機器學習系列】257.填補缺失值(Imputing Missing Values)

數據科學必備技能&#xff1a;填補缺失值&#xff08;Imputing Missing Values&#xff09; 在數據分析和機器學習項目中&#xff0c;缺失值&#xff08;Missing Values&#xff09; 是非常常見的問題。缺失的數據如果處理不當&#xff0c;會嚴重影響模型的訓練效果&#xff0…

基于千眼狼高速攝像機與三色掩模的體三維粒子圖像測速PIV技術

研究背景 航空航天、能源動力領域&#xff0c;測量三維瞬態流場的速度場信息對于理解流體力學行為、優化系統設計非常關鍵。 傳統三維粒子圖像測速技術如Tomo層析PIV&#xff0c;因依賴多相機陣列&#xff0c;存在系統體積、操作復雜&#xff0c;在封閉空間測量存在困難&#…

MongoDB 的主要優勢和劣勢是什么?適用于哪些場景?

MongoDB 的主要優勢 (Advantages) 靈活的文檔模型 (Flexible Document Model): 無需預定義模式 (Schemaless/Flexible Schema): 這是 MongoDB 最核心的優勢之一。它存儲 JSON 格式的文檔&#xff0c;每個文檔可以有不同的字段和結構。這使得在開發過程中修改數據結構非常容易&a…

css iconfont圖標樣式修改,js 點擊后更改樣式

背景&#xff1a; 在vue項目中&#xff0c;通過點擊/鼠標覆蓋&#xff0c;更改選中元素的樣式&#xff0c;可以通過js邏輯&#xff0c;也可以根據css樣式修改。包括以下內容&#xff1a;iconfont圖標的引入以及使用&#xff0c;iconfont圖標樣式修改【導入文件是純白&#xff0…

CosyVoice介紹

CosyVoice介紹 CosyVoice是阿里開源的一個多語言語音生成大模型&#xff0c;可應用于TTS(Text To Speech) 工具的開發。它支持內置預制語音生成、語音克隆、自然語言控制語音生成等功能。CosyVoice的另一個亮點在于它對生成語音情感和韻律的精細控制&#xff0c;這是通過富文本…

分布式任務調度XXL-Job

? XXL-Job 是一款輕量級、分布式的任務調度平臺&#xff0c;其核心設計解決了傳統任務調度&#xff08;如Quartz&#xff09;在分布式場景下的?任務分片?、?高可用?、?可視化管控?等痛點。以下從原理、核心架構、應用場景、代碼示例及關聯中間件展開詳解 一、主流任務…

GOOSE 協議中MAC配置

在 GOOSE&#xff08;Generic Object Oriented Substation Event&#xff09;協議中&#xff0c;主站&#xff08;Publisher&#xff09;發送的 MAC 地址不需要與從站&#xff08;Listener&#xff09;的 MAC 地址一致&#xff0c;其通信機制與 MAC 地址的匹配邏輯取決于 GOOSE…

交流充電樁IEC 61851-1和IEC 61851-21-2標準測試項目

交流充電樁IEC 61851-1和IEC 61851-21-2標準測試項目 立訊檢測的光儲充實驗室專注于光伏、儲能、充電設施等新能源領域的檢測與認證服務&#xff0c;以下是詳細介紹&#xff1a; ?1. 實驗室概況? ?覆蓋領域?&#xff1a;光伏逆變器、儲能電池系統、充電樁、便攜式儲能電…

備戰菊廠筆試2-BFS記憶化MLE?用Set去重-Set會TLE?用SortedSet剪枝

目錄 200.島嶼數量 不用getnei&#xff0c;直接在dfs判斷&#xff0c;去掉解包 如果害怕棧溢出那么可以用bfs 2617.網格圖中最少訪問的格子數 注意特判&#xff01; MLE主要是因為vis占用的內存過大 用SortedSet有序剪枝 什么是SortedSet&#xff1f; 基本性質 導入 …

STM32H743輸出50%的占空比波形

使用cubeMX進行配置如下&#xff1a; 時鐘配置如下&#xff1a; 具體代碼如下&#xff1a; /* USER CODE BEGIN Header */ /********************************************************************************* file : main.c* brief : Main program b…

MYSQL 查詢去除小數位后多余的0

MYSQL 查詢去除小數位后多余的0 在MySQL中&#xff0c;有時候我們需要去除存儲在數據庫中的數字字段小數點后面多余的0。這種情況通常發生在處理金額或其他需要精確小數位的數據時。例如&#xff0c;數據庫中存儲的是decimal (18,6)類型的數據&#xff0c;但在頁面展示時不希望…

物理:從人體組成角度能否說明基本粒子的差異性以及組織結構的可預設性?

人類的個體差異源于粒子組合的復雜性、環境與隨機性的相互作用,而非基本粒子本身的差異性。以下分層次解析: 一、基本粒子的同質性與組合多樣性 1. 基本粒子的同一性 標準模型確認:同種類基本粒子(如電子、上夸克)具有完全相同的質量、電荷等屬性,不存在個體差異。泡利不…

應用探析|千眼狼PIV測量系統在職業病防治中的應用

1、職業病防治背景 隨著《職業病防治法》及各省市“十四五”職業病防治規劃的深入推進&#xff0c;工作場所粉塵危害監測與防控已成為疾控部門的核心任務。以礦山、建材、冶金、化工等行業為例&#xff0c;粉塵濃度、分布及傳播特性的精準測量是評估職業病風險的關鍵。 傳統的…

串口模塊詳細講解

目錄 1.串口介紹 2。STC-ISP串口功能介紹 3.接口及引腳定義 4.串口知識點 4.1 硬件電路 4.2 電平標準 4.3 相關術語 4.4 常見通信接口比較 4.5 51單片機的UART 4.6 串口參數及時序圖 4.7 串口模式圖 4.8 串口和中斷系統 4.9 串口相關寄存器 5.串口向電腦發送信息…

基于大模型的腰椎管狹窄術前、術中、術后全流程預測與治療方案研究報告

目錄 一、引言 1.1 研究背景與意義 1.2 研究目的與創新點 二、腰椎管狹窄概述 2.1 定義與分類 2.2 發病原因與機制 2.3 臨床表現與診斷方法 三、大模型技術原理與應用現狀 3.1 大模型的基本原理 3.2 在醫療領域的應用案例 3.3 選擇大模型預測腰椎管狹窄的依據 四、…

【2025年前端高頻場景題系列】使用同一個鏈接,如何實現PC打開是web應用、手機打是-個H5 應用?

面試情境與問題引入 哈嘍大家伙,我是布魯伊。在前端開發面試中,面試官經常會拋出一些看似簡單卻能考察多方面能力的問題。"如何實現同一個鏈接在PC端和移動端展示不同應用?"就是這樣一個典型問題。為什么面試官喜歡問這個問題?因為它能同時考察候選人的設備適配…