【Azure 架構師學習筆記】- Azure Databricks (12) -- Medallion Architecture簡介

本文屬于【Azure 架構師學習筆記】系列。
本文屬于【Azure Databricks】系列。
接上文 【Azure 架構師學習筆記】- Azure Databricks (11) – UC搭建

前言

使用ADB 或者數據湖,基本上繞不開一個架構“Medallion”, 它使得數據管理更為簡單有效。ADB 通過把數據分為“金”,“銀”,“銅” 三層來實現Medallion架構。同時搭配UC,使得medallion更加健壯,安全和合規。

除了Medallion, 還有一些概念如data warehouse, data lake, 和data lakehouse。

  • Data lake: 是一個中央存儲庫,以原始格式存儲任意規模的結構化和非結構化數據。與傳統存儲相比,這樣可以減少很多前期轉換開銷。其核心優勢之一就是靈活性,另外還有對大量大數據處理工具的支持。
  • Data lakehouse:跟data lake的名字非常相似,在data lake中的數據,在展現給最終用戶前,通常都需要進行處理。 但是data lake的目標是存儲,而非處理。data warehouse可以提供處理,但需要預先范式化、模式化再存儲,同時存儲的量一般有限。基于這兩種不足,最好的辦法就是優勢整合,保留data lake的強大存儲功能和data warehouse的數據處理功能,從而出現了data lakehouse。
  • ETL/ELT:兩者區別在于先轉換然后存儲(TL)還是先存儲再轉換(LT)。ETL 往往需要先轉換成預定格式再存儲,隨著數據集成過程的量和速度要求,在大數據領域ETL非常容易出現性能瓶頸,且費用昂貴。而ELT如果搭配lakehouse,則可以很好地平衡性能與開銷。

問題

上面提到了lakehouse和ELT 的好處,但是這更多集中于收集和存儲,那么如何管理和組織數據呢?

傳統的數據倉庫環境,數據通過下圖的流程完整數據準備。
在這里插入圖片描述
在datalake中,數據以原始格式存儲,但是實際上你需要對數據進行使用,而不是簡單存儲。這種幾乎隨意式的直接存儲很難馬上用于數據使用(主要是分析),因此還是需要進行清晰(clean),轉換(transform)。

由于量大,分析復雜,傳統的數據倉庫處理方式如果直接應用在data lake上,會導致如時間久,資源消耗大,數據組織困難導致結果不準確等情況。這時候Medallion 架構就應運而生。

它為湖倉一體化而定制。主要目標是在從源到最終使用的過程中逐步增加結構和數據質量。

ADB Medallion

下圖是來自于Databricks官網的架構圖,Medallion的核心在于3個層(layer):Bronze,Silver, Gold, 也就是銅、銀、金。 Medallion就是獎牌的意思。
在這里插入圖片描述

Bronze (銅)

Bronze 層充當外部源系統的數據的初始登陸點。這層的數據反映了原始狀態的源系統結構,并帶有元數據信息,如加載日期/時間和進程 ID。這層的管理重點是變更數據捕獲,支持源數據的歷史存檔,維護數據血緣,還有審計跟蹤,并允許在必要時進行重新處理,而無需從源系統重新讀取。

Silver (銀)

下一層是 Silver 層。在這層中,來自 Bronze 層的數據經過一系列作,達到 一種叫做“Just-enough” 狀態。提供包含基本業務實體、概念和事務的 “企業視圖”。

Gold (金)

最后一層是 Gold 層。Gold 層中的數據通常被結構化到特定于主題領域的數據庫中,以供使用。此層專用于報告,并采用非規范化、讀取優化的數據模型,具有最少的聯接。它是應用數據轉換和質量規則的最終階段。

在這三層里面, 銅是原始存儲外加元數據信息,金是最終用于展示的數據集,跟傳統的數據倉庫類似。重點在于銀這一層。

這一層是轉換后的數據, 它存儲了不同源系統數據轉換成統一視圖后的結果。但是之所以叫做“Just-enough”,是因為它又并不完全轉換,而是最小轉換,包含:

  1. 數據清洗,是識別和糾正數據集中的錯誤、不一致和不準確之處以提高其分析和可靠性的過程。這是數據準備過程中的關鍵步驟,通常在數據分析或集成之前執行。涉及的一些常見任務包括:刪除重復項、更正拼寫錯誤、標準化數據格式(尤其是日期和地址)、處理缺失值等。
  2. 數據驗證:數據驗證是通過各種驗證技術確保數據準確、一致和可靠的過程。它通常包括根據已知的質量控制措施驗證數據、確認數據符合公司數據治理策略、通過交叉引用不同的數據源或應用業務規則和邏輯來解決不一致問題、標準化和規范化數據以及處理異常值。
  3. 數據合規:數據合規是指確保數據符合特定標準、格式或要求的過程。它涉及轉換和標準化數據,以使其與特定數據模型、架構或系統保持一致和兼容。
  4. 有目的地進行數據匹配:為了提供統一的企業視圖,來自不同來源的數據最終必須進行整合和集成。為了使數據可整合,您必須將來自不同來源的數據匯集在一起,識別和確定不同數據集或來源的記錄之間的關系,并將它們轉換為一致且連貫的格式。

通過這些處理之后, silver中的數據已經變得有意義且可用于后續整合。但是一般來說,數據后進一步處理就不需要在這一層進行了,否則會出現過度預處理,最終使其成為了gold層。

Medallion 是一個設計模式,而不是數據模型,也就是說它更多是一個指引,然后在特定環境中(這主要指云環境)按需實現。比如用ADB+ADLS 來實現。

小結

介紹了什么是Medallion之后,接下來將使用ADB 來實現它。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/70805.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/70805.shtml
英文地址,請注明出處:http://en.pswp.cn/web/70805.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Android手機部署DeepSeek

1.概述 android手機端部署deepseek一般需要安裝termux,ollama,deepseek三個大的步驟 原因分析:deepseek等大模型需要類似ollama的工具去運行。ollama有mac window和linux版本,無Android版本;termux是一個模擬linux環境的Android app&#x…

計算機科學技術領域的內卷現狀與應對措施分析

計算機科學技術領域的內卷現狀與應對措施分析 李升偉 整理 ### 計算機科學技術領域的內卷現狀與應對措施分析 #### 一、內卷現狀分析 1. **教育與升學內卷** 計算機科學與技術相關專業(如計算機科學與技術、人工智能、大數據等)已成為考研競爭最…

python-leetcode 45.二叉樹轉換為鏈表

題目: 給定二叉樹的根節點root,請將它展開為一個單鏈表: 展開后的單鏈表應該使用同樣的TreeNode,其中right子指針指向鏈表中的下一個節點,而左子指針始終為空 展開后的單鏈表應該與二叉樹先序遍歷順序相同 方法一:二叉樹的前序…

【leetcode hot 100 15】三數之和

一、兩數之和的擴展 class Solution {public List<List<Integer>> threeSum(int[] nums) {// 將得到的結果存入Set中&#xff0c;保證不重復Set<List<Integer>> set new HashSet<>();// 模擬兩數之和&#xff0c;作為第一個循環中的內容for(in…

設備健康管理系統在制造業的深度應用探索

引言 在制造業的數字化轉型浪潮中&#xff0c;設備健康管理系統正逐漸成為企業提升競爭力的關鍵利器。隨著工業 4.0 和智能制造概念的不斷深入&#xff0c;制造業對設備的高效、穩定運行提出了更高要求。設備健康管理系統借助先進的傳感器技術、物聯網&#xff08;IoT&#xf…

HTTPS 與 HTTP 的區別在哪?

HTTP與HTTPS作為互聯網數據傳輸的核心協議&#xff0c;其通信機制與安全特性深刻影響著現代網絡應用的可靠性與用戶體驗。本文將解析兩者的通信流程、安全機制及核心差異。 一、HTTP的通信機制 先來看看HTTP是什么吧。 HTTP基于TCP/IP協議棧&#xff0c;采用經典客戶端-服務…

為什么要將PDF轉換為CSV?CSV是Excel嗎?

在企業和數據管理的日常工作中&#xff0c;PDF文件和CSV文件承擔著各自的任務。PDF通常用于傳輸和展示靜態的文檔&#xff0c;而CSV因其簡潔、易操作的特性&#xff0c;廣泛應用于數據存儲和交換。如果需要從PDF中提取、分析或處理數據&#xff0c;轉換為CSV格式可能是一個高效…

【JAVAEE】多線程

【JAVAEE】多線程 一、進程1.1 進程的定義1.2 進程和線程的聯系 二、線程2.1 JConsole工具2.2 創建線程2.2.1 Thread類&#xff0c;start&#xff08;&#xff09;&#xff0c;run&#xff08;&#xff09;2.2.2 繼承Thread類2.2.3 實現Runnable接口2.2.4 匿名內部類2.2.5 使用…

手機打電話時如何識別對方按下的DTMF按鍵的字符-安卓AI電話機器人

手機打電話時如何識別對方按下的DTMF按鍵的字符 --安卓AI電話機器人 一、前言 前面的篇章中&#xff0c;使用藍牙電話攔截手機通話的聲音&#xff0c;并對數據加工&#xff0c;這個功能出來也有一段時間了。前段時間有試用的用戶咨詢說&#xff1a;有沒有辦法在手機上&#xff…

【Go】十八、http 調用服務的編寫

http接口框架的搭建 這個http接口框架的搭建參考之前的全量搭建&#xff0c;這里是快速搭建的模式&#xff1a; 直接對已有的http模塊進行復制修改&#xff0c;主要修改點在于 proto部分與api、router 部分&#xff0c;剩余的要針對進行修改模塊名稱。 接口的具體編寫 在 a…

WiseFlow本地搭建實錄---保姆教程

今天從零開始搭建了Wiseflow的本地環境搭建&#xff0c;目前使用的都是免費的API&#xff0c;我建議大家可以一起嘗試一下搭建自己的關鍵信息的數據庫&#xff0c;我是windows的環境&#xff0c;但是其他的應該也差不多&#xff0c;踩了很多坑&#xff0c;希望這篇文章能幫大家…

數的計算(藍橋云課)

題目描述 輸入一個自然數 n (n≤1000)n (n≤1000)&#xff0c;我們對此自然數按照如下方法進行處理: 不作任何處理; 在它的左邊加上一個自然數,但該自然數不能超過原數的一半; 加上數后,繼續按此規則進行處理,直到不能再加自然數為止。 問總共可以產生多少個數。 輸入描述 輸…

知識庫功能測試難點

圖表交互功能測試難點 知識庫圖表類型多&#xff0c;每種圖表交互功能不同。像柱狀圖&#xff0c;可能有點擊柱子查看詳細數據、鼠標懸停顯示數據提示等交互&#xff1b;折線圖除了這些&#xff0c;還可能支持縮放查看不同時間段數據。多種交互操作在不同圖表間存在差異&#x…

【人工智能】數據挖掘與應用題庫(201-300)

1、在LetNet5網絡中,卷積核的大小是? 答案:5*5 2、LeNet5網絡參數的數量約為? 答案:6萬 3、AlexNet與LeNet5相比,使用了哪些機制來改進模型的訓練過程? 答案: 數據增廣Dropout抑制過擬合ReLU激活函數CUDA加速神經網絡訓練4、VGGNet使用的卷積核的大小是? 答案:…

web安全滲透測試 APP安全滲透漏洞測試詳情

前言 小小白承包了一塊20畝的土地&#xff0c;依山傍水&#xff0c;風水不錯。聽朋友說去年玉米大賣&#xff0c;他也想嘗嘗甜頭&#xff0c;也就種上了玉米。 看著玉米茁壯成長&#xff0c;別提小小白心里多開心&#xff0c;心里盤算著玉米大買后&#xff0c;吃香喝辣的富貴…

CSS處理內容溢出

<!DOCTYPE html> <html lang"zh-cn"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>處理內容溢出</title><style>#d1{wid…

拉丁超立方采樣(Latin Hypercube Sampling)技術詳解及實現

拉丁超立方采樣(Latin Hypercube Sampling)技術詳解 拉丁超立方采樣(Latin Hypercube Sampling)技術詳解1. 引言2. 拉丁超立方采樣原理3. 數學公式描述4. Python代碼實現代碼解析5. 應用場景與優勢6. 在化工中的應用6.1 工藝參數優化6.2 不確定性量化與風險評估6.3 實驗設計…

docker-compose部署onlyoffice8.3.0并支持ssl,且支持通過nginx代理,關閉JWT配置

編寫docker-compose文件 mkdir -p /data/onlyoffice && echo "version: 3services:onlyoffice:container_name: OnlyOfficeimage: onlyoffice/documentserver:8.3.0restart: alwaysports:- 8088:80- 64431:443environment:TZ: Asia/ShanghaiJWT_ENABLED: falsevol…

Sliding Window Attention(滑動窗口注意力)解析: Pytorch實現并結合全局注意力(Global Attention )

Sliding Window Attention&#xff08;滑動窗口注意力&#xff09;解析 Sliding Window Attention&#xff08;滑動窗口注意力&#xff09; 是 Longformer (來源&#xff1a;https://arxiv.org/pdf/2004.05150)提出的 稀疏注意力機制&#xff0c;旨在解決 標準 Transformer 計算…

【運維】內網服務器借助通過某臺可上外網的服務器實現公網訪問

背景&#xff1a; 內網服務器無法連接公網,但是辦公電腦可以連接內網服務器又可以連接公網。 安裝軟件 1、frp 2、ccproxy 配置 1、內網服務器 # 內網服務器啟動frp服務配置文件參考vi frps.ini# frps.ini [common] bind_port 7000# 備注: bind_port端口可以隨意配置。配置完…