數據倉庫概要

什么是數據倉庫?

數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。

核心特征

1. 面向主題

數據倉庫圍繞核心業務主題(如客戶、產品、銷售、財務)來組織數據,而不是圍繞具體的業務流程或應用系統。這與操作型數據庫 (如訂單處理系統)不同,后者是面向事務 的。

2. 集成

數據倉庫中的數據來源于多個分散的操作型系統(如ERP、CRM、日志文件等)。這些數據在進入數據倉庫之前,會經過清洗、轉換、整合,消除不一致性,形成統一的命名、編碼和格式。

3. 相對穩定

數據倉庫一旦存入數據,通常不會被修改或刪除,主要是進行數據的查詢和分析。這反映了讀多寫少的特性。操作型數據庫則需要頻繁地進行增刪改查。

4. 反映歷史變化

數據倉庫會長期保留歷史數據(例如5-10年),以便進行趨勢分析、預測未來。而操作型數據庫通常只保留當前或近期的數據。

核心架構與組成

1. 數據源

如:業務數據庫(MySQL, Oracle)、日志文件、API接口、外部數據等。

2. 數據抽取、轉換、加載

  • 抽取 Extract:從數據源獲取數據。
  • 轉換 Transform:清洗無效數據、轉換格式、統一標準、進行業務計算(這是最復雜的一步)。
  • 加載 Load:將轉換后的數據加載到數據倉庫的目標表中。

3. 數據存儲與管理

  • 這里存儲著細節數據、輕度匯總數據和高度匯總數據。
  • 通常采用維度建模,構建星型模型或雪花模型,核心是事實表和維度表。
    • 事實表:存儲業務過程的度量值(如銷售金額、銷售數量),主要是數值型數據。
    • 維度表:存儲描述事實的業務上下文(如時間、地點、產品、客戶),主要是文本型數據。

4. 數據服務/應用層

工具包括:BI工具(如 Tableau, FineBI, Power BI)、即席查詢工具、報表系統等。

相關概念與技術

ETL vs. ELT

  • ETL 抽取 -> 轉換 -> 加載:傳統方式,在加載到倉庫前進行轉換。適合結構化數據和對數據質量要求極高的場景。
  • ELT 抽取 -> 加載 -> 轉換:現代方式,先加載到倉庫,然后利用倉庫的強大計算能力進行轉換。更適合處理海量、多結構的原始數據

OLTP vs. OLAP

  • OLTP (Online Transactional Processing) 聯機事務處理:支持日常業務操作(增刪改查),是數據的生產者,是業務數據的源頭;代表系統 MySQL, PostgreSQL, Oracle
  • OLAP (Online Analytical Processing) 聯機分析處理:支持復雜數據分析與決策;是數據的消費者,數據來自多個OLTP系統;Snowflake, BigQuery, Amazon Redshift, Apache Druid

數據集市

數據倉庫的一個子集,通常為某個特定部門或特定業務領域(如財務、銷售部)構建的微型數據倉庫。它從數據倉庫中獲取數據,規模更小、主題更聚焦、訪問更快。

現代數據棧:

  • 新一代的數據平臺,通常基于云原生技術,組件更加解耦(增加獨立性,降低依賴關系)和專業化。
    典型組成:Fivetran (Extract and Load) -> Snowflake/BigQuery (Storage/Compute) -> dbt (Transform) -> Tableau/Mode (BI)。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/95924.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/95924.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/95924.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python庫 Py2exe 的詳細使用(將 Python 腳本變為Windows獨立軟件包)

更多內容請見: python3案例和總結-專欄介紹和目錄 文章目錄 一、Py2exe 概述 1.1 Py2exe介紹 1.2 Py2exe安裝 1.3 替代工具推薦 二、基礎使用 2.1 編寫打包腳本 2.2 執行打包命令 2.3 完整案例 2.4 配置選項詳解 2.5 構建和分發 三、高級配置 3.1 包含隱藏導入 3.2 處理特殊包…

CuTe C++ 簡介02,gemm_device cuda kernel 的實現

《CuTe C 簡介01,從示例開始 》 中,最后看到了 計算 gemm 的cuda kernel,使用 NVIDIA CUTLASS 的 CUTe (CUDA Tile) 庫實現的高性能 GEMM (通用矩陣乘法) CUDA kernel。接下來解釋一下這個內核的各個部分。文末再貼一遍代碼,方便查…

萬代《寶可夢》主題新品扭蛋公開!史上最大尺寸

使用jQuery的常用方法與返回值分析 jQuery是一個輕量級的JavaScript庫,旨在簡化HTML文檔遍歷和操作、事件處理以及動畫效果的創建。本文將介紹一些常用的jQuery方法及其返回值,幫助開發者更好地理解和運用這一強大的庫。 1. 選擇器方法 jQuery提供了多種…

【FastDDS】Layer Transport ( 05-Shared Memory Transport)

6.4 共享內存傳輸 共享內存(SHM)傳輸依靠主機操作系統提供的共享內存機制,實現了在同一處理單元/機器上運行的實體之間的快速通信。注意 Fast DDS 利用域參與者(DomainParticipant)的 GuidPrefix_t 來識別在同一主機上…

記 2025/9/6

人工智能常見的模型按照處理問題分為6大類:處理權重問題的權重模型、處理狀態問題的狀態模型、處理序列問題的問題模型、處理表示問題的表示模型、處理相似度的相似模型、處理分類問題的分類模型。權重是計算特定狀態下事物的重要性。狀態問題是刻畫權重動態變化的過…

開啟Python之路,第一節學習大綱-從入門到進階

前端開啟Python之路,前端有沒有必要卷后端技術,歡迎各位大神批評指正 第一階段:基礎入門 (打好根基) 目標: 理解編程基本概念,掌握 Python 核心語法,能編寫簡單的腳本程序。 1、環境搭建與開發工具 安裝 Py…

webshell及冰蝎雙擊無法打開?

什么是webshell? web:萬維網 shell:是指一種應用程序,為用戶和系統之間建立連接,通過這個界面訪問操作系統內核的服務 webshell:是以asp、aspx、php、jsp或者cgi等網頁文件形式存在的一種命令執行環境,也可以將其稱做…

【星閃】Hi2821 | PWM脈寬調制模塊 + 呼吸燈例程

1. 簡介PWM(Pulse Width Modulation),全稱脈寬調制,通過對一系列脈沖的寬度進行調制,等效出所需波形。即對模擬信號電平進行數字編碼,通過調節頻率、占空比的變化來調節信號的變化。一個 PWM 周期內由一段高…

51單片機---硬件學習(電子琴、主從應答模式、modbus模型、DS18B20傳感器顯示溫度)

一、串行通信與并行通信1、串行通信定義:數據一位一位地按順序通過單條傳輸線進行傳輸的通信方式。優點:傳輸線少,成本低,適合長距離傳輸缺點:傳輸速度相對較慢2、并行通信定義:數據的各位同時通過多條并行…

SpringBoot后端開發常用工具詳細介紹——SpringSecurity認證用戶保證安全

簡單的開始 創建SpringBoot項目 首先創建一個簡單的springboot項目,假設端口為8888,添加controller控制層,并在其中添加TestController控制類,那么啟動springboot項目之后,訪localhost:8888/api/message頁面會顯示my…

別再手工縫合API了!開源LLMOps神器LMForge,讓你像搭積木一樣玩轉AI智能體!

你是否受夠了這些? 剛調通OpenAI的API,老板說“咱們試試國產模型降本增效”,你看著滿屏的if-else只想說“我暈”。想給AI加上“查天氣”、“執行代碼”的能力,卻發現Function Calling的代碼復雜得讓人頭皮發麻。本地的Agentdemo驚…

window使用ffmep工具,加自定義腳本執行視頻轉碼成h264(運營人員使用)

技術文章大綱:ffmep配合腳本使用1. 需要提供腳本給視頻轉碼的給運營,給運營上傳視頻使用安裝ffmep windows版本(目前我使用的就是windows)將腳本里面的執行路徑修改成自己的電腦安裝ffmep/bin/ffmep.exe路徑處理好之后就點擊執行2.環境準備ffmep windows版解壓到一個…

Leetcode 240. 搜索二維矩陣 II 矩陣 / 二分

原題鏈接&#xff1a; Leetcode 240. 搜索二維矩陣 II 解法一&#xff1a;排除法 參考 【圖解】排除法&#xff0c;一圖秒懂&#xff01;&#xff08;Python/Java/C/C/Go/JS/Rust&#xff09; 從右上角&#xff1a; class Solution { public:bool searchMatrix(vector<vec…

OCR 證件識別:驅動澳門酒店自助入住智能化

澳門酒店作為國際旅游窗口&#xff0c;每日接待持多元證件的旅客&#xff0c;OCR 證件識別技術的應用&#xff0c;讓自助入住終端實現 “一證通辦”&#xff0c;大幅提升服務效率。?旅客在自助終端辦理入住時&#xff0c;只需將護照、港澳通行證、回鄉證、電子身份證等證件貼近…

深入解析匯編語言的奧秘

匯編語言簡介匯編語言&#xff08;Assembly Language&#xff09;是一種低級編程語言&#xff0c;直接對應計算機的機器指令集。它通過助記符&#xff08;如 MOV、ADD&#xff09;代替二進制操作碼&#xff0c;更接近硬件架構&#xff0c;常用于性能優化、嵌入式開發或逆向工程…

Nextcloud 實戰:打造屬于你的私有云與在線協作平臺

隨著數據安全與隱私保護意識的提升&#xff0c;越來越多的個人和組織選擇自建云平臺來替代公有云。Nextcloud 作為一款開源的文件同步與協作套件&#xff0c;不僅能實現類似網盤的文件存儲與分享&#xff0c;還提供日歷、聯系人、即時通訊、在線文檔編輯等協作功能&#xff0c;…

實踐指南:利用衡石AI Data Agent實現自然語言驅動的指標開發與歸因

在數字化轉型的深水區&#xff0c;企業數據團隊常面臨兩難困境&#xff1a;業務部門需要敏捷響應的指標分析&#xff0c;但傳統BI工具依賴技術團隊編寫SQL&#xff0c;導致需求交付周期長達數周&#xff1b;而直接暴露底層數據又存在安全與合規風險。衡石科技推出的AI Data Age…

知微集:Python中的線程(三)

歡迎來到"一起學點什么吧"的合集「NLP知微集」。在這里&#xff0c;我們不愿宏大敘事&#xff0c;只聚焦于自然語言處理領域中那些細微卻關鍵的“齒輪”與“螺絲釘”。我相信&#xff0c;真正深刻的理解&#xff0c;源于對細節的洞察。本期&#xff0c;我將為您拆解的…

動態規劃入門:從記憶化搜索到動態規劃

在開始對動態規劃的講解之前&#xff0c;我們需要先對記憶化搜索進行回顧&#xff1a; 什么是記憶化搜索&#xff1f; 在搜索過程中&#xff0c;當搜索樹中存在大量重復的節點時&#xff0c;我們可以通過引入一個"備忘錄"&#xff08;通常是一個數組或哈希表&#…

Boost搜索引擎 網絡庫與前端(4)

文章目錄前言一、引入網絡庫模塊引入cpp-httplibcpp-httplib測試正式編寫http_server二、前端模塊三、項目的可能拓展總結前言 終于到了最后一篇嘍&#xff0c;嘻嘻&#xff01; 一、引入網絡庫模塊 引入cpp-httplib 下載地址如下&#xff0c;我個人不喜歡新版本 ??cpp-http…