數據挖掘:數據倉庫相關知識筆記

? ? ? ? ? ? ?

?

1、數據倉庫介紹

數據倉庫(DW):可以滿足管理人員的決策分析需要,在數據庫基礎上產生了滿足決策分析需要的數據環境。

傳統數據庫和數據倉庫比較

比較內容

傳統數據庫

數據倉庫

數據內容

當前數據

歷史的、存檔的、歸納的、計算的

數據目標

面向業務操作員,重復處理

面向主題、分析應用

數據特性

動態變化、按字段更新

靜態、不能直接更新、只能定時添加、刷新

數據結構

高度結構化、復雜、適合操作計算

簡單、適合分析

數據使用頻率

數據訪問量

每個事務只訪問少量的記錄

有的事務可能需要訪問大量的記錄

響應要求

以秒為單位計算

分鐘、甚至小時為計算單位

2、數據倉庫的基本特性

面向主題:數據倉庫中數據是面向主題進行組織的,主題就是一個較高的管理層次上對信息系統中數據按照某一具體的管理對象進行歸類、綜合所形成的分析對象。比如企業中哪些產品暢銷、競爭對手哪些產品對本企業產品構成威脅。

數據是集成的:根據決策分析的要求,將分散于各處的原始數據進行抽取、篩選、清理、綜合等集成工作,數據倉庫的數據具有集成性。

一般情況下數據倉庫所需要的數據不需要直接從業務發生地獲取數據,而是針對原數據庫挑選中數據倉庫所需要的數據,然后將來自不同數據庫中的數據按照某一標準進行統一處理。

數據是相對穩定的:因為數據倉庫的數據主要是供決策分析使用,一般主要是數據查詢操作,不進行修改等操作。數據反映的是一段相當長的時間內歷史數據的內容,是不同時間的數據庫快照的集合,然后進行統計、綜合、分組的導出數據。

數據是反映歷史變化的:主要表現三個方面,數據倉庫隨時間變化不斷增加新的數據內容,定時獲取OLTP數據庫中變化的數據追加到數據倉庫中去;

隨時間變化不斷刪除舊的數據內容;數據倉庫中包含大量綜合數據會隔一段時間進行抽樣處理等。

3、數據倉庫的模式

主要有星型模式、雪花模式、事實星型模式。

4、數據倉庫的體系結構

底層:數據倉庫服務器。一般是關系數據庫系統,數據倉儲服務器從操作型數據庫或外部數據源提取數據對數據進行清理、轉換、集成等然后裝入數據倉庫中。

中間層:OLAP服務器。可以實現關系型OLAP提供多維數據的支持;也可以是多維的OLAP服務器,支持多維數據存儲存儲和操作。

頂層:前端工具。主要包括查詢、報表工具、分析工具、數據挖掘工具。

5、數據倉儲模型

5.1 企業倉庫

收集跨越整個企業的各個主題所有信息。提供全企業范圍的數據集成,數據通常來自多個操作型數據庫和外部信息的提供者,并且可以跨越多個功能范圍。

5.2 數據集市

包含對特定用戶有用的、企業范圍數據的一個子集。它的范圍限于選定的主題。

5.3 虛擬倉庫

虛擬倉庫是操作型數據庫上視圖的集合。為了有效地處理查詢,只有一些可能的匯總視圖被物化。虛擬倉庫易于建立,但需要操作型數據庫服務器具有剩余的能力。

?

IT技術分享社區

個人博客網站:https://programmerblog.xyz

文章推薦程序員效率:畫流程圖常用的工具程序員效率:整理常用的在線筆記軟件遠程辦公:常用的遠程協助軟件,你都知道嗎?51單片機程序下載、ISP及串口基礎知識硬件:斷路器、接觸器、繼電器基礎知識

?

?

?

?

?

?

?

?

?

?

?

?

?

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/271290.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/271290.shtml
英文地址,請注明出處:http://en.pswp.cn/news/271290.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

python200行代碼_如何用200行Python代碼“換臉”

本文將介紹如何編寫一個只有200行的Python腳本,為兩張肖像照上人物的“換臉”。 這個過程可分為四步: 檢測面部標記。 旋轉、縮放和轉換第二張圖像,使之與第一張圖像相適應。 調整第二張圖像的色彩平衡,使之與第一個相匹配。 把第…

git的smart Checkout跟force checkout的區別

1:在切換分支的時候,常常會遇到下圖的問題 是因為我在test分支上修改了代碼,但是沒有commit,切換到其他分支上就彈出了這個窗口 我們需要怎么處理呢 2:可以看到彈框底部有Force Checkout Dont checkout Smart Checkout,表示什么意思呢 Smart …

python畫圖中grid等于true_Python中的matplotlib畫圖總結

# -*- coding: utf-8 -*-import matplotlib.pyplot as pltfrom numpy.random import randnimport numpy as npfrom io import StringIOimport pandas as pd#Create figurefig plt.figure()#創建子圖subplot: 表示2X2,即4個子圖中的第1個圖,編號為1#參數…

數據挖掘相關知識介紹

1、數據挖掘定義把數據庫中大量數據背后隱藏的重要信息抽取出來,然后為公司創造很多潛在的利潤,針對這種海量數據庫中挖掘數據信息的技術稱為數據挖掘(DM)。2、數據挖掘的分類按照數據庫種類:關系型數據庫的數據挖掘、…

Yii2 behavior運用

1 class ReturnDataTypeBehaviors extends Behavior2 {3 4 public $type json;5 public $pcOrMobile pc; // or mobile6 7 //控制器執行之后事件8 public function events()9 { 10 return [Controller::EVENT_BEFORE_ACTION > beforeType]; …

c語言數字靈活多變的訪問形式_學習C語言你必須知道的事兒!

是新朋友嗎?記得先點藍字關注我哦~今日課程菜單Java全棧開發 | Web前端H5大數據開發 | 大數據分析人工智能Python | 人工智能物聯網有聽過這樣一段話:在編程界,C語言就是道家的“三”,A生B,B生C&#xff0c…

IDEA通過git怎么回滾到某個提交節點或某個版本

1:先右鍵點擊項目,選擇git,接著Show History 2:這里會顯示有歷史提交的版本記錄,假設我要回滾到箭頭處到提交,操作如下 3:右鍵點擊,點擊Copy Revision Number 在編輯器里粘貼,可以看到如下 4:右擊選擇項目,選擇git -&…

linux與mysql_Linux與MySQL

mysql -h localhost -u 用戶名 -p 密碼 //連接數據庫use desk_show; //使用數據庫show tables; //顯示數據表describe desk6_0; …

關系數據庫基礎知識介紹

1、關系的相關名詞介紹屬性(Attribute):描述事物的若干特征稱為屬性。比如學號、姓名、職位、年齡等。域(Domain):針對屬性的取值范圍集合。比如性別取值為男、女、學號的長度為8位等。一般在關系數據模型中&#xff0…

android中xmlns:tools屬性詳解

第一部分 安卓開發中,在寫布局代碼的時候,ide可以看到布局的預覽效果。 但是有些效果則必須在運行之后才能看見,比如這種情況:TextView在xml中沒有設置任何字符,而是在activity中設置了text。因此為了在ide中預覽效果&…

mysql sleep 5908_mysql連接卡死,很多線程sleep狀態,導致CPU中mysqld占用率極高(問題原因還待考證)...

mysql> show processlist;—–————-——————–| Id | User | Host | db | Command | Time| State | Info—–————-——————–|207|root |192.168.0.2:51621 |mytest | Sleep | 5 | | NULL|208|root |192.168.0.2:51622 |mytest | Sleep | 5 | | NULL|220|ro…

python excel庫 linux_用python寫一個簡單的excel表格獲取當時的linux系統信息

最近在學習excel表格的制作,順便結合之前學習的內容,利用python的兩個模板,分別是獲取系統信息的psutil,和生成excel表格的xlsxwriter。利用這兩個模板將生成一個簡單的excel表格,獲取當時的linux系統信息,…

mac下安裝brew下載非常慢解決方法

一鍵解決:自動腳本(全部國內地址)(在Mac os終端中復制粘貼回車下面這句話) /bin/zsh -c "$(curl -fsSL https://gitee.com/cunkai/HomebrewCN/raw/master/Homebrew.sh)"輸入y 在終端環境下,brew --version 查看brew的版本&#xf…

關系數據庫模式和完整性約束相關概念

一、關系數據庫模式介紹關系的描述形式:R(U,D.dom,F),簡化形式:R(U)、R(A1,A2,A3...An)R:表示關系名;U組成該關系的屬性名集合;D是屬性的域;dom是屬性向域的映像集合;F為屬性間數據的依賴關系集…

分布式鎖的實現方式

在進行大型網站技術架構設計以及業務實現的過程中,多少都會遇到需要使用分布式鎖的情況。那么問題也就接踵而至。分布式鎖zk和memcached以及redis三者都能實現,同樣是分布式鎖,三者的區別何在?各自適用什么場景? 一、Z…

關系數據庫基礎:關系代數運算知識筆記

1、關系代數運算符集合運算符:并(U)、差(-)、交(∩)、笛卡爾積()專門的關系運算符:選擇(?)、投影(π)、連接(∞)、除()算術比較符:大于(>)、大于等于(≥)、小…

POJ 1308 Is It A Tree? (并查集)

Is It A Tree?題目鏈接: http://acm.hust.edu.cn/vjudge/contest/123393#problem/M Description A tree is a well-known data structure that is either empty (null, void, nothing) or is a set of one or more nodes connected by directed edges between node…

Mysql分頁加pagebean_Spring+MyBatis+SpringMvc+Mysql+Druid+PageHelper分頁實現

我是阿福,公眾號「阿福聊編程」作者,一個在后端技術路上摸盤滾打的程序員,在進階的路上,共勉!文章已收錄在 JavaSharing 中,包含Java技術文章,面試指南,資源分享。思路分析MyBatis的…

python csv使用_python CSV模塊的使用

簡介 CSV(comma separated values),逗號分隔值(字符分割值,字符可以不是逗號),常用的文本格式,用以存儲表格數據,包括數字或者字符。kaggle就是csv格式,pytho…

JDK 與 JRE區別

JDK 與 JRE JDK 與 JRE 是我們經常遇到的概念,但許多學習了幾年的開發都搞不懂他們之間的區別。簡單地說 JRE(Java Runtime Environment)僅包含運行 Java 程序的必需組件,包括 Java 虛擬機以及 Java 核心類庫等。而 JDK&#xff…