一個數據倉庫轉型者眼中的數據挖掘

一個數據倉庫轉型者眼中的數據挖掘

對于大多數非從業者或者初學者來說,數據倉庫(Data Warehousing)與數據挖掘(Data Mining)是很容易混淆的兩個概念。有個形象的比喻說:如果把數據倉庫比做一個大型的礦坑,那么數據挖掘就是入坑采礦的工作,數據挖掘需要有非常好的數據基礎,沒有豐富完整的數據,是挖掘不出好內容的。數據倉庫可以說是數據挖掘最理想的地基。

筆者從事數據倉庫BI行業多年,先給各位簡單介紹一下什么是數據倉庫。
數據倉庫
要將非常龐大又復雜的數據轉化成有用的信息,首先需要做的是有效率地收集數據,于是數據倉庫應運而生。數據倉庫是一個環境,而不是一件產品;數據倉庫是面向主題的、集成的、相對穩定的、隨時間不斷變化(不同時間)的數據集合,提供用戶用于決策支持的當前和歷史數據。數據倉庫技術是為了有效的把操作型數據集成到統一的環境中,以提供決策型數據訪問的各種技術和模塊的總稱。
數據倉庫的數據全部來源于外部,它本身并不“生產”任何數據,同時自身也不需要“消費”任何數據。在數據架構上面,數據倉庫通常采用層次化的模型架構,這種模式成本最低,基礎數據和應用指標的一致性最好,以某銀行數據倉庫邏輯架構設計為代表:

第一層為貼源/標準數據層:這一層為“數據緩沖層”,在這一層中主要保存最原始的貼源數據,有些設計會將數據的清洗及標準化操作也放到這一層中,用以保證不同系統的數據在數據結構標準方面保持統一,如性別、日期、行業代碼等。另一些設計則不在這一層對數據進行哪怕最基礎的清洗及格式化等工作,確保數據的貼源一致性,由后面的數據需求方自己處理。
第二層為主題數據層:這一層為數據倉庫的核心層,涵蓋內容包括多個數據來源的數據整合、分類體系和業務實體的統一、不同系統數據關聯關系搭建等,形成客戶、機構、協議、事件、產品等不同的主題,為后續的數據使用奠定基礎。建設數據倉庫主題區對于提高競爭力、提高服務性收入并有效規避各種風險有其重要意義。例如:基于客戶主題可快速、準確尋找出潛在客戶及各類型、資產規模、年齡段客戶的資產狀況和偏好,從而有效制定營銷策略吸引更多客戶在銀行開辦更多的業務,提高營業收入和服務收入;基于機構主題勾勒出我行賬務機構及管理機構之間的層級關系,便于內部管理,可從不同角度、不同層級查看機構架設是否合理,查看機構變遷歷史;基于協議主題能更清晰明了看出客戶的資產變化情況和當前存貸款規模、現狀,能更有效規避風險等。
第三層為數據匯總層/數據集市層,在這一層中通常會建立針對某些業務領域作更深層次的指標體系分析。數據集市以主題數據層為基礎,但不再面向全行數據,而主要面向部門級業務,并且只面向某個特定的主題,如建設對公數據集市,是為滿足對公業務管理需要,支持最新的對公業務管理方針,通過整合對公客戶的數據信息,進一步分析對公客戶的價值信息,更好的支持公司業務客戶營銷、管理分析工作的開展。
總而言之數據倉庫可以看做一個非常大的數據庫,它存儲著由各個源頭數據庫中抽取過來的數據,然后利用這些數據更有效率的給公司的決策者提供決策支持。其中,轉換及整合數據的過程是整個數據倉庫建立遇到的最大挑戰,需要將雜亂的數據按照各主題轉換成有用的策略數據是數據倉庫的重點。數據倉庫通過把所有的數據放在一個地方,方便存取的同時,極大的減少了重復的數據處理和分析,實現數據文件統一出口。
當筆者轉型、真正來到一個數據挖掘的團隊,在一大堆統計學碩博身邊熏陶了一段時間后,我理解的數據挖掘是這個樣子的:
數據挖掘
數據挖掘是綜合了統計分析、人工智能、機器學習、數據庫等諸多方面的研究成果而成,用一個人大統計碩士同事的說法:從某方面來講其實數據挖掘是從大量的數據中提取隱含在其中的、人們事先未知但又是潛在有用的信息和知識的過程。
數據挖掘的結果是事先未知的,這與固定報表有著本質的區別,雖然固定報表應用模式已經存在很多年,由于其非常簡單明了直觀的特點,現在依然是各行業內部各級管理人員分析數據應用形態的主力,但固定報表首先得知道報表的樣式,這是一個查證假設的過程,而數據挖掘是用來幫助使用者產生假設,用工具幫助使用者做探索。
數據挖掘是一個過程,而不是一個技術,它更偏重于實際應用,所以數據挖掘不能只是知道挖掘算法等技術,更需要實現具體的業務目標,只有落地到現實的業務中才能體現數據挖掘的價值,因此業務目標是數據挖掘的核心。在數據挖掘項目的實現過程中,挖掘出來的數據僅能表示現實世界的一部分,數據和現實世界之間是有差距的,只有業務知識可以彌補這一差距,從業者需要豐富的業務知識才能夠解釋數據中發現的相關結論,業務知識是數據挖掘的基礎,好的數據挖掘者需要有深厚的行業業務功底。
數據挖掘有一個著名的格言論調,我的博士領導也經常提到這段話,數據挖掘項目中最費力的是數據的獲取與預處理,其占用整個項目的時間高達60%-80%。在筆者了解的幾個項目中實際情況也確實如此。數據預處理的目的是把數據挖掘問題轉化為格式化的數據,使各項分析技術挖掘算法更容易去使用它。一般的數據處理有兩種辦法,一種是將數據轉化成完全結構化的基礎分析數據,根據對應算法可能需要的數據形式,將數據轉化成合格的格式。第二種是將盡可能多的業務問題涉及的數據都涵蓋進來,然后找到合適的技術解決方案來實現挖掘的結果。但數據會隨著清洗、轉換、數據量變化而相應發生變化,這種分析只能是探索性的。因此,即使有一個非常成熟的數據倉庫,但數據預處理仍然是必不可少的,它仍然要占用數據挖掘項目一半以上的時間。
數據挖掘的過程同樣也是一個不斷試驗、不斷試錯的過程,一個正確的模型只有通過不斷的試驗才能被發現,在數據挖掘的過程中會經常發現一個算法對某一個數據集是合適的,但是對另一個數據集又是不利的,沒有一個算法是適合每一個問題的。因此數據挖掘就是一個方法不合適再試用其他方法的過程,但是在有條件的限制約束下,比如業務目標比較穩定、數據變化相對規律的情況下,一個可接受的算法或算法組合是可以解決問題的。http://www.cda.cn/view/17579.html
數據挖掘與數據倉庫之間的關系
數據挖掘可以說是從數據倉庫中發現并提取隱藏在其中有用信息的一種過程。數據挖掘就是從大量數據中挖取數據的過程,而數據倉庫就是匯集所有相關數據的一個過程,數據倉庫為數據挖掘提供了更好的、更廣泛的數據源。當然,在有些情況下,數據倉庫并沒有建立起來,但是數據挖掘工作還是可以依托業務源數據先行的,只是在挖掘數據預處理階段去整合多個源系統的數據源時可能工作量會增大,效率也肯定不如從數據倉庫中取數要高,因為數據倉庫中的數據是經過預處理的結構化數據,能夠為數據挖掘提供非常好的支持平臺,同樣數據挖掘也對數據倉庫的構建提出了更高的要求,兩者是互相促進的。

轉載于:https://www.cnblogs.com/amengduo/p/9587500.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/395973.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/395973.shtml
英文地址,請注明出處:http://en.pswp.cn/news/395973.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

mysql的告警日志_運維日記|MySQL關于aborted告警日志的分析

又是一個季度一次的現場巡檢,期待數據庫能跑的又快又穩,畢竟這是對DBA最大的饋贈了。?結果不遂人意發現在錯誤日志內存在大量的如下報錯:查看當前數據庫的狀態值:查看數據庫關于數據庫會話的關鍵參數:數據庫環境及相關…

2017年Spring發布了30個新的Android庫,值得您關注

by Michal Bialas由Michal Bialas 2017年Spring推出的30個最酷的Android庫 (The 30 Coolest Android Libraries from Spring 2017) These are my 30 favorite new Android libraries that have come out since March 2017. Some of them aren’t production ready yet, but yo…

《異構信息網絡挖掘: 原理和方法(1)》一第2章 基于排名的聚類

本節書摘來自華章出版社《異構信息網絡挖掘: 原理和方法(1)》一書中的第2章,作者[美]孫藝洲(Yizhou Sun)韓家煒(Jiawei Han),更多章節內容可以訪問云棲社區“華章計算機”…

html怎樣將單元格的字豎式,數學豎式計算的標準格式是怎樣的?需要注意哪些問題?...

小學階段數學計算題是重中之重,也是為日后打基礎的時間段,所以在小學的時候,要讓孩子熟練掌握數學計算。數學計算在這段時期一般比較簡單,通常情況下學生可以采用口算、心算的形式,但是有的學生因為這兩個能力不強。于…

Windows類標識符及其妙用

Windows類標識符 百度百科這樣解釋: Windows的類標識符class identifier也稱為CLASSID或CLSID,是與某一個類對象相聯系的唯一標記(UUID)。一個準備創建多個對象的類對象應將其CLSID注冊到系統注冊數據庫的任務表中,以使客戶能夠定位并裝載與該…

mysql用創建的用戶登陸并修改表格_MySQL 基礎學習二:創建一個用戶表,并增刪改查...

MySQL 基礎學習二:創建一個用戶表,并 增刪改查提示:MySQL 命令建議都用大寫,因為小寫運行時,還是翻譯成大寫的。第一步,創建一個用戶表1,打開控制臺,進入數據庫C:\Users\Administrator>MySQL -u root -p2,查看有什么數據庫MySQ…

《軟件工程(第4版?修訂版)》—第1章1.5節 系統的方法

本節書摘來自異步社區《軟件工程(第4版?修訂版)》一書中的第1章1.5節 系統的方法,作者【美】Shari Lawrence Pfleeger , 【加】Joanne M.Atlee,更多章節內容可以訪問云棲社區“異步社區”公眾號查看。 1.5 系統的方法軟件工程&am…

2-2 用Python爬取銀河演員網上的演員參演電影的信息進行抓取

腳本中用到的actors_use.csv為之前從豆瓣上抓取的演員列表。 1 galaxyactors.py2 # -*- coding: utf-8 -*-3 #該腳本可以按照文件actors_use.csv中給出的演員的姓名4 #對銀河演員網http://www.8fkd.com/上的演員參演電影的信息進行抓取5 #信息包括演員參演電影和電影日期&#…

在c語言中,以r方式不能打開并不存在的文件,C語言文件選擇題

C語言文件選擇題(答案在最后)1、標準庫函數fgets(s,n,f)的功能是A) 從文件f中讀取長度為n的字符串存入指針s所指的內存B) 從文件f中讀取長度不超過n-1的字符串存入指針s所指的內存C) 從文件f中讀取n個字符串存入指針s所指的內存D) 從文件f中讀取長度為n-1的字符串存入指針s所指…

動腦2017android_您肯定要在2017年初嘗試的25個新Android庫

動腦2017androidby Michal Bialas由Michal Bialas 您肯定要在2017年初試用的25個Android庫 (25 Android libraries you definitely want to try out in early 2017) This is a list of 25 best Android libraries released in January and February 2017. All of these are wo…

linux中安裝多個mysql_liunx系統下安裝多個MySql數據庫并做主從配置

在網上搜索了很多資料,都沒有看到像樣的文檔,思路不是很清晰,對第一次安裝的朋友來說較為困難,經過長時間的安裝嘗試和查詢網上零碎的知識點,終于成功的完成Linux系統下多MySql數據庫安裝和主從配置,現在分…

034_nginx報錯總結

一、nginx: [emerg] "client_header_timeout" directive is not allowed here in /opt/nginx/conf/vhost.d/newton-api.uuwatch.com.conf:24 location / { client_body_timeout 5s;client_header_timeout 3s; #配置參數報錯proxy_set_header X-Forwarded-For …

江蘇省高等學校計算機一級成績查詢,江蘇計算機一級考試成績查詢

想要了解江蘇2020年9月計算機一級考試成績查詢入口的小伙伴快來看看吧!下面由出國留學網小編為你精心準備了“江蘇2020年9月計算機一級考試成績查詢入口公布”,持續關注本站將可以持續獲取更多的考試資訊!江蘇2020年9月計算機一級考試成績查詢…

Linux中mongodb安裝和導出為json

采用官方工具導出mongo數據為json格式 文檔:https://docs.mongodb.com/manual/reference/program/mongoexport/ 可以遠程導出,只要有host:port即可。 首先需要安裝tools: 在redhat中: 文檔:https://docs.mongodb.com/manual/tutor…

《樹莓派實戰秘籍》——1.17 技巧17添加重啟按鈕

本節書摘來異步社區《樹莓派實戰秘籍》一書中的第1章,第1.17節,作者:【美】Ruth Suehle ,Tom Callaway,更多章節內容可以訪問云棲社區“異步社區”公眾號查看 1.17 技巧17添加重啟按鈕 樹莓派實戰秘籍也許你已經注意到Pi缺少了某…

dns是指網絡域名系統_域名系統(DNS)是Internet的骨干。 這就是全部的運作方式。...

dns是指網絡域名系統by Nikolas ODonnell由Nikolas ODonnell 域名系統(DNS)的工作方式以及如何使其變得更好。 (How the Domain Name System (DNS) works and how you can make it better.) The Domain Name System (DNS) is often referred to as the backbone of the intern…

07.敏捷項目管理——推測階段筆記

00.推測階段關注產品很項目——創造和理解產品結構、性能和故事功能清單以及發布計劃。 01.發布計劃會用到與產品規格、平臺結構體系、資源、風險分析、業務約束以及目標進度等信息。 02.迭代計劃和開發方法有兩個至關重要的組成部分——短期迭代時間框和功能。 03.產品經理控制…

mysql臨時關閉索引功能_MySQL優化之索引優化

$1.WHY : 找到MySQL Query執行慢的原因1.1 EXPLAIN通過Explain查看SQL Query語句的執行情況&#xff0c;從中找出導致MySQL查詢性能差的原因EXPLAIN QUERY語句【字段解釋】<1> id -- 表的讀取順序id相同時&#xff0c;按照從上至下的順序執行id不同時&#xff0c;id值越…

Maven實戰. 1.3Maven與極限編程

1.3Maven與極限編程 極限編程&#xff08;XP&#xff09;是近些年在軟件行業紅得發紫的敏捷開發方法&#xff0c;它強調擁抱變化。該軟件開發方法的創始人Kent Beck提出了XP所追求的價值、實施原則和推薦實踐。下面看一下Maven是如何適應XP的。 首先看一下Maven如何幫助XP團隊實…

python 下字符串格式時間比較

python 下有多個有關時間的模塊&#xff0c;分別是time、datetime、calendar&#xff0c;今天重點討論下time寫法。 其中time模塊&#xff0c;主要有以下方法&#xff1a; ltimetime.time() 獲取當前系統時間&#xff0c;返回float型數值時間戳&#xff08;當前時間相對于1970.…