一、什么是數據倉庫?
數據倉庫(Data Warehouse,簡稱DW)簡單來講,它是一個存儲和管理大量結構化和非結構化數據的存儲集合,它以主題為向導,通過整合來自不同數據源下的數據(比如各業務數據,日志文件數據等),解決企業數據孤島,為企業提供統一的數據視圖。通過構建不同時間范圍或不同業務主題下的分析報告和數據報表等,為企業決策提供一定程度上的支持和幫助。
二、數據倉庫的特點?
- 主題性
傳統的數據庫,更多的可能是考慮到應用層面上的數據組織和結構,因此各個業務之間的數據可能相互獨立,相互分離。而數據倉庫是對業務系統中各業務數據通過不同主題域特征進行抽象,通過歸納和總結等手段,形成一個更高層次的主題和維度抽象。
- 集成性
因為數據倉庫與傳統意義上的數據庫不同,它需要接納各種獨立,異構的數據,因此它需要通過ETL(抽取、清洗、轉換)功能,將這些數據統一處理并匯總到數據倉庫中,而將全部的數據匯總的好處就是數倉中包含了企業所有數據,解決了企業數據孤島問題,在后期可以為企業提供統一的數據視圖。因此,數據入倉前的ETL是數倉建設中尤為關鍵且有非常復雜的一件事。
- 穩定性
傳統數據庫更多的偏向于更新操作(CRUD),而數據倉庫則是更多的提供一種可靠的,長久數據的查詢和分析能力。在生產場景種,數據一旦寫入到數據倉庫,大概率會被長期保存且基本不進行修改操作,除非企業針對特定數據設置數據生命周期。因此基于這種更新頻率幾乎為零的設計再加上數倉的分布式存儲與高可用的搭建,保證了數倉的穩定性和完整性。
- 及時性
數倉不僅僅要存儲了管理歷史數據,同時還要能夠實時接收新的集成數據,通過這種快速反應歷史數據與新增數據差異對比的能力,能夠快速給決策和分析人員提供參考依據,這也是數倉建設的最終目的。
三、為什么要建設數倉?
? 隨著移動互聯網的快速發展,企業數據和數據復雜度也呈幾何式增長。到目前為止,數據已經成為了眾多企業的核心資產之一。但目前很多企業在不同的業務場景,都擁有眾多數據源,企業數據也分布在不同的業務系統中,但決策者在決策時,通常是要結合全公司各個業務數據來綜合分析考慮的,而一個高效可靠的數據倉庫,能夠匯集公司眾多結構化和非結構化的數據,能夠提供穩定高效的查詢分析,能夠幫助決策者更加高效的管理和分析企業發展現狀與預測未來走勢,同時,也能將公司的數據資源轉換為真正的企業資產。
? 接下來,我們將從數據倉庫的分類與建模方法中展開討論。