數據倉庫標準庫模型架構相關概念淺講

數據倉庫與模型體系及相關概念

數據倉庫與數據庫的區別可參考：數據庫與數據倉庫的區別及關系_數據倉庫和數據庫-CSDN博客

總之，數據庫是為捕獲數據而設計，數據倉庫是為分析數據而設計

在一些大廠中，其會有自己的數據倉庫集成工具。如京東內部數倉集成工具為數據星圖，我們可以通過該工具拿到各領域的模型，字段，實時消息，生產庫表等數據。
在這里插入圖片描述

下圖是一個標準數據倉庫架構的示例圖，可能不是很準確。
對于我們來講只需要了解數倉數據提取的步驟：

什么是增量抽取，全量抽取，拉鏈抽取？請接著往下看！

數據倉庫中的數據由數據集成平臺將源數據庫中的表，數據抽取過來。我們需要定義抽取策略，主要抽取策略有全量抽取，增量抽取，拉鏈抽取這三類。

全量抽取比較好理解每次將源數據庫中所有數據全部抽取到數據倉庫，會覆蓋數據倉庫之前的數據。

主要講下增量抽取，拉拉鏈抽取二者的區別

增量抽取：增量抽取是指每次只抽取自上次抽取以來源數據庫中新增或修改的數據。通常需要源數據庫中存在能夠標識數據變化的字段，如時間戳字段（記錄數據的創建時間或最后修改時間）或自增的版本號字段等。例如，在一個訂單表中，有一個 update_time 字段記錄訂單的最后修改時間，增量抽取時可以通過比較這個時間戳，只抽取 update_time 大于上次抽取時間的數據。
拉鏈抽取：拉鏈抽取不是基于數據的增量變化，而是基于數據的生命周期來記錄數據的歷史變化。它會在數據倉庫中為每一條數據記錄維護一個生效時間和失效時間（或截止時間），通過這兩個時間字段來標識數據在歷史上的有效性。例如，員工的職位信息可能會發生變化，每次變化時，拉鏈抽取會在數據倉庫中插入一條新記錄，記錄變化后的職位信息，并更新上一條記錄的失效時間，同時新記錄的生效時間為變化發生的時間，失效時間為無窮大（或一個特定的未來時間）。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/77000.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/77000.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/77000.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！