數據湖 (特點+與數據倉庫和數據沼澤的對比講解)

數據湖 (特點+與數據倉庫和數據沼澤的對比講解)

bicheng/2025/7/6 11:56:14/文章來源:https://blog.csdn.net/xixixi7777/article/details/148251875

數據湖就像一個“數據水庫”，把企業所有原始數據（結構化的表格、半結構化的日志、非結構化的圖片/視頻）原樣存儲，供后續按需分析。
對比傳統數據倉庫：

	數據倉庫	數據湖
數據	清洗后的結構化數據（如Excel表格）	原始數據（日志、圖片、CSV、JSON）
模式	先定義結構再存數據（Schema-on-Write）	先存數據再按需定義結構（Schema-on-Read）
用途	固定報表、BI分析	機器學習、探索性分析、靈活挖掘

數據湖的3大核心特點

存一切原始數據
- 例子：電商公司把用戶點擊日志、客服錄音、商品圖片都丟進數據湖。
低成本存儲
- 技術：用Hadoop HDFS、Amazon S3、阿里云OSS等分布式存儲，1TB月費僅5美元。
按需分析
- 工具：SQL查詢（Hive、Presto）、機器學習（Spark ML）、可視化（Tableau）。

數據湖典型架構（3層設計）

存儲層：原始數據直接存儲（如AWS S3）。
處理層：清洗、轉換數據（用Spark、Flink）。
服務層：供分析師、數據科學家按需使用（如用Jupyter Notebook分析）。

數據湖 vs 數據沼澤

成功的數據湖：有元數據管理（知道存了什么）、訪問權限控制、數據目錄。
失敗的數據沼澤：數據亂堆不放標簽，找數據像“大海撈針”。
關鍵工具：
元數據管理：Apache Atlas、AWS Glue Data Catalog。
數據治理：Collibra、Alation。

數據湖的3個實際應用

用戶行為分析
- 案例：抖音把每個用戶的點擊、播放、停留時間存入數據湖，訓練推薦算法。
物聯網（IoT）
- 案例：特斯拉將車輛傳感器數據實時寫入數據湖，分析電池健康狀態。
金融風控
- 案例：支付寶用數據湖存儲交易記錄、地理位置、設備信息，實時檢測欺詐交易。

一句話總結

數據湖 =?“原始數據倉庫”，存一切數據，不預設用途，需配合治理工具避免成“數據垃圾場”。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/83096.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/83096.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/83096.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

深度剖析Node.js的原理及事件方式

深度剖析Node.js的原理及事件方式

早些年就接觸過Node.js，當時對于這個連接前后端框架就感到很特別。尤其是以獨特的異步阻塞特性，重塑了了服務器端編程的范式。后來陸陸續續做了不少項目，通過實踐對它或多或少增強了不少理解。今天，我試著將從將從原理層剖析其運行…

閱讀更多...

【AI預測】5月30日尼克斯大戰前瞻：東部黑馬能否再下一城？

【AI預測】5月30日尼克斯大戰前瞻：東部黑馬能否再下一城？

🏀 隨著賽季進入白熱化階段，5月30日尼克斯的這場比賽注定焦點十足。作為東部近年來少有的“黑馬型”球隊，尼克斯用硬朗的防守和團隊配合讓人重新認識了這支老牌勁旅。這篇文章，我們將從數據模型球員表現戰術執行力三個維度&…

閱讀更多...

人工智能賦能基礎教育個性化學習的理論建構與實踐探索

人工智能賦能基礎教育個性化學習的理論建構與實踐探索

一、引言 1.1 研究背景與意義隨著科技的飛速發展，人工智能（Artificial Intelligence，AI）已逐漸成為推動社會進步的重要力量。在教育領域，人工智能的應用正逐步改變傳統的教學模式，為個性化學習提供了新…

閱讀更多...

歷年四川大學計算機保研上機真題

歷年四川大學計算機保研上機真題

2025四川大學計算機保研上機真題 2024四川大學計算機保研上機真題 2023四川大學計算機保研上機真題在線測評鏈接：https://pgcode.cn/school 分數求和題目描述有一分數序列： 2 / 1 2/1 2/1, 3 / 2 3/2 3/2, 5 / 3 5/3 5/3, 8 / 5 8/5 8/5, 13 /…

閱讀更多...

正點原子Z15I ZYNQ 開發板發布！板載PCIe2.0、SPFx2、MIPI CSI等接口，資料豐富！

正點原子Z15I ZYNQ 開發板發布！板載PCIe2.0、SPFx2、MIPI CSI等接口，資料豐富！

正點原子Z15I ZYNQ 開發板發布！板載PCIe2.0、SPFx2、MIPI CSI等接口，資料豐富！ 正點原子Z15I ZYNQ開發板，核心板全工業級設計，主控芯片的型號是XC7Z015CLG485-2I。開發板由核心板＋底板組成，外設…

閱讀更多...

Ubuntu 22.04 上使用 Docker 安裝 RagFlow

Ubuntu 22.04 上使用 Docker 安裝 RagFlow

GitHub地址：添加鏈接描述 RAGFlow 是一款開源的檢索增強生成（Retrieval-Augmented Generation，簡稱 RAG）引擎，旨在通過深度文檔理解技術，結合大語言模型（LLM），為用戶提供高質量、可溯源的問答服務。 ?? 快速入門 RAGFlow 提供了便捷的部署方式，支持 Docker 環境。…

閱讀更多...

【論文閱讀】DanceGRPO: Unleashing GRPO on Visual Generation

【論文閱讀】DanceGRPO: Unleashing GRPO on Visual Generation

DanceGRPO: Unleashing GRPO on Visual Generation 原文摘要研究背景與問題生成模型的突破：擴散模型和整流流等生成模型在視覺內容生成領域取得了顯著進展。核心挑戰：如何讓模型的輸出更好地符合人類偏好仍是一個關鍵問題。現有方法的局限性&#xff1…

閱讀更多...

Milvus可視化客戶端Attu安裝與使用指南

Milvus可視化客戶端Attu安裝與使用指南

導讀：在向量數據庫運維管理中，開發者往往面臨著復雜的命令行操作和繁瑣的API調用挑戰。作為Milvus向量數據庫的官方圖形化管理工具，Attu為這一痛點提供了優雅的解決方案。本文深入解析Attu的核心架構和實用功能，重點介紹其在數據…

閱讀更多...

C# 結合PaddleOCRSharp搭建Http網絡服務

C# 結合PaddleOCRSharp搭建Http網絡服務

Windows打開端口： 控制面板 > 系統和安全 > 防火墻> 高級設置 → 入站規則 → 右側選擇 → 新建規則 → 端口 → 協議類型 TCP→ 端口 using System; using System.Drawing; using System.IO; using System.Net; using System.Text; using System.Threadi…

閱讀更多...

【論文精讀】2024 ECCV--MGLD-VSR現實世界視頻超分辨率(RealWorld VSR)

【論文精讀】2024 ECCV--MGLD-VSR現實世界視頻超分辨率(RealWorld VSR)

文章目錄一、摘要二、問題三、Method3.1 Latent Diffusion Model3.2 Motion-guided Diffusion Sampling3.3 Temporal-aware Decoder Fine-tuning 四、實驗設置4.1 訓練階段4.2 訓練數據貢獻總結論文全稱： Motion-Guided Latent Diffusion for Temporally Consis…

閱讀更多...

初學c語言21（文件操作）

初學c語言21（文件操作）

一.為什么使用文件之前我們寫的程序的數據都是存儲到內存里面的，當程序結束時，內存回收，數據丟失， 再次運行程序時，就看不到上次程序的數據，如果要程序的數據一直保存得使用文件二.文件文件一般可以…

閱讀更多...

歷年廈門大學計算機保研上機真題

歷年廈門大學計算機保研上機真題

2025廈門大學計算機保研上機真題 2024廈門大學計算機保研上機真題 2023廈門大學計算機保研上機真題在線測評鏈接：https://pgcode.cn/school 數字變換過程的最大值與步數題目描述輸入一個數字 n n n，如果 n n n 是偶數就將該偶數除以 2 2 2&…

閱讀更多...

MySql--定義表存儲引擎、字符集和排序規則

MySql--定義表存儲引擎、字符集和排序規則

示例： CREATE TABLE users (id INT PRIMARY KEY,name VARCHAR(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci,email VARCHAR(100) ) ENGINEInnoDB DEFAULT CHARSETutf8mb4 COLLATEutf8mb4_0900_ai_ci;注意事項： 字符集和排序規則可以按列覆蓋表…

閱讀更多...

深耕數字化賽道，聯眾優車以創新風控體系構筑汽車金融護城河

深耕數字化賽道，聯眾優車以創新風控體系構筑汽車金融護城河

近年來，在汽車金融市場規模持續擴大的行業背景下，企業風險管理能力已成為決定市場競爭格局的關鍵要素。面對快速擴張的市場需求，銀保監會2024年發布的《汽車金融公司監管評級辦法》明確要求行業強化風控能力建設，央行《金融科技發…

閱讀更多...

第十九章正則表達式

第十九章正則表達式

第十九章正則表達式文本型數據在所有的類UNIX系統(如 Linux)中會扮演著重要角色，在完全領會這些工具的全部特征之前，要先了解一下工具最為復雜的用法和相關技術：正則表達式。什么是正則表達式簡單地說，正則表達式是一種用于…

閱讀更多...

內存監控方法與要點詳解

內存監控方法與要點詳解

引言在軟件性能測試領域，內存管理是評估系統穩定性和性能的關鍵指標之一。作為軟件測試工程師，我們經常遇到因內存泄漏、內存溢出等問題導致的系統崩潰或性能下降。本文將深入探討性能測試中內存監控的方法和要點，幫助測試團隊更有效地識別…

閱讀更多...

56、Ocelot 概述

56、Ocelot 概述

Ocelot 是一個基于 .NET Core 開發的開源 API 網關，主要用于微服務架構中，為多個后端服務提供統一的訪問入口。它通過集中化管理請求路由、認證、限流、負載均衡等功能，簡化了客戶端與后端服務之間的交互，同時增強了系統的安全性和…

閱讀更多...

如何將多張圖組合到一張圖里同時保留高的分辨率（用PPT+AdobeAcrobat）

如何將多張圖組合到一張圖里同時保留高的分辨率（用PPT+AdobeAcrobat）

文章目錄一、用PPT排版得到一頁排布了很多圖片的PPT二、用AdobeAcrobat打開pdf文件三、最后得到的圖片一、用PPT排版得到一頁排布了很多圖片的PPT 步驟如下 ①將幻燈片大小的長設置為17.2，寬根據圖像多少進行調整，我這里是10 幻燈片大小的長設置步驟&…

閱讀更多...

【Web應用】若依框架：基礎篇12 項目結構

【Web應用】若依框架：基礎篇12 項目結構

文章目錄 ?前言?一、課程講解🌟1、尋找合適的對象?1) ?二、怎樣選擇設計模式？🌟1、尋找合適的對象?1) ?三、怎樣使用設計模式？🌟1、尋找合適的對象?1) ?總結標題詳情作者JosieBook頭銜CSDN博客專家資格、阿里…

閱讀更多...

SolidWorks 文件打開時電腦卡頓問題分析與解決

SolidWorks 文件打開時電腦卡頓問題分析與解決

最近遇到一個問題就是我點擊solid work的文件的時候會將電腦卡住然后電腦開始飛速的加載內存，鼠標移動很卡頓解決辦法： 1.找到資源管理器當遇到這種情況時，可以嘗試通過資源管理器來解決問題。首先，找到任務管理器&#xff08…

閱讀更多...

最新文章