數據湖就像一個“數據水庫”,把企業所有原始數據(結構化的表格、半結構化的日志、非結構化的圖片/視頻)原樣存儲,供后續按需分析。
對比傳統數據倉庫:
數據倉庫 | 數據湖 | |
---|---|---|
數據 | 清洗后的結構化數據(如Excel表格) | 原始數據(日志、圖片、CSV、JSON) |
模式 | 先定義結構再存數據(Schema-on-Write) | 先存數據再按需定義結構(Schema-on-Read) |
用途 | 固定報表、BI分析 | 機器學習、探索性分析、靈活挖掘 |
數據湖的3大核心特點
- 存一切原始數據
- 例子:電商公司把用戶點擊日志、客服錄音、商品圖片都丟進數據湖。
- 低成本存儲
- 技術:用Hadoop HDFS、Amazon S3、阿里云OSS等分布式存儲,1TB月費僅5美元。
- 按需分析
- 工具:SQL查詢(Hive、Presto)、機器學習(Spark ML)、可視化(Tableau)。
數據湖典型架構(3層設計)
- 存儲層:原始數據直接存儲(如AWS S3)。
- 處理層:清洗、轉換數據(用Spark、Flink)。
- 服務層:供分析師、數據科學家按需使用(如用Jupyter Notebook分析)。
數據湖 vs 數據沼澤
- 成功的數據湖:有元數據管理(知道存了什么)、訪問權限控制、數據目錄。
- 失敗的數據沼澤:數據亂堆不放標簽,找數據像“大海撈針”。
關鍵工具: - 元數據管理:Apache Atlas、AWS Glue Data Catalog。
- 數據治理:Collibra、Alation。
數據湖的3個實際應用
- 用戶行為分析
- 案例:抖音把每個用戶的點擊、播放、停留時間存入數據湖,訓練推薦算法。
- 物聯網(IoT)
- 案例:特斯拉將車輛傳感器數據實時寫入數據湖,分析電池健康狀態。
- 金融風控
- 案例:支付寶用數據湖存儲交易記錄、地理位置、設備信息,實時檢測欺詐交易。
一句話總結
數據湖 =?“原始數據倉庫”,存一切數據,不預設用途,需配合治理工具避免成“數據垃圾場”。