國內公司把數據湖做成了數據庫

在做多年的數據倉庫項目,數據湖也在做,但是做完發現,這個不是傳統數據庫里面的ODS嗎?

好多公司做數據湖,就是把數據湖做成了ODS層(貼源數據層),難道真的數據湖就是這樣等于ODS嗎?最近在接觸國外一些數據湖項目,才發現,我們還是傳統的思路。

數據湖在我們的理解里面,最多的詞,"流批一體",“iceberg,hudi”,“存算分離”,是不是很多公司都是這樣做的。但是這個真的數據湖嗎。你問他數據湖有那些特點,他會說,CDC,spark,flink,流批一體,三劍客(iecberg,hudi和dealta,)。ppt 畫的內容重點都在講cdc ,flink 里面各種算子。等等。數據湖是這樣嗎,銷售在講數據湖,ppt 畫一個湖,湖里有個貓在釣魚,釣到魚,裝到數據倉里面。大數人理解都是這樣,可是,我問湖里面有沒有螃蟹(非結構化),釣到螃蟹放到哪里,這些人都傻眼了,還有一些人,硬套iceberg ,社區各種問iceberg 怎么存非結構化。

我們數據湖做出來的內容,還是ODS,數倉,數據集市,報表這一套流程。無非從技術上,多了cdc,實時計算,flink,存算分離,doris ,hadoop+MPP 這一大堆技術。并且ODS大部分就是做數倉的團隊在維護,業務人員想用數據,都是給做成報表,或者做成數據接口API,更有把數據卸載另外一個數據庫,給到業務系統。

最近在接觸一個國外的一家公司數據湖項目,先說一些了解的情況,用的技術都差不都,用的微軟的Azure,對象存儲,微軟一套開發工廠+pgsql(數倉)+BI。技術沒有啥新奇的。具體說一下他們數據湖怎么做的。

他們對數據湖的概念,是業務系統不是IT部門做數倉一個團隊搞得。數據湖,是所有團隊參與的。比如:他們有數據湖管理平臺。主要數據接入,數據權限管理,數據大部分是業務系統上傳的csv文件,個別有json.也有從數據庫cdc數據。他們會結合對象存儲。劃分權限。每個部門或者個人,都有你文件夾的權限。你可以上傳你部門的數據,但是別人是看不到的,如果數倉需要拿你的數據,需要你給一個路徑,或者文件地址。類似百度網盤。里面會有數據文件。需要處理,會有專門人處理數據。第二:功能就是可以上傳任何數據,csv,圖片,視頻,Parquet,Avro ,啥格式都有。如果數倉要數據,或者ML算法那邊需要數據,就會給一個目錄路徑。第三個:就是對每個文件有生命周期或者權限記錄跟蹤,這個文件分享后,誰有權限操作,給誰用。文件是離線的,還是實時更新的。都有日志記錄。

他們的平臺,其實沒有啥新奇,但是對數據湖的理解。這里面的權限,支持各種文件的錄入。數據文件的分享交互,而不是數據庫,表。他們給你的是一個元數據。里面描述的文件路徑,加工方式,數據文件格式。當然里面也有iceberg表,但是它只是數據文件的一種,而給你的只是文件目錄,里面記錄Parquet 格式的文件,但是你可以從元數據看到,表的信息。至于說,你怎么加工,你只管去這里面獲取數據就行。如果是離線的,里面每天會生成文件夾。按照日期定時生成目錄。元數據里面會告訴你數據的頻度。你可以根據情況使用。

其實他們數據湖的數據還是各個業務系統的(所屬權)。而不是我們在hive 里面建設好幾個庫,或者一個庫,在表的前面加上業務編號。這些數據采集后,屬于誰的,其實都沒有明確。我們因為是數倉團隊接入的,理論上還是數倉的。其他團隊要用,或者修改,你肯定不愿意。你怕把你的ods給整壞了。

他們的基于數據目錄+元數據 平臺管理。只是給你分享數據目錄,這個概念,我覺得應該才是數據湖的形狀屬性。數據湖一定是,魚蝦,海豚,鯊魚,啥都應該有。不是兩個數據庫相互導數據。數據湖一定是多部門參與,多團隊共建。而不是某一個團隊的專屬。

最后總結:1.數據湖的數據接入,應該多樣性,csv,cdc,數據文件,http等等,都應該可以對接。2.數據湖還是要以文件存儲,什么文件都可以,要有權限管理。3.基于數據元的管理,要對文件的描述,不管是結構化,非機構,都應該有元數據描述。4.可以分享數據文件,數據文件應該還是有歸屬權,是誰的數據文件,就是誰的資產,你想給誰,可以分享。共同參與。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/912384.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/912384.shtml
英文地址,請注明出處:http://en.pswp.cn/news/912384.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python 數據分析與可視化 Day 6 - 可視化整合報告實戰

🎯 今日目標 整合數據分析與可視化結果生成結構化報告用代碼自動生成完整的圖文分析文檔熟悉 Jupyter Notebook / Markdown 圖表 報告生成流程 🧩 一、項目背景:學生成績分析報告 數據來源:students_cleaned.csv(含姓…

服務器、樹莓派/香橙派部署HomeAssistant與小愛音箱聯動

HomeAssistant功能介紹與多平臺部署實戰:CentOS服務器、樹莓派、香橙派部署及小愛音箱聯動控制 一、HomeAssistant簡介 HomeAssistant是一款基于Python開發的開源智能家居自動化平臺,它最大的特點是高度集成和自定義。通過HomeAssistant,用…

內存泄漏系列專題分析之二十四:內存泄漏測試Camera相機進程內存指標分布report概述

【關注我,后續持續新增專題博文,謝謝!!!】 上一篇我們講了: 這一篇我們開始講: 內存泄漏系列專題分析之二十四:內存泄漏測試Camera相機進程內存指標分布report概述 目錄 一、問題背景 二、:內存泄漏測試Camera相機進程內存指標分布report概述 2.1:Camera領域相機進…

華為堆疊理論及配置

一,堆疊基本概念 1.1交換機角色 主交換機(Master):主交換機負責管理整個堆疊。**堆疊系統中只有一臺主交換機。**備交換機(Standby):備交換機是主交換機的備份交換機。堆疊系統中只有一臺備交換…

【數字經濟】數據即產品架構在數字經濟時代的應用

數據即產品架構在數字經濟時代的應用 在數字經濟中,數據已成為核心生產要素,“數據即產品”(Data-as-a-Product)架構通過系統化封裝原始數據,實現其可交易、可交付的產品化價值。以下是其架構設計與應用解析&#xff…

MySQL 中的時間序列數據分析與處理

在互聯網應用和企業業務系統中,特別是現在當下環境電商以及跨境電商火爆的情況下,時間序列數據無處不在,如電商訂單時間、用戶登錄日志、設備監控數據等。MySQL 作為主流數據庫,具備強大的時間序列數據處理能力。本文將結合電商訂…

STM32——MDK5編譯和串口下載程序+啟動模式

一、MDK5編譯 1.1 編譯中間文件 還可通過 .map文件計算程序大小 中間文件 > 下載到開發板中的文件 > .hex 二、串口下載 2.1 前提須知 2.2 串口硬件鏈接(M3、M4系列) M7無串口下載 PC端需安裝 CH340 USB 虛擬串口驅動:CH340 USB 虛…

HyperWorks仿真案例:拓撲優化與激光增材制造的完美結合挖掘輕量化結構的新潛力

許多技術創新都基于自然界中生物結構的設計。通過不斷進化,大自然在數百萬年間已學會根據各種形狀的功能對形狀進行調整,從而最大程度地提高效率。當工程師設法構建堅固而輕盈的結構時,這些自然界中的示例可以提供重要線索。在目前的研究項目…

在Windows系統部署本地智能問答系統:基于百度云API完整教程

引言 在人工智能時代,搭建私有化智能問答系統能有效保護數據隱私并提升響應效率。本教程將手把手教你在Windows環境中,通過百度云API構建專屬智能問答系統,全程無需服務器,僅需本地計算機即可運行! 一、環境準備 系統…

Vue的watch函數實現

<script setup> import { watch, ref, reactive, toRefs } from vue;const count ref(0); const obj reactive({name: 張三,age: 18 });// 我們可以使用toRefs&#xff0c;將reactive對象中的屬性轉換為ref對象&#xff0c;保持響應性&#xff01;&#xff01; const {…

Tomcat 安裝使用教程

&#x1f4cc; 什么是 Tomcat&#xff1f; Apache Tomcat 是一個開源的 Java Servlet 容器&#xff0c;也是運行 Java Web 應用最常用的服務器之一&#xff0c;支持 Servlet、JSP 等規范。 &#x1f9f0; 一、準備工作 1. 系統要求 操作系統&#xff1a;Windows / Linux / m…

【邀請】點擊邀請鏈接參加阿里云訓練營活動,完成學習送禮品+戶外折疊凳,一個小時就能完成

點擊邀請鏈接參加阿里云訓練營活動&#xff0c;完成學習送禮品戶外折疊凳&#xff0c;快的話一個小時就能完成。 7月28日23:59前完成。 OSS進階應用與成本優化訓練營 禮品如下&#xff1a; 包尖鋼筆/祈福小神仙積木/雨傘/不銹鋼餐具隨機發放 戶外折疊凳

用戶行為序列建模(篇六)-【阿里】DSIN

簡介 DSIN&#xff08;Deep Session Interest Network&#xff09;是阿里巴巴于2019年提出的點擊率預估模型。相比于DIN、DIEN&#xff0c;考慮了用戶行為序列的內在結構&#xff08;序列是由session組成的&#xff0c;在每個session內&#xff0c;用戶行為是高度同構的&#…

現代Web表情選擇器組件:分類系統與實現詳解

你好呀&#xff0c;我是小鄒。今天給博客的emoji表情進行了歸類、補充&#xff0c;具體優化如下。 表情選擇器的核心價值在于其分類系統。本文將深入解析表情分類體系的設計與實現&#xff0c;通過完整代碼示例展示如何構建一個專業級的表情選擇器組件。 一、表情分類系統設計…

華為云Flexus+DeepSeek征文 |華為云ModelArts Studio集成OpenAI Translator:開啟桌面級AI翻譯新時代

華為云FlexusDeepSeek征文 |華為云ModelArts Studio集成OpenAI Translator&#xff1a;開啟桌面級AI翻譯新時代 引言一、ModelArts Studio平臺介紹華為云ModelArts Studio簡介ModelArts Studio主要特點 二、OpenAI Translator介紹openai-translator簡介openai-translator主要特…

GitHub 趨勢日報 (2025年06月27日)

&#x1f4ca; 由 TrendForge 系統生成 | &#x1f310; https://trendforge.devlive.org/ &#x1f310; 本日報中的項目描述已自動翻譯為中文 &#x1f4c8; 今日獲星趨勢圖 今日獲星趨勢圖 817 twenty 655 awesome 476 free-for-dev 440 Best-websites-a-programmer-shoul…

Java語法通關秘籍:this、構造方法到String核心精粹

文章目錄 &#x1f50d; **一、就近原則與this關鍵字**1. **成員變量**2. **局部變量** &#x1f6e0;? **二、構造方法&#xff08;構造器&#xff09;**1. **標準格式**2. **有參構造實戰**3. **靈魂三問** ? &#x1f4e6; **三、JavaBean黃金標準**&#x1f9e0; **四、對…

@Cacheable 等緩存注解是不是也用到了 AOP?

Spring 的聲明式緩存注解&#xff08;Cacheable, CachePut, CacheEvict 等&#xff09;是 AOP 技術在實際應用中最強大、最經典的范例之一&#xff0c;其原理與 Transactional 非常相似。 核心思想&#xff1a;一個智能的“秘書” 你可以把 Cacheable 的 AOP 實現想象成一個極…

解鎖云原生微服務架構:搭建與部署實戰全攻略

目錄 一、引言二、微服務拆分2.1 拆分的必要性2.2 拆分方法2.3 注意事項 三、服務注冊與發現3.1 概念與原理3.2 常用組件介紹3.3 實踐案例 四、負載均衡4.1 作用與原理4.2 實現方式4.3 負載均衡算法4.4 案例與代碼實現4.4.1 項目依賴配置4.4.2 配置 Ribbon4.4.3 代碼實現負載均…

Python 數據分析與可視化 Day 7 - 可視化整合報告實戰

好的&#xff0c;我們進入&#xff1a; &#x1f9e0; 第5周 第7天 &#x1f3af; 主題&#xff1a;測試復盤 項目封裝實戰 ? 今日目標 回顧第5周數據分析與可視化核心知識對整個“學生成績分析系統”進行項目封裝與模塊化拆分增加命令行參數支持&#xff0c;提升可復用性…