數據庫管理-第332期 大數據已死,那什么當立?(20250602)

數據庫管理332期 2025-06-02

  • 數據庫管理-第332期 大數據已死,那什么當立?(20250602)
    • 1 概念還是技術
    • 2 必然的大數據量
    • 3 離線到實時
    • 4 未來
    • 總結

數據庫管理-第332期 大數據已死,那什么當立?(20250602)

作者:胖頭魚的魚缸(尹海文)
Oracle ACE Pro: Database
PostgreSQL ACE Partner10年數據庫行業經驗
擁有OCM 11g/12c/19c、MySQL 8.0 OCP、Exadata、CDP等認證
墨天輪MVP,ITPUB認證專家
圈內擁有“總監”稱號,非著名社恐(社交恐怖分子)公眾號:胖頭魚的魚缸
CSDN:胖頭魚的魚缸(尹海文)
墨天輪:胖頭魚的魚缸
ITPUB:yhw1809。
除授權轉載并標明出處外,均為“非法”抄襲

3498ff20bcec87e9052f961f06737f3.png
前兩天在數據庫圈歷史學家司馬遼太杰的朋友圈看到一段話“每隔一段時間,就有人傳大數據已死的話題…”,確實好像每隔一段時間都會有人提出這個論點,更有甚者,會有人提出沒有數據庫該承載那么大的數據,今天我也提出下我的一些觀點。

1 概念還是技術

首先,大數據到底是一種概念還是技術,也許在曾幾何時,大數據就等同于Hadoop,在那段實踐中大數據被看做一種技術,利用Hadoop的大數據量存放與處理能力來解決大規模數據的復雜分析需求。
但是隨著軟件的發展,比如搜索與數據分析引擎、列式存儲數據庫、分布式等技術的擴充;加上硬件的發展,計算(CPU)、緩存(內存)、IO(SSD)的巨大進步。使得實現大數據量的分析計算可以不再需要復雜臃腫的Hadoop了。
回到本小節題目,我認為大數據,在當下的大數據是一種概念,或者說是一種場景需求,簡單來說就是從海量數據中獲取需要的分析結果。

2 必然的大數據量

為什么有人不相信可能出現那么大的數據量,無外乎有以下一些原因:

  • 所在的公司/企業業務量就那么大,想象不出什么樣的業務會帶來那么大的數據量
  • 認為歷史數據沒有價值,僅保留很短時間內的活動數據,整體數據就很小了
  • 業務拆分的比較細,每部分業務的數據量都不大,自己也只負責這部分數據
  • 自認為自己研發能力出眾,不會產生那么多冗余數據

我在類互聯網公司干過,也在傳統行業摸爬滾打過,我來說說對上面這些原因自己的見解:

  • 確實有業務,光是基礎數據的數據量就能超出你的想象,而且這些數據還有不少是需要頻繁變更的,更別說基于這些基礎數據構建起來的整體業務的數據量
  • 歷史數據是寶貝,先不說可以用于審計溯源,還可以通過分析得出一些很有價值的東西,比如趨勢預測、反詐、構建知識庫、模型訓練等等
  • 無論業務拆的多細,我們最終的分析需求是需要把所有數據串聯起來,這樣整體的數據量就不會小
  • 菜是原罪,而且世界是個巨大的草臺班子,不是每個人都那么的優秀

3 離線到實時

這里還是舉個例子,以前家里寬帶不能上網了,打運營商電話報障投訴,很大概率是不能立馬給你說出故障原因并給出解決時限的,有些故障處理個十天半個月也不是問題,甚至有時候運營商的客服和故障處理人員態度還不大好。但現在不一樣,很多時候在你電話報障的時候,就能直接給你說出故障原因,同時網絡維護人員會很快給你打電話并同步故障處理進度,態度非常好。為什么會有這種變化,其主要原因一是上級通信主管單位的要求,運營商必須保證網絡連通性;二是現在投訴可以直接電話到工信部,這樣的投訴再下放到本地,帶來的影響可會被放大很多。
運營商的數據就是上一節說到的基礎數據都是海量且實時變化的,排障就是在這些海量基礎數據之上結合其他相關大規模流轉數據找到故障點并反饋一線快速處置,這就是一個典型的HTAP場景了。如果還是用以前相對臃腫的Hadoop來解決類似的問題,那么ETL的過程所耗費的時間往往就已經讓故障工單超時了。

4 未來

其實大數據的近實時在線分析和離線分析兩種場景并不是有你無他的,兩種場景根據需求不同是同時存在的,只不過如前一節所說的一樣,只不過很多原來沒有時間要求的計算分析現在實時性要求越來越高了。依托軟硬件的發展與合理的應用與數據層架構設計,可以非常便捷的實現HTAP的場景需求,另一方面我覺得以后離線大數據分析中ETL的部分完全可以交給AI來做,不僅性能更好,還能敏捷的變更需求,如果再將數據排布一并交給AI,那么離線大數據分析的性能會有一個質的提升。

總結

大數據是數據量越來越大,實時性要求越來越高環境下的一種概念或者場景需求。
老規矩,知道寫了些啥。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/908067.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/908067.shtml
英文地址,請注明出處:http://en.pswp.cn/news/908067.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

相機--RGBD相機

教程 分類原理和標定 原理 視頻總結 雙目相機和RGBD相機原理 作用 RGBD相機RGB相機深度; RGB-D相機同時獲取兩種核心數據:RGB彩色圖像和深度圖像(Depth Image)。 1. RGB彩色圖像 數據格式: 標準三通道矩陣&#…

神經符號集成-三篇綜述

講解三篇神經符號集成的綜述,這些綜述沒有針對推薦系統的,所以大致過一下,下一篇帖子會介紹針對KG的兩篇綜述。綜述1關注的是系統集成和數據流的宏觀模式“是什么”;綜述3關注的是與人類理解直接相關的中間過程和決策邏輯的透明度…

window/linux ollama部署模型

模型部署 模型下載表: deepseek-r1 win安裝ollama 注意去官網下載ollama,這個win和linux差別不大,win下載exe linux安裝ollama 采用docker方式進行安裝: OLLAMA_HOST=0.0.0.0:11434 \ docker run -d \--gpus all \-p 11434:11434 \--name ollama \-v ollama:/root/.ol…

計算A圖片所有顏色占B圖片紅色區域的百分比

import cv2 import numpy as npdef calculate_overlap_percentage(a_image_path, b_image_path):# 讀取A組和B組圖像a_image cv2.imread(a_image_path)b_image cv2.imread(b_image_path)# 將圖像從BGR轉為HSV色彩空間,便于顏色篩選a_hsv cv2.cvtColor(a_image, c…

每日算法 -【Swift 算法】盛最多水的容器

盛最多水的容器:Swift 解法與思路分析 📌 問題描述 給定一個長度為 n 的整數數組 height,每個元素表示在橫坐標 i 處的一條垂直線段的高度。任意兩條線段和 x 軸構成一個容器,該容器可以裝水,水量的大小由較短的那條…

云原生安全基礎:Linux 文件權限管理詳解

🔥「炎碼工坊」技術彈藥已裝填! 點擊關注 → 解鎖工業級干貨【工具實測|項目避坑|源碼燃燒指南】 在云原生環境中,Linux 文件權限管理是保障系統安全的核心技能之一。無論是容器化應用、微服務架構還是基礎設施即代碼(IaC&#xf…

TypeScript 中的字面量類型(Literal Types)

在 TypeScript 中,字面量類型(Literal Types)是一種特殊的類型,它允許你將變量的類型限制為某個具體的值(如特定的字符串、數字或布爾值),而不僅僅是寬泛的類型(如 string、number&a…

晶臺光耦在手機PD快充上的應用

光耦(光電隔離器)作為關鍵電子元件,在手機PD快充中扮演信號隔離與傳輸的“安全衛士”。其通過光信號實現電氣隔離,保護手機電路免受高電壓損害,同時支持實時信號反饋,優化充電效率。 晶臺品牌推出KL817、KL…

python學習打卡day43

DAY 43 復習日 作業: kaggle找到一個圖像數據集,用cnn網絡進行訓練并且用grad-cam做可視化 浙大疏錦行 數據集使用貓狗數據集,訓練集中包含貓圖像4000張、狗圖像4005張。測試集包含貓圖像1012張,狗圖像1013張。以下是數據集的下…

大數據與數據分析【數據分析全棧攻略:爬蟲+處理+可視化+報告】

- 第 100 篇 - Date: 2025 - 05 - 25 Author: 鄭龍浩/仟墨 大數據與數據分析 文章目錄 大數據與數據分析一 大數據是什么?1 定義2 大數據的來源3 大數據4個方面的典型特征(4V)4 大數據的應用領域5 數據分析工具6 數據是五種生產要素之一 二 …

uniapp 開發企業微信小程序,如何區別生產環境和測試環境?來處理不同的服務請求

在 uniapp 開發企業微信小程序時,區分生產環境和測試環境是常見需求。以下是幾種可靠的方法,幫助你根據環境處理不同的服務請求: 一、通過條件編譯區分(推薦) 使用 uniapp 的 條件編譯 語法,在代碼中標記…

青少年編程與數學 02-020 C#程序設計基礎 15課題、異常處理

青少年編程與數學 02-020 C#程序設計基礎 15課題、異常處理 一、異常1. 異常的分類2. 異常的作用小結 二、異常處理1. 異常處理的定義2. 異常處理的主要組成部分3. 異常處理的作用小結 三、C#異常處理1. 異常的基本概念2. 異常處理的關鍵字3. 異常處理的流程4. 自定義異常5. 異…

云原生時代 Kafka 深度實踐:05性能調優與場景實戰

5.1 性能調優全攻略 Producer調優 批量發送與延遲發送 通過調整batch.size和linger.ms參數提升吞吐量: props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384); // 默認16KB props.put(ProducerConfig.LINGER_MS_CONFIG, 10); // 等待10ms以積累更多消息ba…

在 Dify 項目中的 Celery:異步任務的實現與集成

Celery 是一個強大而靈活的分布式任務隊列系統,旨在幫助應用程序在后臺異步運行耗時的任務,提高系統的響應速度和性能。在 Dify 項目中,Celery 被廣泛用于處理異步任務和定時任務,并與其他工具(如 Sentry、OpenTelemet…

Pytorch Geometric官方例程pytorch_geometric/examples/link_pred.py環境安裝教程及圖數據集制作

最近需要訓練圖卷積神經網絡(Graph Convolution Neural Network, GCNN),在配置GCNN環境上總結了一些經驗。 我覺得對于初學者而言,圖神經網絡的訓練會有2個難點: ①環境配置 ②數據集制作 一、環境配置 我最初光想…

2025年微信小程序開發:AR/VR與電商的最新案例

引言 微信小程序自2017年推出以來,已成為中國移動互聯網生態的核心組成部分。根據最新數據,截至2025年,微信小程序的日活躍用戶超過4.5億,總數超過430萬,覆蓋電商、社交、線下服務等多個領域(WeChat Mini …

互聯網向左,區塊鏈向右

2008年,中本聰首次提出了比特幣的設想,這打開了去中心化的大門。 比特幣白皮書清晰的描述了去中心化支付的解決方案,并分別從以下幾個方面闡述了他的理念: 一、由轉賬雙方點對點的通訊,而不通過中心化的第三方&#xf…

PV操作的C++代碼示例講解

文章目錄 一、PV操作基本概念(一)信號量(二)P操作(三)V操作 二、PV操作的意義三、C中實現PV操作的方法(一)使用信號量實現PV操作代碼解釋: (二)使…

《對象創建的秘密:Java 內存布局、逃逸分析與 TLAB 優化詳解》

大家好呀!今天我們來聊聊Java世界里那些"看不見摸不著"但又超級重要的東西——對象在內存里是怎么"住"的,以及JVM這個"超級管家"是怎么幫我們優化管理的。放心,我會用最接地氣的方式講解,保證連小學…

簡單實現Ajax基礎應用

Ajax不是一種技術,而是一個編程概念。HTML 和 CSS 可以組合使用來標記和設置信息樣式。JavaScript 可以修改網頁以動態顯示,并允許用戶與新信息進行交互。內置的 XMLHttpRequest 對象用于在網頁上執行 Ajax,允許網站將內容加載到屏幕上而無需…