【大數據技術棧】數據管理范疇常用大數據技術棧

一、技術棧分層架構

大數據技術棧通常分為四個核心層級:

  1. 數據采集層
    負責多源異構數據的實時/批量采集

    • 日志采集: F l u m e Flume Flume L o g s t a s h Logstash Logstash
    • 消息隊列: K a f k a Kafka Kafka R a b b i t M Q RabbitMQ RabbitMQ
    • 數據庫同步: S q o o p Sqoop Sqoop C a n a l Canal Canal
  2. 數據存儲層
    解決海量數據的分布式存儲問題
    H D F S (分布式文件系統) HDFS \text{(分布式文件系統)} HDFS(分布式文件系統)
    N o S Q L 數據庫: C a s s a n d r a , H B a s e NoSQL \text{數據庫:} Cassandra, \ HBase NoSQL數據庫:Cassandra,?HBase
    云存儲:? S 3 , A z u r e B l o b 云存儲:\ S3, \ Azure \ Blob 云存儲:?S3,?Azure?Blob

  3. 數據處理層
    實現批流融合計算

    • 批處理: S p a r k ( R D D / D a t a F r a m e ) Spark \ (RDD/DataFrame) Spark?(RDD/DataFrame), M a p R e d u c e MapReduce MapReduce
    • 流處理: F l i n k Flink Flink, S t o r m Storm Storm, S p a r k S t r e a m i n g Spark \ Streaming Spark?Streaming
    • SQL引擎: H i v e Hive Hive, I m p a l a Impala Impala
  4. 數據應用層
    支撐上層業務場景
    機器學習:? S p a r k M L l i b , T e n s o r F l o w 機器學習:\ Spark \ MLlib, \ TensorFlow 機器學習:?Spark?MLlib,?TensorFlow
    可視化:? T a b l e a u , K i b a n a 可視化:\ Tableau, \ Kibana 可視化:?Tableau,?Kibana
    調度系統:? A i r f l o w , A z k a b a n 調度系統:\ Airflow, \ Azkaban 調度系統:?Airflow,?Azkaban

二、能級演進背景

技術發展遵循"存儲→計算→智能"的三階躍遷:

  1. 基礎存儲能級(2003-2010)
    Google發布 G F S GFS GFS(2003)和 B i g t a b l e Bigtable Bigtable(2006)論文,奠定分布式存儲理論基礎。Hadoop實現開源化,解決 P B PB PB級數據存儲瓶頸。

  2. 實時計算能級(2010-2016)
    數據時效性需求催生Lambda架構:
    批處理層 + 速度層 → 服務層 \text{批處理層} + \text{速度層} \rightarrow \text{服務層} 批處理層+速度層服務層
    Spark內存計算將批處理性能提升 100 × 100\times 100×,Storm實現毫秒級延遲。

  3. 智能分析能級(2016至今)
    云原生架構推動技術融合:

    • 計算存儲分離: S n o w f l a k e Snowflake Snowflake架構
    • 批流一體: F l i n k S t a t e f u l C o m p u t i n g Flink \ Stateful \ Computing Flink?Stateful?Computing
    • AI融合: T e n s o r F l o w o n S p a r k TensorFlow \ on \ Spark TensorFlow?on?Spark
三、典型技術組合
場景技術棧組合吞吐量
實時風控 K a f k a + F l i n k + R e d i s Kafka + Flink + Redis Kafka+Flink+Redis > 100 K e v e n t s / s >100K \ events/s >100K?events/s
數倉建設 H i v e + S p a r k + H D F S Hive + Spark + HDFS Hive+Spark+HDFS E B EB EB級存儲
用戶畫像 F l i n k + C l i c k H o u s e + T e n s o r F l o w Flink + ClickHouse + TensorFlow Flink+ClickHouse+TensorFlow千維特征實時計算
四、發展趨勢
  1. Serverless化 A W S G l u e AWS \ Glue AWS?Glue等無服務架構降低運維成本
  2. AI融合深化 P y T o r c h B i g G r a p h PyTorch \ BigGraph PyTorch?BigGraph支持萬億級圖計算
  3. 隱私計算:聯邦學習與差分隱私技術保障數據安全

當前技術棧已從單一工具演進為生態體系,需根據 數據規模 × 時效性 × 業務復雜度 數據規模 \times 時效性 \times 業務復雜度 數據規模×時效性×業務復雜度三維度選擇適配方案。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/89294.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/89294.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/89294.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

安全左移(Shift Left Security):軟件安全的演進之路

文章目錄 一、背景:傳統安全的尷尬處境二、安全左移:讓安全成為開發的“第一等公民”三、安全左移的關鍵實施階段1. 需求階段:嵌入安全需求建模2. 設計階段:威脅建模與架構審計3. 編碼階段:安全編碼規范與靜態分析4. 構…

固定債可以賣call嗎

我們都知道如果持有tlt,可以賣call來賺取時間價值,如果我買固定到期的美債而不是etf,有類似的操作嗎,我可以賣call嗎 以下是關于直接持有固定到期美債并嘗試賣出看漲期權的詳細分析: 一、直接持有美債與ETF&#xff08…

fish安裝node.js環境

為什么強調fish shell,因為fish shell的緣故,不能直接執行node.js官網的命令 好的,您遇到了一個非常典型且重要的問題。請仔細閱讀我的分析,這能幫您徹底解決問題。 問題診斷 您看到的所有錯誤,歸根結底有兩個核心原…

記一次Ubuntu22安裝MongoDB8并同步本地數據過程

1. 效果展示 2. 安裝MongoDB 8 根據官方文檔https://www.mongodb.com/zh-cn/docs/manual/tutorial/install-mongodb-on-ubuntu/一頓操作即可 2.1 配置微調支持遠程訪問 修改配置文件,默認/etc/mongod.conf # network interfaces net:port: 27017bindIp: 0.0.0.02.2 新增adm…

HarmonyOS應用開發高級認證知識點梳理 (三)狀態管理V2裝飾器核心規則

以下是針對HarmonyOS應用開發高級認證備考的?狀態管理V2裝飾器核心規則?知識點系統梳理: 一、核心裝飾器分類與功能 1. ?組件聲明裝飾器? ComponentV2? (1)基礎定義與限制 功能定位? 用于裝飾自定義組件,啟用V2狀態管理能力,需配…

SAP資產記賬相關業務成本中心為空的問題

用戶在資產記賬時,發現字段“成本中心”是空且為灰色的,并沒有顯示資產對應的成本中心,如下圖所示: 首先,關于資產購置記賬的相關業務,成本中心要不要顯示?其實是可以不顯示的,它是來…

智源大會AI安全論壇:深挖風險紅線,探討應對措施

6月7日,在與安遠AI聯合主辦的智源大會“AI安全論壇”上,來自MIT、清華、復旦、人大、智源、多倫多大學、新加坡管理大學、Redwood Research、瑞萊智慧和安遠AI 的學者與技術專家同臺,以“AI安全”為核心議題,從主旨報告&#xff0…

電機控制的一些筆記

1. 電角度和機械角度 電角度 機械角度 * 磁極對數 機械角度就是實際的空間幾何角度,范圍是0-360 https://blog.csdn.net/leekay123/article/details/108655482 https://www.bilibili.com/video/BV11Q4y1Y7kR/?spm_id_from333.788.recommend_more_video.1&vd…

c#手動編譯

一、配置環境變量 點擊環境變量,在用戶變量的path進行新建,點擊編輯 點擊新建 點擊新建 添加文件目錄 這是我的可能不一樣,C:\Windows\Microsoft.NET\Framework64\v4.0.30319 輸入 點擊確定,就可以了 二、建立cs文件 代碼實例…

pcap流量包分析工具設計

在復雜的網絡世界中,數據包是信息的載體,但也可能成為風險的源頭。無論是開發者調試接口,還是安全人員排查異常,都需要一個能夠看透數據本質的“眼睛”。然而,專業的網絡分析工具往往過于復雜,不適合快速定…

Qt 安裝與項目創建

一、Qt 介紹 1. Qt是什么? Qt是一個跨平臺的 C 開發庫,主要用來開發圖形用戶界面(Graphical User Interface,GUI)程序,當然也可以開發不帶界面的命令行(Command User Interface,CU…

基于注意力機制的方法預測的體重

我們有一些已知的身高(作為鍵 K K K)和對應的體重(作為值 V V V)。現在,我們想使用一種基于注意力機制的方法來“查詢”一個特定身高(比如 170cm)對應的體重。雖然這通常不是注意力機制的典型…

Modbus TCP 進階:基于以太網的遠程設備控制(一)

Modbus TCP 基礎回顧 ** 在工業自動化領域,Modbus TCP 是一種廣泛應用的通信協議,它基于以太網,為設備之間的通信搭建了橋梁,實現了遠程設備的高效控制。Modbus TCP 是 Modbus 協議家族中的一員,它在傳統 Modbus 協議…

linux魔術字定位踩內存總結

0,數據被改寫時我們需要怎么定位,我們首先需要確認數據是邏輯上被改寫還是踩內存被改寫的。 1,當數據被踩時,也就是出現數據異常時,并且可以穩定復現時,我們確認時踩固定內存時,我們可以使用魔術字定位問題。 代碼舉例查看確認。 #include <stdio.h> #include…

淺談Docker Kicks in的應用

正因為傳統部署的麻煩&#xff0c;我們希望減少整個安裝過程&#xff0c;將其簡單化&#xff0c;以下介紹兩個思路&#xff1a; 思路一&#xff1a;安裝 Docker 后安裝 Ghost&#xff0c;并且直接暴露 80 端口&#xff0c;此時所有請求由 Docker 內的 Express 服務器處理&…

【Rust + Actix Web】現代后端開發:從零構建高并發 Web 應用

目錄 項目概述環境準備項目創建與依賴配置系統架構設計核心代碼實現1. 數據庫模型 (src/models.rs)2. 應用狀態管理 (src/state.rs)3. 核心業務邏輯 (src/handlers.rs)4. 主應用入口 (src/main.rs) 高并發優化策略1. 異步處理模型2. 連接池配置優化3. 緩存策略設計 性能測試結果…

2025java面試題整理通俗易懂好記

一、Java 基礎 1. JVM 相關 Q&#xff1a;什么情況下會發生棧內存溢出&#xff1f; A&#xff1a;就像食堂打飯窗口前排隊&#xff0c;隊伍太長&#xff08;方法調用層級太深&#xff09;&#xff0c;或者每個人占的位置太大&#xff08;局部變量太多&#xff09;&#xff0c;…

內存分配算法(系統分配算法~應用常見算法)

一、內存碎片 內部碎片與外部碎片 內部碎片&#xff1a;指已分配給進程但未被實際利用的內存空間&#xff0c;屬于??已分配內存內部的浪費??。 外部碎片&#xff1a;內存中??零散分布的空閑小空間??&#xff0c;總量足夠但無法合并為大塊以滿足連續內存請求。 內部碎…

緩解停車難的城市密碼:4G地磁檢測器如何重構車位資源分配

城市停車難&#xff0c;是困擾車主和管理者的雙重痛點。尋找車位耗時耗力&#xff0c;人工計時收費易生糾紛&#xff0c;傳統管理模式效率低下。而 4G地磁檢測器 的出現&#xff0c;正悄然改變這一局面。它如同埋入城市道路的“感知神經元”&#xff0c;通過4G地磁檢測器 的精準…

【網工|查缺補漏】存儲與RAID技術①

目錄 ■存儲基礎 ▲存儲系統層次結構 ▲存儲介質選擇 ▲硬盤接口 ■傳統RAID技術 ▲RAID數據組織及存取方式 ▲RAID熱備與重構 ▲常用RAID技術 ■RAID2.0技術 ▲RAID2.0技術優勢 ■網絡存儲體系DAS/NAS/SAN ▲DAS (Direct Attached Storage) ▲FC SAN (Fiber Chan…