大數據-計算框架選型與對比

計算框架選型與對比

  • 一、大數據平臺
  • 二、計算框架分類
    • 1.批處理架構
    • 2.實時流處理架構
    • 3.流批一體處理架構
  • 三、計算框架關鍵指標
    • 1.處理模式
    • 2.可伸縮性
    • 3.消息傳遞
      • 3.1 至少一次(at least once)
      • 3.2 至多一次(ai most once)
      • 3.3 恰好一次(exactly once)
    • 4.中間結果存儲
    • 5.迭代計算
    • 6.吞吐量
    • 7.容錯
    • 8.狀態管理
  • 四、計算框架對比
  • 總結
    • 參考鏈接

一、大數據平臺

針對大數據的應用每個企業都有自己特定的需求和情況,所以都需要針對需求成本技術等搭建自己的大數據平臺。大數據平臺是一個對海量數據從采集、存儲、計算、應用、管理、運維的多方位、多維度的組合研究設計,從而建設合理高效滿足企業需求的大數據平臺架構。

二、計算框架分類

為了應對數據量的激增、分析需求時效性的要求,計算框架逐步從早期的批處理轉變到現在的實時流處理的轉變,按照對數據處理方式計算框架可以分類如下:

1.批處理架構

批處理指的是將數據按照批次進行收集、存儲和處理分析。批處理是一種離線數據處理方式、數據被收集完畢后才會進行處理,因此需要等待一段時間。早期大數據平臺基本都是采用批處理對數據進行計算。Apache Hadoop就是一個批處理框架,包括存儲組件HDFS和計算組件MapReduce。
優點:

  • 適用于離線數據處理,特別是對歷史數據進行分析和挖掘 (例如日志數據、數據庫數據等)
  • 高吞吐量、能夠處理大規模數據、適合大數據分析
  • 處理的數據規模比較大,通常數百萬或數千萬條數據

缺點:

  • 不能實現實時分析,數據處理延時比較高
  • 不適合低延遲場景

2.實時流處理架構

實時流處理就是數據生產之后立刻進行處理,數據以流的形式產生后即可進行處理和分析,可以實現更低的延遲和更高的即可性。實時流是一種在線數據處理方式,Apache Storm和Apache Samza是實時流處理架構。
優點:

  • 實時性更強
  • 低延遲、適合一些即時場景(例如金融交易、物聯網等)
  • 一般是實時小規模數據流

缺點:

  • 針對離線數據處理吞吐量低于批處理
  • 可能無法支持復雜邏輯處理

3.流批一體處理架構

隨著需求發展,大數據需要提供更全面的數據處理能力,也就是需要同時支持批處理和實時處理。所以一個架構將批處理和流處理結合成為一種趨勢,將實時流數據存儲下來,然后在批量任務中進行深入分析和挖掘。Apache Spark和Apache Flink是典型的流批一體處理架構。
優點:

  • 可以充分發揮批處理和實時處理的優勢,滿足不同的業務需求。
  • 可以減少實時流處理的壓力,將部分處理轉移到批處理中進行。

缺點:

  • 增加了系統復雜性,需要同時維護批處理和實時處理組件
  • 數據一致性需要特別關注

三、計算框架關鍵指標

計算框架在對大數據處理過程中會遇到一些普遍存在和框架需要處理的問題,所以計算框架支持的功能和解決一些問題的處理方式可以看作關鍵指標和對比維度。主要維度如下:

1.處理模式

處理模式是指計算框架對批處理和實時處理支持與否。

2.可伸縮性

可伸縮性是指系統通過增加資源來應對不斷增加的負載的能力。由于大數據本地就存在負載不均衡或者不連續的情況,所以是大數據架構的基本指標。現有的大數據框架基本都是通過水平拓展來應對負載的增加。

3.消息傳遞

針對在處理過程中如果出現異常,每個框架對消息如何處理并不相同。按照處理類型分為

3.1 至少一次(at least once)

意味著會很多次嘗試對消息進行處理,并且至少處理成功一次。可能導致最終的處理結果中數據重復的情況。

3.2 至多一次(ai most once)

意味只會一次嘗試對消息進行處理,也就是最多成功一次。可能導致最終處理結果中數據缺失的情況

3.3 恰好一次(exactly once)

意味著該消息不會被重復處理,也不會不進行處理,只會被精確的處理一次。這種情況最終的處理結果中數據是精準的。

4.中間結果存儲

計算過程中中間的結果存儲介質,如果保存到磁盤、則計算速度慢、但是對內存需求會比較低;如果保存到內存、則計算速度快、但是需要較大的內存支持。

5.迭代計算

迭代計算是指迭代方法的實現,該迭代方法在沒有實際解的情況下或在實際解的成本過高的情況下估計近似解

6.吞吐量

7.容錯

分布式系統中,包含任務故障、節點故障、網絡故障等,框架應該能夠恢復,并且應該從它離線的位置再次開始處理,一般通過不時地檢查流式傳輸到某個持久存儲的狀態來實現

8.狀態管理

在狀態處理要求的情況下,我們需要維護某些狀態(例如記錄中看到的每個不同單詞的計數),框架應該能夠提供一些機制來保存和更新狀態信息。

四、計算框架對比

在這里插入圖片描述

總結

以上對大數據平臺組成、計算框架需要提供哪些功能、常用計算框架對比。

參考鏈接

1.大數據處理平臺的架構演進:從批處理到實時流處理

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/163746.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/163746.shtml
英文地址,請注明出處:http://en.pswp.cn/news/163746.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

邊海防可視化智能視頻監控與AI監管方案,助力邊海防線建設

一、背景與需求 我國有3萬多公里的邊境線和海岸線,隨著我國邊海防基礎設施建設的快速發展,邊海安防也逐漸走向智能化。傳統人工巡防的方式已經無法滿足邊海智能化監管的需求,在沿海、沿邊地區進行邊海智慧安防視頻監控系統等邊海防基礎設施建…

智慧海島/海域方案:助力海洋空間智慧化、可視化管理

隨著我國海洋經濟的快速發展,海域海島的安防技術也獲得了進步。傳統的安防監控模式已經滿足不了海域海島的遠程監管需求。伴隨著人工智能、邊緣計算、大數據、通信傳輸技術、視頻技術、物聯網等信息化技術的發展,海島海域在監管手段上,也迎來…

【Spring Cloud實戰】分布式系統控制與組件應用

在現代軟件開發中,分布式系統已經成為一種常見的架構模式,被廣泛應用于各種規模的企業和組織中。這種架構模式通過將應用程序拆分為獨立的組件,并分布在不同的計算機節點上運行,使得系統能夠應對高負載和大規模的數據處理需求&…

python tkinter使用(四)

本篇文章主要講下tkinter 的文本框相關. tkinter中用Entry來實現輸入框,類似于android中的edittext. 具體的用法如下: 1:空白輸入框 如下: name tk.Entry(window) name.pack()2: 設置輸入框的默認文案 name tk.Entry(window) name.pack() name.insert(tk.END, "請…

使用支付寶的沙箱環境在本地配置模擬支付并發布至公網調試

文章目錄 前言1. 下載當面付demo2. 修改配置文件3. 打包成web服務4. 局域網測試5. 內網穿透6. 測試公網訪問7. 配置二級子域名8. 測試使用固定二級子域名訪問9. 結語 前言 在沙箱環境調試支付SDK的時候,往往沙箱環境部署在本地,局限性大,在沙…

vue .prop修飾符

一、官網概念 .prop - 強制綁定為 DOM property 原本自定義屬性默認會綁定在DOM的attributes上,加上prop之后會綁定在property,attributes上就不存在咯 在頁面上的一個明顯區別就是:不加prop時,DOM渲染后自定義屬性和值都是暴露在…

自定義label組件

自定義label組件 支持邊框繪制 支持shape背景(按指定圓角裁剪,矩形,圓角矩,圓形),支持指定角圓角 支持自定義陰影(顏色,偏移,深度) 邊框顏色支持狀態選擇器 預覽 核心繪制輔助類 public class LabelHelper {private final Paint paint;private Paint shadowPaint;private fina…

【無標題】學習HTML

由于工作需求,學習了一些html的相關知識,最終應用到打印功能上使用。 HTML是指超文本標記語言(HyperText Markup Language)。它是一種用于創建和呈現互聯網上頁面的標準標記語言。HTML是Web開發的基礎,是構建網頁和應…

宅家追劇神器推薦,高亮輕薄投影儀極米Z7X帶你開啟追劇新體驗

周末假期怎么玩?相信有不少朋友已經準備好了出游計劃,當然也有很多小伙伴想趁周末在家追追劇、看看電影、玩玩游戲放松一下。那么,今天筆者就給大家帶來了一款假期娛樂神器——極米Z7X,無論是出游還是宅家追劇,極米Z7X…

深度解析 Docker Registry:構建安全高效的私有鏡像倉庫

文章目錄 什么是Docker Registry?Docker Hub vs. 私有RegistryDocker Hub:私有Registry: 如何構建私有Docker Registry?步驟一:安裝Docker Registry步驟二:配置TLS(可選)步驟三&…

SVD 最小二乘法解 親測ok!

線性最小二乘問題 m個方程求解n個未知數&#xff0c;有三種情況&#xff1a; mn且A為非奇異&#xff0c;則有唯一解&#xff0c;xA.inverse()*bm>n&#xff0c;約束的個數大于未知數的個數&#xff0c;稱為超定問題&#xff08;overdetermined&#xff09;m<n&#xff0…

OpenSSL SSL_read: Connection was reset, errno 10054

包含下面兩種錯誤 一、unable to access https://github.com/username/xxx.git/: OpenSSL SSL_read: Connection was reset, errno 10054二、unable to access https://github.com/username/xxx.git/: Failed to connect to github.com port 443 after 21171 ms: Timed out不同…

精通Nginx(17)-安全管控之防暴露、限制訪問、防DDos攻擊、防爬蟲、防非法引用

安全是每個系統都需要考慮的關鍵因素,Nginx在這方面提供了豐富的功能,使我們可以就實際情形做很精細調整。這些功能包括防信息暴露、客戶端訪問限制、通訊加密、防DDos攻擊、防爬蟲、防非法引用及防非法域名請求等。 目錄 防信息暴露 關閉版本號 關閉目錄列表 客戶端訪問…

18.oracle的過程和函數

oracle11g的過程和函數 一、過程&#xff08;Procedure&#xff09;1、子程序2、過程的相關語法 二、函數&#xff08;Function&#xff09;1、函數的概念2、函數的創建3、 案例 在Oracle數據庫中&#xff0c;過程和函數都是用來封裝一系列SQL語句和邏輯操作的數據庫對象&#…

ChatGPT重磅升級!集簡云支持GPT4 Turbo Vision, GPT4 Turbo, Dall.E 3,Whisper等最新模型

在11月7日凌晨&#xff0c;OpenAI全球開發者大會宣布了 GPT-4的一次大升級&#xff0c;推出了 GPT-4 Turbo號稱為迄今為止最強的大模型。 此次GPT-4的更新和升級在多個方面顯示出強大的優勢和潛力。為了讓集簡云用戶能快速體驗新模型的能力&#xff0c;我們第一時間整理了大會發…

VR直播如何打破視角壁壘,提升觀看體驗?

隨著數字技術的不斷發展&#xff0c;直播行業也發生了新的變革&#xff0c;VR直播也成為了直播行業中新的趨勢&#xff0c;那么VR直播是如何打破視角壁壘&#xff0c;提升觀看體驗的呢&#xff1f; 杭州亞運會那幾天&#xff0c;多項比賽熱火朝天&#xff0c;無論你是參賽隊伍的…

【double check 讀寫鎖】

使用double check 讀寫鎖 讀多寫少場景 記錄下 //來源 jdbc 中的查詢連接信息 //public abstract class ConnectionUrl implements DatabaseUrlContainer public static ConnectionUrl getConnectionUrlInstance(String connString, Properties info) {if (connString null…

上市公司常見的印章問題契約鎖如何幫您解決?

您知道公司印章的管理和使用是否存在問題&#xff1f;公司內部該如何通過印章問題自查&#xff0c;及時進行風險防治&#xff1f; 印章是上市公司權利的象征&#xff0c;開展“印章管理審查”確保管理和使用合規&#xff0c;也是上市公司內控和監管的一項重要內容。如果存在不合…

S71200通過PROFINET協議和島電數字控制器通訊

項目要求 西門子S71200PLC需要通過PROFINET協議和島電數字控制器&#xff08;型號&#xff1a;SRS13A&#xff09;通訊&#xff0c;讀取溫度的測量值PV和設定值SV。 項目實施 采用NET90-PN-MBT&#xff08;以下簡稱“網關”&#xff09;&#xff0c;它是一款將Modbus TCP/RT…