python 流式計算框架_流式計算的三種框架:Storm、Spark和Flink

我們知道,大數據的計算模式主要分為批量計算(batch computing)、流式計算(stream computing)、交互計算(interactive computing)、圖計算(graph computing)等。其中,流式計算和批量計算是兩種主要的大數據計算模式,分別適用于不同的大數據應用場景。

目前主流的流式計算框架有Storm、Spark Streaming、Flink三種,其基本原理如下:

Apache Storm

在Storm中,需要先設計一個實時計算結構,我們稱之為拓撲(topology)。之后,這個拓撲結構會被提交給集群,其中主節點(master node)負責給工作節點(worker node)分配代碼,工作節點負責執行代碼。在一個拓撲結構中,包含spout和bolt兩種角色。數據在spouts之間傳遞,這些spouts將數據流以tuple元組的形式發送;而bolt則負責轉換數據流。

Apache Spark

Spark Streaming,即核心Spark API的擴展,不像Storm那樣一次處理一個數據流。相反,它在處理數據流之前,會按照時間間隔對數據流進行分段切分。Spark針對連續數據流的抽象,我們稱為DStream(Discretized Stream)。 DStream是小批處理的RDD(彈性分布式數據集), RDD則是分布式數據集,可以通過任意函數和滑動數據窗口(窗口計算)進行轉換,實現并行操作。

Apache Flink

針對流數據+批數據的計算框架。把批數據看作流數據的一種特例,延遲性較低(毫秒級),且能夠保證消息傳輸不丟失不重復。

Flink創造性地統一了流處理和批處理,作為流處理看待時輸入數據流是無界的,而批處理被作為一種特殊的流處理,只是它的輸入數據流被定義為有界的。Flink程序由Stream和Transformation這兩個基本構建塊組成,其中Stream是一個中間結果數據,而Transformation是一個操作,它對一個或多個輸入Stream進行計算處理,輸出一個或多個結果Stream。

這三種計算框架的對比如下:

參考文章:

相關閱讀:

推薦系統相關術語知多少

如欲了解更多,歡迎搜索并關注先薦小助手微信號(recsysfc)。

本賬號為第四范式智能推薦產品先薦的官方賬號。賬號立足于計算機領域,特別是人工智能相關的前沿研究,旨在把更多與人工智能相關的知識分享給公眾,從專業的角度促進公眾對人工智能的理解;同時也希望為人工智能相關人員提供一個討論、交流、學習的開放平臺,從而早日讓每個人都享受到人工智能創造的價值。先薦_智能推薦系統_個性化推薦專家?www.tuijianxitong.cn

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/454131.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/454131.shtml
英文地址,請注明出處:http://en.pswp.cn/news/454131.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

清華大學《操作系統》(十八):管程于信號量

信號量與管程也是進程間通信的方式。信號量是與鎖在同一層級實現的,是操作系統提供的一種協調共享資源訪問的方法。信號量由操作系統管理,操作系統作為管理者地位是高于進程的。 一、信號量 1、信號量(semaphore):是操…

Iptalbes自動封殺暴力破解(Qmail郵件系統)者的IP地址

今天發現Qmail郵件系統的maillog里面有大量的“user not found”信息,通過下面的日志不難發現,是來自同一IP的很多不同的用戶連接Qmail郵件系統認證失敗的信息。黑客試圖通過這種方式來破解Qmail郵件系統的用戶名和密碼,從而來發送大量的垃圾…

安裝Postman

在web和移動端開發時,常常會調用服務器端的restful接口進行數據請求,為了調試,一般會先用工具進行測試,通過測試后才開始在開發中使用。 這里介紹一下如何在chrome瀏覽器利用postman應用進行restful api接口請求測試。 因為&#…

python紅樓夢詞頻統計_用 Python 分析《紅樓夢》(2)-阿里云開發者社區

6 詞頻統計完成分詞以后,詞頻統計就非常簡單了。我們只需要根據分詞結果把片段切分開,去掉長度為一的片段(也就是單字),然后數一下每一種片段的個數就可以了。這是出現次數排名前 20 的單詞:(括號內為頻數)可以跟之前只統計出現次…

清華大學《操作系統》(二十):死鎖和進程通信

一、死鎖 死鎖:一組阻塞的進程(兩個或多個),持有一種資源,等待獲取另一個進程所占有的資源,而導致誰都無法執行。 可重復使用的資源: 在一個時間只能一個進程使用,且不能被刪除。…

python操作redis實例_Java,php,Python連接并操作redis實例

1、Java連接并操作redis在Eclipse里新建一個java project,導入jedis-*.jar包。示例代碼,其他對應的操作類型見:http://my.oschina.net/u/2391658/blog/705069import redis.clients.jedis.Jedis;//示例代碼public class RedisTest {public sta…

java: cannot execute binary file 如果遇到這個錯,一般是操作系統位數出問題了。

[roottestserver usr]# java/jdk1.6.0_12/bin/java-bash: java/jdk1.6.0_12/bin/java: cannot execute binary file后來檢驗,檢查了一段時間,沒有問題,最后有高人提示經驗證,是64位版本移到32位上。本文轉自 jxwpx 51CTO博客&…

div 自適應高度

自適應高度 ,設置最小高度;通常情況下,沒有設置高度,div默認自適應高度且無最低高度 1 div{ 2 _height:200px; /* css 注解: 僅IE6設別此屬性,假定最低高度是200px ,設置高度200px&#xff0c…

GCC使用詳情

1.前言 GCC編譯器的手冊(GCC MANUAL)的英文版已經非常全面,并且結構也非常完善了,只是一直都沒有中文的版本,我這次閱讀了GCC編譯器的主要內容,對手冊的內容進行了結構性的了解,認為有必要對這次閱讀的內容進行整理&am…

清華大學《操作系統》(二十二):文件系統

文件系統和文件: 文件系統是操作系統中管理持久性數據的子系統,提供數據存儲和訪問功能,組織、檢索、讀寫訪問數據。文件是具有符號名,由字節序列構成的數據項集合,是文件系統的基本數據單位,文件名是文件…

卡巴綠殺6 By Moshow魔手

卡巴綠殺6 By Moshow魔手 Kaspersky Anti-Virus Move-edition 6 (-_-b汗Move Edition...)【這是卡巴斯基綠色移動版本推薦用于u盤】By Moshow魔手 [url]Http://Hi.baidu.com/MoshowGame[/url]祝o(∩_∩)o...天下無毒)擁有全球最全的病毒庫)擁有最快的全球剿毒反應速度) 基于穩定…

python將字符串寫入csv_用Python將字符串值寫入CSV文件

我有一個很大的數據集,在第二列有句子和他們的情緒狀態。我開發了代碼來將它們讀作numpy數組。我需要的是,如果一個句子的情感是中性的,那么返回為真,否則返回假。if-else條件返回的每個結果都應寫入CSV文件。但是這里它只在CSV文…

加載靜態文件,父模板的繼承和擴展

用url_for加載靜態文件<script src"{{ url_for(static,filenamejs/login.js) }}"></script>flask 從static文件夾開始尋找可用于加載css, js, image文件繼承和擴展把一些公共的代碼放在父模板中&#xff0c;避免每個模板寫同樣的內容。base.html子模板繼…

清華大學《操作系統》(二十三):I/O子系統

常見設備接口類型&#xff1a; 1、字符設備&#xff1a;鍵盤鼠標、串口 a.以字節為單位順序訪問 b.I/O命令通常使用文件訪問接口和語義 2、塊設備&#xff1a;磁盤、磁帶、光驅 a.均勻的數據塊訪問 b.I/O命令通常使用文件系統接口&#xff0c;也可以使用內存映射訪問 3、網絡…

百度地圖 Android SDK - 個性化地圖

什么是百度個性化地圖Android SDK&#xff1f; 百度個性化地圖Android SDK是一套基于Android 2.2及以上版本號設備的應用程序接口&#xff0c;您能夠通過該套接口實現主要的地圖功能&#xff0c;而且能夠定制地圖樣式&#xff0c;實現個性化地圖。 該接口提供下面功能&#xff…

mysql讀寫分離_MySQL基于amoeba讀寫分離實驗

主從復制只是一個同步數據的方式讀寫分離&#xff1a;只在主的上面寫&#xff0c;只在從的上面讀讀寫分離方案&#xff1a;【1】基于程序代碼內部 (生產環境中應用最廣泛&#xff0c;性能最好&#xff0c;需要開發人員來實現)【2】基于中間代理層的實現amoeda 是阿里巴巴使用的…

Django models模型

Django models模型 一. 所謂Django models模型&#xff0c;是指的對數據庫的抽象模型&#xff0c;models在英文中的意思是模型&#xff0c;模板的意思&#xff0c;在這里的意思是通過models&#xff0c;將數據庫的借口抽象成python自己的一個類。然后在python Django框架其他代…

Page.FindControl方法找不到指定控件的原因

在ASP.NET 2.0中&#xff0c;引入了MasterPage的機制&#xff0c;在當前頁使用MasterPage的情況下&#xff0c;放在 ContentPlaceholder1這樣的內容頁的控件無法用Page.FindControl來查找&#xff0c;原因何在&#xff1f;MSDN對FindControl的解釋&#xff1a;在當前的命名容器…

ATT匯編語言與GCC內嵌匯編簡介

AT&T匯編語言與GCC內嵌匯編簡介 1 AT&T 與INTEL的匯編語言語法的區別 1.1大小寫 1.2操作數賦值方向 1.3前綴 1.4間接尋址語法 1.5后綴 1.6指令 2 GCC內嵌匯編 2.1簡介 2.2內嵌匯編舉例 2.3語法 2.3.1匯編語句模板 2.3.2輸出部分 2.3.3輸入部分 2.3.4限制字符 2.3.5破…

Python內存管理以及垃圾回收機制

垃圾回收&#xff1a;用通俗點的語言解釋就是內存管理和垃圾回收的過程. 大管家refchain 在Python的C源碼中有一個名為refchain的環狀雙向鏈表&#xff0c;這個鏈表就比較厲害了&#xff0c;因為Python程序中一旦創建對象都會把這個對象添加到refchain這個鏈表中。也就是說他…