常用的分布式計算引擎

記錄一下,作為備忘。

常用的分布式計算引擎

多表關聯的問題,由于NoSQL數據庫主要用于海量存儲和單表查詢,一般都不支持join,需借助更上層的計算框架來實現多表關聯,比如:

計算框架支持數據源執行效率
Hive本地文件、HDFS、HBase,通過第三方工具也能支持MongoDBHive-on-MR的效率是很差的,3條記錄的表select count(*)花了18s!而且Hive2自己也不推薦再用Hive-on-MR了,而是用Hive-on-spark或Hive-on-Tez
Spark本地文件、HDFS、HBase,通過第三方工具支持MongoDB、CassandraMR之外另辟蹊徑的準實時計算框架。數據量超過百萬行后的效率優于關系數據庫(RDB);10w以內的效率雖然比RDB慢,但也在一個數量級內。
TezHDFS與Hive結合使用,仍基于MR框架,但做了作業的裁剪和合并,減少HDFS讀寫,據說比優化前的MR效率提升百倍。

幾種計算框架之間的關系如下圖所示:

在這里插入圖片描述

MR和Spark是兩種不同的底層計算框架,Tez是對MR的優化,Hive是一個高層的計算框架,負責將SQL翻譯成不同的底層計算模型(目前能翻譯為MR、Tez、Spark三種計算模型),SparkSQL和Hive是同級的計算框架(事實上,SparkSQL的開發時間先于Hive-on-Spark),如其名字所表明的,其只能將SQL翻譯為Spark計算模型。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/40104.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/40104.shtml
英文地址,請注明出處:http://en.pswp.cn/news/40104.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

神經網絡基礎-神經網絡補充概念-35-為什么正則化可以減少過擬合

概念 正則化可以減少過擬合的原因在于它通過限制模型的復雜性來約束參數的取值范圍,從而提高了模型的泛化能力。過擬合是指模型在訓練集上表現很好,但在未見過的數據上表現不佳,這通常是因為模型過于復雜,過多地擬合了訓練數據中…

自己動手寫數據庫系統:實現一個小型SQL解釋器(中)

我們接上節內容繼續完成SQL解釋器的代碼解析工作。下面我們實現對update語句的解析,其語法如下: UpdateCmd -> INSERT | DELETE | MODIFY | CREATE Create -> CreateTable | CreateView | CreateIndex Insert -> INSERT INTO ID LEFT_PARAS Fie…

后端項目打包上傳服務器記錄

后端項目打包上傳服務器記錄 文章目錄 后端項目打包上傳服務器記錄1、項目打包2、jar包上傳服務器 本文記錄打包一個后端項目,上傳公司服務器的過程。 1、項目打包 通過IDEA的插件進行打包: 打成一個jar包,jar包的位置在控制臺可以看到。 2、…

ssm蜀都天香酒樓網站設計與實現

ssm蜀都天香酒樓的網站設計與實現028 開發工具:idea 數據庫mysql5.7 數據庫鏈接工具:navcat,小海豚等 技術:ssm 摘要 近年來,信息化管理行業的不斷興起,使得人們的日常生活越來越離不開計算機和互聯網技術。首…

機器學習基礎(六)

貝葉斯分析 介紹 “貝葉斯”是指托馬斯貝葉斯(1702–1761),他證明了一個特例,也就是現在的貝葉斯定理的特例。 貝葉斯定理(英語:Bayes theorem)是概率論中的一個定理,描述在已知一些條件下,某事件的發生概率。比如,如果已知某種健康問題與壽命有關,使用貝葉斯定理則…

selenium語法進階+常用API

目錄 瀏覽器操作 瀏覽器回退,前進 與刷新 瀏覽器窗口設置大小 瀏覽器設置寬高 瀏覽器窗口最大化 瀏覽器控制滾動條 信息打印 打印頁面的標題和當前頁面的URL 定位一組元素 鼠標和鍵盤事件 鍵盤 鼠標 下拉框操作 通過索引定位(se…

【BASH】回顧與知識點梳理(三十二)

【BASH】回顧與知識點梳理 三十二 三十二. SELinux 初探32.1 什么是 SELinux當初設計的目標:避免資源的誤用傳統的文件權限與賬號關系:自主式訪問控制, DAC以政策規則訂定特定進程讀取特定文件:委任式訪問控制, MAC 32.2 SELinux 的運作模式安…

安科瑞變電所運維平臺在電力系統中應用分析

摘要:現代居民生活、工作對電力資源的需求量相對較多,給我國的電力產業帶來了良好的發展機遇與挑戰。探索電力系統基本構成, 將變電運維安全管理以及相應的設備維護工作系統性開展,能夠根據項目實踐工作要求,將滿足要求…

C語言暑假刷題沖刺篇——day2

目錄 一、選擇題 二、編程題 🎈個人主頁:庫庫的里昂 🎐CSDN新晉作者 🎉歡迎 👍點贊?評論?收藏?收錄專欄:C語言每日一練 ?其他專欄:代碼小游戲C語言初階🤝希望作者的文章能對你…

最小生成樹,prim算法

Prim算法和Kruskal算法都是用于解決最小生成樹問題的經典算法,它們在不同情況下有不同的適用性和特點。 Prim算法: Prim算法是一種貪心算法,用于構建一個無向圖的最小生成樹。算法從一個初始節點開始,逐步添加與當前樹連接且具有…

【自動電壓調節器】無功功率控制的終端電壓控制研究(Simulink)

💥💥💞💞歡迎來到本博客????💥💥 🏆博主優勢:🌞🌞🌞博客內容盡量做到思維縝密,邏輯清晰,為了方便讀者。 ??座右銘&a…

小白的Node.js學習筆記大全---不定期更新

let、const、var的區別 (1)塊級作用域: 塊作用域由 { }包括,let和const具有塊級作用域,var不存在塊級作用域。塊級作用域解決了ES5中的兩個問題: 內層變量可能覆蓋外層變量 用來計數的循環變量泄露為全局…

【加強管理】《別輸在不懂管理上》學習記錄,黃金41條

成功有時是很難效法的,但失敗是可以避免的,從失敗中吸取經驗和教訓才是管理者的必修課。釋義: 圖形含義🌲一級重要🍀二級重要🌿三級主要🍁存在問題🌼解決辦法 1 不能從頭管到腳 不…

【討論】視頻監控集中存儲方案如何做?

視頻監控集中存儲是指將多個視頻監控攝像頭所捕捉到的視頻信號集中存儲于一個中央設備,這個中央設備可以是服務器、網絡存儲設備或其他專用設備。通過集中存儲,可以避免因為存儲設備分散而導致的管理不便和難以有效地管理和檢索視頻數據,同時…

RTT(RT-Thread)ADC設備(RTT保姆級介紹)

目錄 ADC設備 前言 ADC相關參數說明 訪問ADC設備 配置ADC設備 ADC實例 硬件設計 軟件設計 ADC設備 前言 ADC(Analog-to-Digital Converter) 指模數轉換器。是指將連續變化的模擬信號轉換為離散的數字信號的器件。 對于ADC的詳細介紹和在STM32中的裸機應用可參考以下…

pandas數據分析38——數據框表格拓展以及縮回對齊

案例背景 需求是這個樣的: 把這個表格進行拓展。 代碼實現: df pd.DataFrame(np.array([[1, 2, 3,4], [a,b, c,d], [小明,小紅, 小馬,小天]])) df 方法一:自定義函數: def expand_dataframe(df):m, n df.shapenew_df pd.Dat…

linux系統中設置服務開機自啟動

1:背景描述 最近根據工作需要,需要服務實現開機自啟動的效果,因為平時只使用過nohup的后臺掛起操作,很少接觸開機,鏡像裝機服務自啟動的功能,因此,這里簡單記錄一下。 注意,開機自…

解鎖數據潛力:信息抽取、數據增強與UIE的完美融合

解鎖數據潛力:信息抽取、數據增強與UIE的完美融合 1.信息抽取(Information Extraction) 1.1 IE簡介 信息抽取是 NLP 任務中非常常見的一種任務,其目的在于從一段自然文本中提取出我們想要的關鍵信息結構。 舉例來講&#xff0…

從NLP到聊天機器人

一、說明 今天,當打電話給銀行或其他公司時,聽到電話另一端的機器人向你打招呼是很常見的:“你好,我是你的數字助理。請問你的問題。是的,機器人現在不僅可以說人類語言,還可以用人類語言與用戶互動。這是由…

windows權限維持—黃金白銀票據隱藏用戶遠控RustDeskGotoHttp

windows權限維持—黃金白銀票據&隱藏用戶&遠控&RustDesk&GotoHttp 1. 前置1.1. 初始問題1.1.1. 解決辦法 2. 隱藏用戶2.1. 工具原理2.2. 案例操作2.2.1. 單機添加用戶2.2.1.1. 工具添加用戶2.2.1.2. 工具查看隱藏用戶2.2.1.3. 本地查看隱藏用戶 2.2.2. 域內添加…