SparkSQL之Join原理

文章目錄

  • 前言:
  • Join背景介紹
  • Join常見分類以及基本實現機制
    • Hash Join
    • Broadcast Hash Join
    • Shuffle Hash Join
    • Sort-Merge Join
  • 總結

前言:

寫SQL的時候很多時候都有用到join語句,但是我們真的有仔細想過數據在join的過程到底是怎么樣的嗎?今天借這位大神的文章來交接下sql中join的原理。同樣,如有冒犯,請聯系。

Join背景介紹

Join是數據庫查詢永遠繞不開的話題,傳統查詢SQL技術總體可以分為簡單操作(過濾操作-where、排序操作-limit等),聚合操作-groupBy等以及Join操作等。其中Join操作是其中最復雜、代價最大的操作類型,也是OLAP場景中使用相對較多的操作。因此很有必要聊聊這個話題。
另外,從業務層面來講,用戶在數倉建設的時候也會涉及Join使用的問題。通常情況下,數據倉庫中的表一般會分為”低層次表”和“高層次表”。
所謂”低層次表”,就是數據源導入數倉之后直接生成的表,單表列值較少,一般可以明顯歸為維度表或者事實表,表和表之間大多存在外健依賴,所以查詢起來會遇到大量Join運算,查詢效率相對比較差。而“高層次表”是在”低層次表”的基礎上加工轉換而來,通常做法是使用SQL語句將需要Join的表預先進行合并形成“寬表”,在寬表上的查詢因為不需要執行大量Join因而效率相對較高,很明顯,寬表缺點是數據會有大量冗余,而且生成相對比較滯后,查詢結果可能并不及時
因此,為了獲得實效性更高的查詢結果,大多數場景還是需要進行復雜的Join操作。Join操作之所以復雜,不僅僅因為通常情況下其時間空間復雜度高,更重要的是它有很多算法,在不同場景下需要選擇特定算法才能獲得最好的優化效果。關系型數據庫也有關于Join的各種用法,姜承堯大神之前由淺入深地介紹過MySQL Join的各種算法以及調優方案(關注公眾號InsideMySQL并回復join可以查看相關文章)。本文接下來會介紹SparkSQL所支持的幾種常見的Join算法以及其適用場景。

Join常見分類以及基本實現機制

**當前SparkSQL支持三種Join算法-shuffle hash join、broadcast hash join以及sort merge join。**其中前兩者歸根到底都屬于hash join,只不過在hash join之前需要先shuffle還是先broadcast。其實,這些算法并不是什么新鮮玩意,都是數據庫幾十年前的老古董了(參考),只不過換上了分布式的皮而已。不過話說回來,SparkSQL/Hive…等等,所有這些大數據技術哪一樣不是來自于傳統數據庫技術,什么語法解析AST、基于規則優化(CRO)、基于代價優化(CBO)、列存,都來自于傳統數據庫。就拿shuffle hash join和broadcast hash join來說,hash join算法就來自于傳統數據庫,而shuffle和broadcast是大數據的皮,兩者一結合就成了大數據的算法了。因此可以這樣說,大數據的根就是傳統數據庫,傳統數據庫人才可以很快的轉型到大數據。好吧,這些都是閑篇。
繼續來看技術,既然hash join是’內核’,那就刨出來看看,看完把’皮’再分析一下。

Hash Join

先來看看這樣一條SQL語句:

select * from order,item where item.id = order.i_id,

很簡單一個Join節點,參與join的兩張表是item和order,join key分別是item.id以及order.i_id。現在假設這個Join采用的是hash join算法,整個過程會經歷三步:
1、 確定Build Table以及Probe Table:這個概念比較重要,Build Table使用join key構建Hash Table,而Probe Table使用join key進行探測,探測成功就可以join在一起。通常情況下,小表會作為Build Table,大表作為Probe Table。此事例中item為Build Table,order為Probe Table。
2、 構建Hash Table:依次讀取Build Table(item)的數據,對于每一行數據根據join key(item.id)進行hash,hash到對應的Bucket,生成hash table中的一條記錄。數據緩存在內存中,如果內存放不下需要dump到外存。(這里是先利用join key hash到對應的bucket中,然后利用相同的hash規則去連接另一張表中相同的key數據)
3、探測:再依次掃描Probe Table(order)的數據,使用相同的hash函數映射Hash Table中的記錄,映射成功之后再檢查join條件(item.id = order.i_id),如果匹配成功就可以將兩者join在一起。
總結:
確定小表為build table,大表為probe table;之后利用小表的join key構建hash table。掃描小表全表,不同的join key被分發到不同的bucket下,之后再依次掃描probe table,按照同樣的hash規則,將數據hash到不同的bucket下,之后在bucket下掃描小表數據,若join條件一致,則可將兩者join在一起。
在這里插入圖片描述
基本流程可以參考上圖,這里有兩個小問題需要關注
1、 hash join性能如何?很顯然,hash join基本都只掃描兩表一次,可以認為o(a+b),較之最極端的笛卡爾集運算a*b,不知甩了多少條街。
2、為什么Build Table選擇小表?道理很簡單,因為構建的Hash Table最好能全部加載在內存,效率最高;這也決定了hash join算法只適合至少一個小表的join場景,對于兩個大表的join場景并不適用;
上文說過,hash join是傳統數據庫中的單機join算法,在分布式環境下需要經過一定的分布式改造,說到底就是盡可能利用分布式計算資源進行并行化計算,提高總體效率。hash join分布式改造一般有兩種經典方案:
1、broadcast hash join:將其中一張小表廣播分發到另一張大表所在的分區節點上,分別并發地與其上的分區記錄進行hash join。broadcast適用于小表很小,可以直接廣播的場景。
2、shuffler hash join:
一旦小表數據量較大,此時就不再適合進行廣播分發。這種情況下,可以根據join key相同必然分區相同的原理,將兩張表分別按照join key進行重新組織分區,這樣就可以將join分而治之,劃分為很多小join,充分利用集群資源并行化。(相當于在map端將大小按照key進行拆分重新組織分區,然后根據key分發到reduce端進行分別大小表的處理,最終再將結果進行匯總。)

Broadcast Hash Join

如下圖所示,broadcast hash join可以分為兩步:
1、broadcast階段:將小表廣播分發到大表所在的所有主機。廣播算法可以有很多,最簡單的是先發給driver,driver再統一分發給所有executor;要不就是基于bittorrete的p2p思路
基于bittorrete的p2p思路可參考:

https://zhidao.baidu.com/question/9782615.html
https://baike.baidu.com/item/BitTorrent/142795?fr=aladdin

2、hash join階段:在每個executor上執行單機版hash join,小表映射,大表試探;在這里插入圖片描述
SparkSQL規定broadcast hash join執行的基本條件為被廣播小表必須小于參數spark.sql.autoBroadcastJoinThreshold,默認為10M。

Shuffle Hash Join

在大數據條件下如果一張表很小,執行join操作最優的選擇無疑是broadcast hash join,效率最高。但是一旦小表數據量增大,廣播所需內存、帶寬等資源必然就會太大,broadcast hash join就不再是最優方案。此時可以按照join key進行分區,根據key相同必然分區相同的原理,就可以將大表join分而治之,劃分為很多小表的join,充分利用集群資源并行化。如下圖所示,shuffle hash join也可以分為兩步:
1、shuffle階段:分別將兩個表按照join key進行分區,將相同join key的記錄重分布到同一節點,兩張表的數據會被重分布到集群中所有節點。這個過程稱為shuffle
2、hash join階段:每個分區節點上的數據單獨執行單機hash join算法。(最后應該還要做一個union all的操作將之前處理的內容進行合并
在這里插入圖片描述
看到這里,**可以初步總結出來如果兩張小表join可以直接使用單機版hash join;如果一張大表join一張極小表,可以選擇broadcast hash join算法;**而如果是一張大表join一張小表,則可以選擇shuffle hash join算法;那如果是兩張大表進行join呢?

Sort-Merge Join

SparkSQL對兩張大表join采用了全新的算法-sort-merge join,如下圖所示,整個過程分為三個步驟:
在這里插入圖片描述
1、shuffle階段:將兩張大表根據join key進行重新分區,兩張表數據會分布到整個集群,以便分布式并行處理
2、sort階段:對單個分區節點的兩表數據,分別進行排序

3、merge階段:對排好序的兩張分區表數據執行join操作。join操作很簡單,分別遍歷兩個有序序列,碰到相同join key就merge輸出,否則取更小一邊(兩張分區表進行join的過程中,會不斷的比較索引的大小,一直以索較小的索引值遍歷分區表數據。),見下圖示意:
在這里插入圖片描述
仔細分析的話會發現,sort-merge join的代價并不比shuffle hash join小,反而是多了很多。那為什么SparkSQL還會在兩張大表的場景下選擇使用sort-merge join算法呢?這和Spark的shuffle實現有關,目前spark的shuffle實現都適用sort-based shuffle算法,因此在經過shuffle之后partition數據都是按照key排序的。因此理論上可以認為數據經過shuffle之后是不需要sort的,可以直接merge(也就是說sort-merge-join實際只需要執行shuffle和merge階段,而shuffle-hash-join需要執行shuffle和hash-join階段。而對于大表join大表來說,merge階段比hash-join階段更優!
為什么更優:hash-join的復雜度O(a+b);而merge小于O(a+b)。a,b代表數組的長度)。

經過上文的分析,可以明確每種Join算法都有自己的適用場景,數據倉庫設計時最好避免大表與大表的join查詢,SparkSQL也可以根據內存資源、帶寬資源適量將參數spark.sql.autoBroadcastJoinThreshold調大,讓更多join實際執行為broadcast hash join。

總結

Join操作是傳統數據庫中的一個高級特性,尤其對于當前MySQL數據庫更是如此,原因很簡單,MySQL對Join的支持目前還比較有限,只支持Nested-Loop Join算法,因此在OLAP場景下MySQL是很難吃的消的,不要去用MySQL去跑任何OLAP業務,結果真的很難看。不過好消息是MySQL在新版本要開始支持Hash Join了,這樣也許在將來也可以用MySQL來處理一些小規模的OLAP業務。
和MySQL相比,PostgreSQL、SQLServer、Oracle等這些數據庫對Join支持更加全面一些,都支持Hash Join算法。由PostgreSQL作為內核構建的分布式系統Greenplum更是在數據倉庫中占有一席之地,這和PostgreSQL對Join算法的支持其實有很大關系。
總體而言,傳統數據庫單機模式做Join的場景畢竟有限,也建議盡量減少使用Join。然而大數據領域就完全不同,Join是標配,OLAP業務根本無法離開表與表之間的關聯,對Join的支持成熟度一定程度上決定了系統的性能,夸張點說,’得Join者得天下’。本文只是試圖帶大家真正走進Join的世界,了解常用的幾種Join算法以及各自的適用場景。

參考:http://hbasefly.com/2017/03/19/sparksql-basic-join/

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456347.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456347.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456347.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SQLAlchemy中filter_by()和filter()的用法不同

filter_by() 和 filter() 的最主要的區別&#xff1a; 模塊語法><&#xff08;大于和小于&#xff09;查詢and_和or_查詢filter_by()直接用屬性名&#xff0c;比較用不支持不支持filter()用類名.屬性名&#xff0c;比較用支持支持 談 filter_by() 的語法之前先看下 filt…

python爬蟲從入門到放棄(六)之 BeautifulSoup庫的使用

上一篇文章的正則&#xff0c;其實對很多人來說用起來是不方便的&#xff0c;加上需要記很多規則&#xff0c;所以用起來不是特別熟練&#xff0c;而這節我們提到的beautifulsoup就是一個非常強大的工具&#xff0c;爬蟲利器。 beautifulSoup “美味的湯&#xff0c;綠色的濃湯…

SparkHiveSQL中Join操作的謂詞下推?

前言&#xff1a; SparkSQL和HiveSQL的Join操作中也有謂詞下推&#xff1f;今天就通過大神的文章來了解下。同樣&#xff0c;如有冒犯&#xff0c;請聯系。 正文 上文簡要介紹了Join在大數據領域中的使用背景以及常用的幾種算法&#xff0d;broadcast hash join 、shuffle h…

【轉載】通過金礦模型介紹動態規劃 (動態規劃入門)

先附上原文地址&#xff1a;http://www.cnblogs.com/sdjl/articles/1274312.html 通過金礦模型介紹動態規劃 對于動態規劃&#xff0c;每個剛接觸的人都需要一段時間來理解&#xff0c;特別是第一次接觸的時候總是想不通為什么這種方法可行&#xff0c;這篇文章就是為了…

flask模型中【外鍵】relationship的使用筆記

模型中relationship的使用筆記 模型.PY class User(db.Model):# __tablename__ user1 #定義表名id db.Column(db.Integer, primary_keyTrue, autoincrementTrue)username db.Column(db.String(10), nullableTrue)password db.Column(db.String(64), nullableTrue)phone …

六種方式實現生產者消費者(未完)

2019獨角獸企業重金招聘Python工程師標準>>> 一、利用Object對象是wait和notify\notifyAll package com.jv.parallel.consumerandproducer.objectwait;public class Car {private volatile int flag 0;public void showConsumer(){System.out.println("I am a…

SQL中基于代價的優化

還記得筆者在上篇文章無意中挖的一個坑么&#xff1f;如若不知&#xff0c;強烈建議看官先行閱讀前面兩文&#xff0d;《SparkSQL Join原理》和《Join中竟然也有謂詞下推?》 第一篇文章主要分析了大數據領域Join的三種基礎算法以及各自的適用場景&#xff0c;第二篇文章在第一…

git如何解決沖突(代碼托管在coding)

分支A提交合并請求到分支B&#xff0c;有沖突git fetch code 拉取遠程倉庫的其他分支代碼&#xff08;我拉代碼是remote add code所以這里是code,可以用git remote查看&#xff09;git checkout 分支A 切換到分支Agit pull code 分支A 拉取分支A代碼git checkout 分支B 切換到分…

cookie和session之會話機制: ? http 協議? ---》 無狀態協議

設置cookie&#xff1a; 通過response對象&#xff1a; response make_response() response.set_cookie(key,value,max_age(單位second),expires(要求是detetime類型)) expires datetime(year2018,month11,day5) #expires是這么設置的 expires datetime.n…

Java Map 怎樣實現Key 的唯一性?

大家都知道。在Map和Set不可存在反復元素&#xff1f; 可是對于內部的細節我們并不了解。今天我們就一塊來 探討一下&#xff01; 1 對于 HashMap HashSet 他們的底層數據結構的實現是&#xff1a;維護了一張 HashTable 。容器中的元素所有存儲在Hashtable 中。他們再加入…

win10下安裝pyspark及碰到的問題

文章目錄前言安裝過程Q1總結&#xff1a;前言 最近由于工作需要&#xff0c;需要了解下pyspark&#xff0c;所以就在win10環境下裝了下&#xff0c;然后在pycharm中使用的時候碰到了一些問題。整個過程可謂是一波三折。下面一一道來。 安裝過程 安裝過程就不詳細說了&#x…

解決AttributeError AttributeError: 'NoneType' object has no attribute 'filename'

原因忘記上傳文件 表單需要加屬性 enctype"multipart/form-data" 否則報錯&#xff01;AttributeError AttributeError: NoneType object has no attribute filename enctype"multipart/form-data是設置表單的MIME編碼。默認情況&#xff0c;這個編碼格式是ap…

SQLAlchemy()分頁器paginate方法

Flask的數據分頁示例 用法&#xff1a; 1&#xff0c;首先寫數據獲取的視圖函數&#xff0c;就像這樣&#xff1a; # 首頁 blog_bp.route(/, endpointindex) def index():#獲取頁數page request.args.get(page,1)paginate Article.query.paginate(pageint(page),per_page3)…

開源中國 2014 年源創會年度計劃

時光總是從敲代碼的指尖不經意地滑過&#xff0c;轉眼2014年已快過去一半&#xff0c;OSC依然心懷著最初的夢想。 源創會&#xff0c;oscer的線下快樂大本營&#xff0c;我們仍在繼續...... 聆聽技術大牛講解最前沿的技術&#xff0c;和同道中人切磋IT秘籍&#xff0c;吃點心侃…

互聯網金融行業申請評分卡(A卡)簡介

文章目錄前言基本概念1、信用違約風險的基本概念什么是信用違約風險&#xff1a;組成部分違約的主體個貸中常用的違約定義M0&#xff0c;M1&#xff0c;M2的定義2、申請評分卡的重要性和特性信貸場景中的評分卡申請評分卡的概念為什么要開發申請評分卡評分卡的特性 &#xff08…

Flask的csrf_token的用法

在flask當中&#xff0c;flask-wtf模塊時攜帶csrf校驗的&#xff0c;只是需要開啟&#xff1b; 如果不開啟校驗就不需要校驗&#xff0c;但是那樣不安全。 Csrf是針對與post請求的跨域限制&#xff0c;get請求沒有作用 csrf_token的開啟 在flask中開啟csrf保護 from flask_…

dotty編譯器語法特性之一交叉類型,聯合類型和文本單例類型

2019獨角獸企業重金招聘Python工程師標準>>> ###翻譯&#xff1a;http://dotty.epfl.ch/docs/reference/intersection-types.html #交叉類型 trait Resettable {def reset(): this.type } trait Growable[T] {def add(x: T): this.type } def f(x: Resettable &…

【轉】Zookeeper 安裝和配置

轉自&#xff1a;http://coolxing.iteye.com/blog/1871009 Zookeeper的安裝和配置十分簡單, 既可以配置成單機模式, 也可以配置成集群模式. 下面將分別進行介紹. 單機模式 1. 配置 點擊這里下載zookeeper的安裝包之后, 解壓到合適目錄. 進入zookeeper目錄下的conf子目錄, 創建z…

一分鐘精通Flask-Bootstrap的使用

要想在程序中集成Bootstrap&#xff0c;顯然要對模板做所有必要的改動。不過&#xff0c;更簡單的方法是使用一個名為Flask-Bootstrap 的Flask 擴展&#xff0c;簡化集成的過程。 安裝&#xff1a; Flask-Bootstrap 使用pip安裝&#xff1a; pip install flask_bootstrap Fl…

linux生產環境下安裝anaconda總結

前言&#xff1a; 工作中&#xff0c;常常要在新的linux生產服務器中安裝自己的集成python環境&#xff0c;這種情況下有一點需要注意&#xff1a;不能覆蓋生產服務器中的python環境&#xff08;也就是自己的python環境要和系統的python環境分開&#xff09;。一般情況下系統自…