Spark SQL優化：NOT IN子查詢優化解決

news/2025/8/8 1:52:40/文章來源:https://blog.csdn.net/zy345293721/article/details/132323557

背景

有如下的數據查詢場景。

SELECT  a,b,c,d,e,f
FROM xxx.BBBB
WHERE dt = '${zdt.addDay(0).format('yyyy-MM-dd')}' 
AND predict_type  
not IN 
( SELECT distinct a FROM xxx.AAAAAWHERE dt = '${zdt.addDay(0).format('yyyy-MM-dd')}' 
)

分析

通過查看SQL語句的執行計劃基本就可以判斷性能瓶頸所在。

| == Physical Plan ==

BroadcastNestedLoopJoin BuildRight,

Spark?SQL的優化器最終將SQL優化為了一個BroadcastNestedLoopJoin。

實際上就是在對JOIN兩側的數據做笛卡爾積運算。時間復雜度為O( $n^{2}$ )，過濾前的結果集行數達到了萬億級別。

優化方法

嘗試將NOT IN子查詢改寫成了LEFT JOIN形式

SELECT  a.*
FROM
(SELECT  a,b,c,d,e,fFROM xxx.BBBBWHERE dt = '${zdt.addDay(0).format('yyyy-MM-dd')}'
) a
LEFT JOIN
(SELECT  cFROM xxx.AAAAWHERE dt = '${zdt.addDay(0).format('yyyy-MM-dd')}' 
) b
ON a.c = b.c 
WHERE b.c is null

執行計劃如下:

Filter is null(#391L)

+- SortMergeJoin

可以看到，JOIN方式變成了SortMergeJoin。

SortMergeJoin的原理是對JOIN兩側的數據排序后在做歸并。

不妨假設：

排序的時間復雜度為O(nlogn)。
則SortMergeJoin整體的時間復雜度為O(n + nlogn)，依然是百萬級數據量的過濾計算。

在數據庫查詢優化中，"Broadcast Nested Loop Join" 和 "Sort Merge Join" 是兩種不同的關聯操作算法。

Broadcast Nested Loop Join:
在這種連接算法中，一張表被廣播到其他所有的節點上，然后與每個節點上的本地數據進行嵌套循環連接。這通常適用于一個小表和一個大表的連接，其中小表的數據可以很容易地廣播到所有節點上。

優勢:
1. 適用于小表連接：?當一個表很小而另一個表很大時，廣播小表可以減少網絡傳輸和數據傳輸開銷。
2. 簡單性：?實現相對簡單，不需要進行大規模數據排序。
3. 內存友好：?不需要大量的內存，因為每次只處理小表的一行。

Sort Merge Join:
這是一種更加通用的連接算法，它不涉及表的廣播，而是將連接的列進行排序，然后按照排序結果進行逐對比較，從而執行連接操作。

優勢:
1. 適用于大表連接：當兩個表的大小都比較大時，Sort Merge Join 可以更好地處理連接操作，因為不需要將整個表廣播到各個節點。
2. 高效的順序訪問：由于涉及數據的排序，Sort Merge Join 可以更好地利用磁盤預讀，提高磁盤數據訪問效率。
3. 穩定性：對于不同數據分布的情況，Sort Merge Join 的性能通常比 Broadcast Nested Loop Join 更穩定。

所以，Broadcast Nested Loop Join 適用于小表和大表之間的連接，而 Sort Merge Join 則更適合連接兩個較大的表。但請注意，具體的性能取決于數據分布、硬件配置和數據庫管理系統的優化能力。在實際情況中，優化器可能會根據統計信息和其他因素來選擇最適合的連接算法。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/39283.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/39283.shtml
英文地址，請注明出處：http://en.pswp.cn/news/39283.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

Dubbo基礎學習（筆記一）

Dubbo基礎學習（筆記一）

目錄第一章、概念介紹1.1）什么是RPC框架1.2）什么是分布式系統1.3）Dubbo概述1.3）Dubbo基本架構第二章、服務提供者2.1）目錄結構和依賴2.2）model層2.3）service層2.4）resources配置文…

閱讀更多...

ARTS 挑戰打卡的第8天 ---volatile 關鍵字在MCU中的作用，四個實例講解（Tips）

ARTS 挑戰打卡的第8天 ---volatile 關鍵字在MCU中的作用，四個實例講解（Tips）

前言 （1）volatile 關鍵字作為嵌入式面試的常考點，很多人都不是很了解，或者說一知半解。 （2）可能有些人會說了，volatile 關鍵字不就是防止編譯器優化的嗎？有啥好詳細講解的&#xff1…

閱讀更多...

HashMap底層相關內容

HashMap底層相關內容

HashMap的底層結構： 1.7之前數組加鏈表，當兩個值進行插入的時候采用頭插法進行插入，可能會造成死循環 1.8之后數組加鏈表/紅黑樹，當兩個值進行插入的時候，采用尾插法進行插入，不會造成死循環 HashMap底…

閱讀更多...

xml轉map工具類

xml轉map工具類

背景：最近遇到接口返回是xml，所以需要整一個轉換的工具類，方便后續其他xml處理。依賴引入： <dependency><groupId>dom4j</groupId><artifactId>dom4j</artifactId><version>1.1</versi…

閱讀更多...

澎峰科技|邀您關注2023 RISC-V中國峰會！

澎峰科技|邀您關注2023 RISC-V中國峰會！

峰會概覽 2023 RISC-V中國峰會（RISC-V Summit China 2023）將于8月23日至25日在北京香格里拉飯店舉行。本屆峰會將以“RISC-V生態共建”為主題，結合當下全球新形勢，把握全球新時機，呈現RISC-V全球新觀點、新趨勢。本…

閱讀更多...

linux下nginx配置https和反向代理本地端口

linux下nginx配置https和反向代理本地端口

1 修改配置文件/etc/nginx/sites-enabled/default 在配置文件中增加一個server用來做https端口監聽， ssl_certificate和ssl_certificate_key修改為自己申請的https認證文件 server{listen 443 ssl;server_name www.dogrich.net;#root /var/www/html;# 上面配置的…

閱讀更多...

《3D 數學基礎》12 幾何圖元

《3D 數學基礎》12 幾何圖元

目錄 1 表達圖元的方法 1.1 隱式表示法 1.2 參數表示 1.3 直接表示 2. 直線和射線 2.1 射線的不同表示法 2.1.1 兩點表示 2.1.2 參數表示 2.1.3 相互轉換 2.2 直線的不同表示法 2.2.1 隱式表示法 2.2.2 斜截式 2.2.3 相互轉換 3. 球 3.1 隱式表示 1 表達圖元的方…

閱讀更多...

C語言的使用技巧--在IO操作中的移位和快速配置

C語言的使用技巧--在IO操作中的移位和快速配置

在WB32F103（ARM cortex m3內核，96Mhz）的gpio初始化中有一段代碼，充分的結合了硬件特征并使用C語言的技巧來快速的配置對應的GPIO的功能，堪稱經典和楷模，代碼異常簡潔，執行速度快，配置…

閱讀更多...

【深度學習所有損失函數】在 NumPy、TensorFlow 和 PyTorch 中實現（2/2）

【深度學習所有損失函數】在 NumPy、TensorFlow 和 PyTorch 中實現（2/2）

一、說明在本文中，討論了深度學習中使用的所有常見損失函數，并在NumPy，PyTorch和TensorFlow中實現了它們。 (二-五)見六、稀疏分類交叉熵損失稀疏分類交叉熵損失類似于分類交叉熵損失，但在真實標簽作為整數而不是獨熱編碼提…

閱讀更多...

Python pycparser(c文件解析)模塊使用教程

Python pycparser(c文件解析)模塊使用教程

文章目錄安裝 pycparser 模塊模塊開發者網址獲取抽象語法樹1. 需要導入的模塊2. 獲取不關注預處理相關 c語言文件的抽象語法樹ast3. 獲取預處理后的c語言文件的抽象語法樹ast 語法樹組成1. 數據類型定義 Typedef2. 類型聲明 TypeDecl3. 標識符類型 IdentifierType4. 變量聲明…

閱讀更多...

語聚AI公測發布，大語言模型時代下新的生產力工具

語聚AI公測發布，大語言模型時代下新的生產力工具

語聚AI 公測發布距離語聚AI內測上線已經過去近1個月。這期間，我們共邀請了近百位資深用戶與行業專家加入語聚AI產品體驗。通過大家的熱情參與積極反饋，我們不斷優化并完善了語聚AI的功能與使用體驗。經過研發團隊不懈的努力，今天語聚AI終…

閱讀更多...

【Leetcode】88.合并兩個有序數組

【Leetcode】88.合并兩個有序數組

一、題目 1、題目描述給你兩個按非遞減順序排列的整數數組 nums1 和 nums2，另有兩個整數 m 和 n ，分別表示 nums1 和 nums2 中的元素數目。請你合并 nums2 到 nums1 中，使合并后的數組同樣按非遞減順序排列。注意：最終，合并后數組不應由函數返回，而是存儲在數…

閱讀更多...

梅賽德斯-奔馳將成為首家集成ChatGPT的汽車制造商

梅賽德斯-奔馳將成為首家集成ChatGPT的汽車制造商

ChatGPT的受歡迎程度毋庸置疑。OpenAI這個基于人工智能的工具，每天能夠吸引無數用戶使用，已成為當下很受歡迎的技術熱點。因此，有許多公司都在想方設法利用ChatGPT來提高產品吸引力，賣點以及性能。在汽車領域，梅賽德斯…

閱讀更多...

代碼隨想錄算法訓練營第59天｜動態規劃part16｜583. 兩個字符串的刪除操作、72. 編輯距離、編輯距離總結篇

代碼隨想錄算法訓練營第59天｜動態規劃part16｜583. 兩個字符串的刪除操作、72. 編輯距離、編輯距離總結篇

代碼隨想錄算法訓練營第59天｜動態規劃part16｜583. 兩個字符串的刪除操作、72. 編輯距離、編輯距離總結篇 583. 兩個字符串的刪除操作 583. 兩個字符串的刪除操作思路： 思路見代碼代碼： python class Solution(object):de…

閱讀更多...

[國產MCU]-BL602開發實例-I2C與總線設備地址掃描

[國產MCU]-BL602開發實例-I2C與總線設備地址掃描

I2C與總線設備掃描文章目錄 I2C與總線設備掃描1、I2C介紹2、I2C驅動API介紹3、I2C使用實例I2C (Inter-Intergrated Circuit)是一種串行通訊總線，使用多主從架構，用來連接低速外圍裝置。每個器件都有一個唯一的地址識別，并且都可以作為一個發送器或接收器。每個連接到總線的…

閱讀更多...

node-sass是什么

node-sass是什么

一、Sass（Syntactically Awesome Style Sheets） 是一種CSS預處理器，它擴展了CSS的功能并提供了更強大的樣式表語言。Sass允許開發人員使用變量、嵌套規則、混合（Mixins）、繼承等高級功能來編寫更簡潔、可維護的樣式代…

閱讀更多...

2023年國賽數學建模思路 - 案例：FPTree-頻繁模式樹算法

2023年國賽數學建模思路 - 案例：FPTree-頻繁模式樹算法

文章目錄算法介紹FP樹表示法構建FP樹實現代碼建模資料 ## 賽題思路 （賽題出來以后第一時間在CSDN分享） https://blog.csdn.net/dc_sinor?typeblog 算法介紹 FP-Tree算法全稱是FrequentPattern Tree算法，就是頻繁模式樹算法&#xff0c…

閱讀更多...

QT-Mysql數據庫圖形化接口

QT-Mysql數據庫圖形化接口

QT sql mysqloper.h qsqlrelationaltablemodelview.h /************************************************************************* 接口描述：Mysql數據庫圖形化接口擬制： 接口版本：V1.0 時間：20230727 說明：支…

閱讀更多...

基于VUE3+Layui從頭搭建通用后臺管理系統（前端篇）九：自定義組件封裝下

基于VUE3+Layui從頭搭建通用后臺管理系統（前端篇）九：自定義組件封裝下

一、本章內容續上一張，本章實現一些自定義組件的封裝，包括文件上傳組件封裝、級聯選擇組件封裝、富文本組件封裝等。 1. 詳細課程地址：待發布 2. 源碼下載地址：待發布二、界面預覽三、開發視頻基于VUE3+Layui從頭搭建通用后臺管

閱讀更多...

【軟件工程】內聚

【軟件工程】內聚

概念是指一個模塊內部個成分之間相互關聯程度的度量。也就是說，凝聚是對模塊內各處理動作組合強度的一種度量。很顯然，一個模塊的內聚越大越好。偶然凝聚一個模塊內的各處理元素之間沒有任何聯系，只是偶然地被湊到一起。這種模塊也稱為…

閱讀更多...

最新文章