【MySQL系列】SQL 分組統計與排序

csdn

博客目錄

- 引言
- 一、基礎語法解析
- 二、GROUP BY 的底層原理
- 三、ORDER BY 的排序機制
- 四、NULL 值的處理策略
- 五、性能優化建議
- 六、高級變體查詢

引言

在現代數據分析和數據庫管理中，分組統計是最基礎也是最核心的操作之一。無論是業務報表生成、用戶行為分析還是系統性能監控，我們經常需要按照某個字段對數據進行分組，然后計算每組的記錄數量或其他聚合值。

一、基礎語法解析

讓我們首先分析文章開頭給出的基礎 SQL 查詢語句：

SELECTnode_execution_id,COUNT(*) AS count
FROMpublic.workflow_node_executions
GROUP BYnode_execution_id
ORDER BYcount DESC;

這個查詢由幾個關鍵部分組成：

SELECT 子句：指定要查詢的列和聚合函數。這里選擇了 node_execution_id 列和 COUNT(*) 聚合函數，后者會計算每組的行數，并使用 AS 關鍵字將結果列命名為 count。
FROM 子句：指定數據來源的表，這里是 public.workflow_node_executions。public 是模式名（schema），在多租戶數據庫環境中特別重要。
GROUP BY 子句：定義分組的依據列。數據庫引擎會根據 node_execution_id 的值將表中的記錄分成若干組，每組擁有相同的 node_execution_id 值。
ORDER BY 子句：指定結果的排序方式。DESC 表示降序排列，即 count 值大的組排在前面。

二、GROUP BY 的底層原理

理解 GROUP BY 的執行原理對于編寫高效的 SQL 查詢至關重要。當執行包含 GROUP BY 的查詢時，數據庫引擎通常會按照以下步驟操作：

數據掃描：首先從表中讀取所有滿足條件的行（如果沒有 WHERE 子句則讀取全部數據）。
哈希分組：數據庫會創建一個哈希表，以 GROUP BY 列的值作為鍵。對于每一行，計算 node_execution_id 的哈希值，并將該行放入對應的哈希桶中。
聚合計算：對于每個哈希桶（即每個分組），計算指定的聚合函數（如 COUNT(*)、SUM()、AVG() 等）。
結果生成：將每個分組的鍵值（node_execution_id）和聚合結果（count）組合成結果行。

值得注意的是，現代數據庫優化器可能會根據表大小、索引情況等因素選擇不同的分組算法，如排序分組法（sort-group）等，但哈希分組是最常見的實現方式。

三、ORDER BY 的排序機制

ORDER BY count DESC 決定了最終結果的呈現順序。數據庫引擎在完成分組和聚合后，會對結果集進行排序：

內存排序：如果結果集較小，數據庫會在內存中使用快速排序等算法直接完成排序。
外存排序：對于大型結果集，數據庫可能采用歸并排序等外部排序算法，將中間結果暫存到磁盤。
索引利用：如果 count 列上有索引，某些數據庫可能會利用索引來優化排序過程。

降序排列（DESC）會將較大的 count 值排在前面，這在分析高頻事件或熱門條目時特別有用。

四、NULL 值的處理策略

在分組操作中，NULL 值需要特別注意。SQL 標準規定：

所有 NULL 值會被視為相同值歸入同一組
如果 node_execution_id 包含 NULL 值，這些記錄會被聚合到一個特殊的分組中

如果業務上需要排除 NULL 值，應該顯式添加過濾條件：

SELECTnode_execution_id,COUNT(*) AS count
FROMpublic.workflow_node_executions
WHEREnode_execution_id IS NOT NULL
GROUP BYnode_execution_id
ORDER BYcount DESC;

五、性能優化建議

對于大型數據表，分組統計操作可能相當耗費資源。以下是幾個優化建議：

索引優化：在 node_execution_id 上創建索引可以顯著加速分組操作。對于這個查詢，復合索引 (node_execution_id) 就足夠。
分區表：如果表數據量極大，考慮按 node_execution_id 的范圍或哈希值進行分區，可以并行化分組操作。
物化視圖：對于頻繁執行的相同分組查詢，可以創建物化視圖預先存儲結果。
限制結果集：如果只需要前 N 個結果，添加 LIMIT 子句避免處理全部數據：

SELECTnode_execution_id,COUNT(*) AS count
FROMpublic.workflow_node_executions
GROUP BYnode_execution_id
ORDER BYcount DESC
LIMIT 100;

六、高級變體查詢

基于基礎查詢，我們可以擴展出更多有用的分析：

添加篩選條件：只統計特定時間范圍內的執行情況

SELECTnode_execution_id,COUNT(*) AS count
FROMpublic.workflow_node_executions
WHEREexecution_time BETWEEN '2023-01-01' AND '2023-12-31'
GROUP BYnode_execution_id
ORDER BYcount DESC;

多列分組：同時按節點 ID 和執行狀態分組

SELECTnode_execution_id,status,COUNT(*) AS count
FROMpublic.workflow_node_executions
GROUP BYnode_execution_id, status
ORDER BYcount DESC;

HAVING 子句：只返回滿足特定條件的分組

SELECTnode_execution_id,COUNT(*) AS count
FROMpublic.workflow_node_executions
GROUP BYnode_execution_id
HAVINGCOUNT(*) > 100
ORDER BYcount DESC;

覺得有用的話點個贊 👍🏻 唄。
??????本人水平有限，如有紕漏，歡迎各位大佬評論批評指正！😄😄😄

💘💘💘如果覺得這篇文對你有幫助的話，也請給個點贊、收藏下吧，非常感謝!👍 👍 👍

🔥🔥🔥Stay Hungry Stay Foolish 道阻且長,行則將至,讓我們一起加油吧！🌙🌙🌙

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/84478.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/84478.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/84478.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！