從一到無窮大 #43：Presto History Based Optimizer，基于PlanNode粒度統計的查詢計劃選擇策略

在這里插入圖片描述本作品采用知識共享署名-非商業性使用-相同方式共享 4.0 國際許可協議進行許可。

本作品 (李兆龍博文, 由李兆龍創作)，由李兆龍確認，轉載請注明版權。

文章目錄

引言
Motivation
Architecture
HBO Scenario
Experiments
結束語

引言

過年回家這件事在摯友的勸導下，在不回去和一直呆在家之間選擇了提前回深圳，從絕大多數方面看這絕對可以算是最近一段時間內做的最正確的決策之一，最直觀的結果就是擁有了完整三天個人假期，可以徹徹底底的放松下，提前進入下2025H1的項目攻堅狀態，把自己的心態拉回來。

過年期間并不算全部都是頹廢的生活，除去闔家團圓的傳統劇情，更具現實意義的是在摯友的推薦和自我興趣驅使下讀完了《親密關系》《惡意》《黃仁勛：英偉達之芯》《廊橋遺夢》，還有一本尚在 todo list 內的《信》，其實對于閱讀這件事情我一直很功利，這也是為什么之前只有在交通工具上時我才會讀非技術書，平時的大把時間也都是在讀領域相關的paper，但是慢慢的發覺，僅有領域知識是遠遠不夠解答所有的困惑的。

回到假期，深圳的三天除了正常的鍛煉，看朋友發給我的自媒體資料這兩個必做項之外，我一直想，在有限的剩余時間是輸入，輸出還是躺著？

輸出有三個選擇：

我非常想寫《黃仁勛：英偉達之芯》這本書的書評，雖然傳記類文章存在部分魔幻色彩，但是Jensen的經歷毋庸置疑是傳奇的，而且NVIDIA的崛起之路不夸張的講能讓一個癡迷技術的理工人看到顱內高潮，相比之下《騰訊傳》就顯得無趣多了。
我最近在做時序數據庫的MPP（Massively Parallel Processing），免不了需要去適配Exchange算子，也確實沒研究過其他的實現，但Velox中的實現的異步方式確實讓人耳目一新，其實現基于ExchangeQueue，ExchangeClient，ExchangeSources三個類，新的實現只需要繼承ExchangeSources就好，這里是絕對值得輸出的，且目前網上這里的資料是零。
Presto的HBO，也就是本文，這篇paper年前就看完了，我其實看絕大多數paper不會寫文章，但這篇文章揭示了一個現象，其與我的工作有一些想法上的聯系，即越細的監控粒度能夠帶來更多的可能性，如果能持續下壓性能和成本，這就是絕對符合公司（部門）戰略的事情，而且我最近也在負責優化器部分的重構，HBO的思路有可能在做部分修改后應用到X-Stor來。長久以來看慣了很多軟文的宏大敘事，但其實絕大多數人做的事情就是沒有顛覆性價值，摳出一點意義已經是值得投入以年計的時間了，這雖然讓人有時覺得沮喪，無力且壓抑，但是耐心沉淀對于個人來講也是必要的，畢竟Jensen也曾在AMD打工。

輸入有兩個選擇：

把新年檔的哪吒，唐探，封神看下，事實上已經快忘了我上次在影院看電影是多少年前了
還有兩本書想看

躺著：

思考當下生活的核心矛盾點，思考未來想做好的事情，思考我真正想要的東西是什么

正如現在看到的這樣，最終的決策是選擇輸出HBO，如果文章寫完還有點剩下的時間，那就去深圳灣人才公園水池旁邊的草坪上躺著看星星。

Motivation

Presto的Cardinality Estimator依賴于如下統計信息，粒度為partition級別:

Overall cardinality of the partition
Column statitstics including
1. Average size
2. Number of distinct values
3. Number of null values
4. Range(min/max) for the values

傳統的CBO（Cost Based Optimizer）通常依靠離線過程收集有關輸入數據的統計信息，文章開篇點出CBO存在復雜查詢下Cardinality Estimation不準確的情況，進而導致查詢計劃的選擇無法達到最優，具體的，存在如下問題：

需要在查詢前執行分析
做出了很多Simplifying Assumptions，比如data uniformity， independence of filters and columns，在復雜表達式下通常無法準確預估Selectivity
使用更復雜的統計信息，比如multi-column和join histograms，但是需要額外的空間和時間，且很難處理，絕大多數系統沒有實現

LBO（Learning Based Optimizer）也是最近幾年比較火爆的一個方向，其最大的優勢是克服了傳統CBO的很多Simplifying Assumptions，但是也有如下缺點：

訓練和改進模型需要大量的投入
可解釋性差

HBO（History Based Optimizer）在 Operator Node 級別統計 Query Execution Statistics，并使用這些數據來預測相似查詢的未來性能。HBO基于一種假設，即用戶查詢雖然復雜，但本質上是重復性的，一般使用使用模版生成相同結構的查詢，這會造成查詢計劃基本一致，進而可以通過簡易的方法找到之前的統計信息，然后用來執行精確的估計，這種假設從我們的經驗來看是對的。

HBO解決了之前無法解決的問題：

Accuracy：在實際執行運行期間記錄統計數據，并在運算符級別進行跟蹤，消除了使用基礎表統計數據引入的較大估計誤差。
Automation：每次查詢運行時，歷史記錄都由輕量級進程跟蹤，從而避免了采樣開銷或模型訓練。
Adaptiveness：對基礎數據分布的更改會自動反映在跟蹤的歷史記錄中，并用于未來的優化。
Explicability：用戶和 DBA 可以查看估計數據的來源以及它與實際值的差距。

Architecture

Presto CBO可以為簡單查詢生成準確的估計，但隨著查詢變得越來越復雜，誤差幅度會呈指數級增長。

HBO希望做到的約束如下：

Estimates need to be accurate：解決復雜查詢下的基數估計不準的問題
Accommodate changes to both data and queries：數據和查詢不是靜態的，但是一般也不會短時間存在巨大波動，HBO要能適應數據變化
Minimal overhead to query processing：輕量級統計，無需大量計算
Ease of use and operation：可調試性，且用戶易于使用
Seamless integration with classic methods for deriving cost：HBO不可用回退至CBO

請添加圖片描述