為什么 MySQL 用 B+ 樹作為數據的索引,以及在 InnoDB 中數據庫如何通過 B+ 樹索引來存儲數據以及查找數據

http://www.liuzk.com/410.html

索引是一種數據結構,用于幫助我們在大量數據中快速定位到我們想要查找的數據。

索引最形象的比喻就是圖書的目錄了。注意這里的大量,數據量大了索引才顯得有意義,如果我想要在 [1,2,3,4] 中找到 4 這個數據,直接對全數據檢索也很快,沒有必要費力氣建索引再去查找。

索引在 MySQL 數據庫中分三類:

B+ 樹索引? Hash 索引? ?全文索引

我們今天要介紹的是工作開發中最常接觸到的 InnoDB 存儲引擎中的 B+ 樹索引。要介紹 B+ 樹索引,就不得不提二叉查找樹,平衡二叉樹和 B 樹這三種數據結構。B+ 樹就是從他們仨演化來的。

二叉查找樹

首先,讓我們先看一張圖:


從圖中可以看到,我們為 user 表(用戶信息表)建立了一個二叉查找樹的索引。

圖中的圓為二叉查找樹的節點,節點中存儲了鍵(key)和數據(data)。鍵對應 user 表中的 id,數據對應 user 表中的行數據。

二叉查找樹的特點就是任何節點的左子節點的鍵值都小于當前節點的鍵值,右子節點的鍵值都大于當前節點的鍵值。頂端的節點我們稱為根節點,沒有子節點的節點我們稱之為葉節點。

如果我們需要查找 id=12 的用戶信息,利用我們創建的二叉查找樹索引,查找流程如下:

將根節點作為當前節點,把 12 與當前節點的鍵值 10 比較,12 大于 10,接下來我們把當前節點>的右子節點作為當前節點。

繼續把 12 和當前節點的鍵值 13 比較,發現 12 小于 13,把當前節點的左子節點作為當前節點。

把 12 和當前節點的鍵值 12 對比,12 等于 12,滿足條件,我們從當前節點中取出 data,即 id=12,name=xm。


利用二叉查找樹我們只需要 3 次即可找到匹配的數據。如果在表中一條條的查找的話,我們需要 6 次才能找到。

平衡二叉樹

上面我們講解了利用二叉查找樹可以快速的找到數據。但是,如果上面的二叉查找樹是這樣的構造:



這個時候可以看到我們的二叉查找樹變成了一個鏈表。如果我們需要查找 id=17 的用戶信息,我們需要查找 7 次,也就相當于全表掃描了。?

導致這個現象的原因其實是二叉查找樹變得不平衡了,也就是高度太高了,從而導致查找效率的不穩定。

為了解決這個問題,我們需要保證二叉查找樹一直保持平衡,就需要用到平衡二叉樹了。?

平衡二叉樹又稱 AVL 樹,在滿足二叉查找樹特性的基礎上,要求每個節點的左右子樹的高度差不能超過 1。?

下面是平衡二叉樹和非平衡二叉樹的對比:


由平衡二叉樹的構造我們可以發現第一張圖中的二叉樹其實就是一棵平衡二叉樹。

平衡二叉樹保證了樹的構造是平衡的,當我們插入或刪除數據導致不滿足平衡二叉樹不平衡時,平衡二叉樹會進行調整樹上的節點來保持平衡。具體的調整方式這里就不介紹了。

平衡二叉樹相比于二叉查找樹來說,查找效率更穩定,總體的查找速度也更快。

B 樹

因為內存的易失性。一般情況下,我們都會選擇將 user 表中的數據和索引存儲在磁盤這種外圍設備中。

但是和內存相比,從磁盤中讀取數據的速度會慢上百倍千倍甚至萬倍,所以,我們應當盡量減少從磁盤中讀取數據的次數。

另外,從磁盤中讀取數據時,都是按照磁盤塊來讀取的,并不是一條一條的讀。

如果我們能把盡量多的數據放進磁盤塊中,那一次磁盤讀取操作就會讀取更多數據,那我們查找數據的時間也會大幅度降低。

如果我們用樹這種數據結構作為索引的數據結構,那我們每查找一次數據就需要從磁盤中讀取一個節點,也就是我們說的一個磁盤塊。

我們都知道平衡二叉樹可是每個節點只存儲一個鍵值和數據的。那說明什么?說明每個磁盤塊僅僅存儲一個鍵值和數據!那如果我們要存儲海量的數據呢?

可以想象到二叉樹的節點將會非常多,高度也會極其高,我們查找數據時也會進行很多次磁盤 IO,我們查找數據的效率將會極低!

為了解決平衡二叉樹的這個弊端,我們應該尋找一種單個節點可以存儲多個鍵值和數據的平衡樹。也就是我們接下來要說的 B 樹。

B 樹(Balance Tree)即為平衡樹的意思,下圖即是一棵?B 樹:

圖中的 p 節點為指向子節點的指針,二叉查找樹和平衡二叉樹其實也有,因為圖的美觀性,被省略了。

圖中的每個節點稱為頁,頁就是我們上面說的磁盤塊,在 MySQL 中數據讀取的基本單位都是頁,所以我們這里叫做頁更符合 MySQL 中索引的底層數據結構。


從上圖可以看出,B 樹相對于平衡二叉樹,每個節點存儲了更多的鍵值(key)和數據(data),并且每個節點擁有更多的子節點,子節點的個數一般稱為階,上述圖中的 B 樹為 3 階 B 樹,高度也會很低。

基于這個特性,B 樹查找數據讀取磁盤的次數將會很少,數據的查找效率也會比平衡二叉樹高很多。

假如我們要查找 id=28 的用戶信息,那么我們在上圖 B 樹中查找的流程如下:

先找到根節點也就是頁 1,判斷 28 在鍵值 17 和 35 之間,那么我們根據頁 1 中的指針 p2 找到頁 3。

將 28 和頁 3 中的鍵值相比較,28 在 26 和 30 之間,我們根據頁 3 中的指針 p2 找到頁 8。

將?28 和頁 8 中的鍵值相比較,發現有匹配的鍵值 28,鍵值 28 對應的用戶信息為(28,bv)。


B+ 樹

B+?樹是對 B 樹的進一步優化。讓我們先來看下 B+ 樹的結構圖:


根據上圖我們來看下 B+?樹和 B 樹有什么不同:

①B+?樹非葉子節點上是不存儲數據的,僅存儲鍵值,而 B 樹節點中不僅存儲鍵值,也會存儲數據。

之所以這么做是因為在數據庫中頁的大小是固定的,InnoDB 中頁的默認大小是 16KB。

如果不存儲數據,那么就會存儲更多的鍵值,相應的樹的階數(節點的子節點樹)就會更大,樹就會更矮更胖,如此一來我們查找數據進行磁盤的 IO 次數又會再次減少,數據查詢的效率也會更快。

另外,B+ 樹的階數是等于鍵值的數量的,如果我們的 B+ 樹一個節點可以存儲 1000?個鍵值,那么 3 層 B+ 樹可以存儲 1000×1000×1000=10 億個數據。

一般根節點是常駐內存的,所以一般我們查找 10 億數據,只需要 2 次磁盤 IO。

②因為 B+ 樹索引的所有數據均存儲在葉子節點,而且數據是按照順序排列的。

那么 B+ 樹使得范圍查找,排序查找,分組查找以及去重查找變得異常簡單。而 B 樹因為數據分散在各個節點,要實現這一點是很不容易的。

有心的讀者可能還發現上圖 B+ 樹中各個頁之間是通過雙向鏈表連接的,葉子節點中的數據是通過單向鏈表連接的。

其實上面的 B 樹我們也可以對各個節點加上鏈表。這些不是它們之前的區別,是因為在 MySQL 的 InnoDB 存儲引擎中,索引就是這樣存儲的。

也就是說上圖中的 B+ 樹索引就是 InnoDB 中 B+ 樹索引真正的實現方式,準確的說應該是聚集索引(聚集索引和非聚集索引下面會講到)。

通過上圖可以看到,在 InnoDB 中,我們通過數據頁之間通過雙向鏈表連接以及葉子節點中數據之間通過單向鏈表連接的方式可以找到表中所有的數據。

MyISAM 中的 B+ 樹索引實現與 InnoDB 中的略有不同。在 MyISAM 中,B+ 樹索引的葉子節點并不存儲數據,而是存儲數據的文件地址。


聚集索引 VS?非聚集索引

在上節介紹 B+ 樹索引的時候,我們提到了圖中的索引其實是聚集索引的實現方式。

那什么是聚集索引呢?在 MySQL 中,B+ 樹索引按照存儲方式的不同分為聚集索引和非聚集索引。

這里我們著重介紹 InnoDB 中的聚集索引和非聚集索引:

聚集索引(聚簇索引):以 InnoDB 作為存儲引擎的表,表中的數據都會有一個主鍵,即使你不創建主鍵,系統也會幫你創建一個隱式的主鍵。

這是因為 InnoDB 是把數據存放在 B+ 樹中的,而 B+?樹的鍵值就是主鍵,在 B+?樹的葉子節點中,存儲了表中所有的數據。

這種以主鍵作為 B+ 樹索引的鍵值而構建的 B+?樹索引,我們稱之為聚集索引。

非聚集索引(非聚簇索引):以主鍵以外的列值作為鍵值構建的 B+ 樹索引,我們稱之為非聚集索引。

非聚集索引與聚集索引的區別在于非聚集索引的葉子節點不存儲表中的數據,而是存儲該列對應的主鍵,想要查找數據我們還需要根據主鍵再去聚集索引中進行查找,這個再根據聚集索引查找數據的過程,我們稱為回表。

明白了聚集索引和非聚集索引的定義,我們應該明白這樣一句話:數據即索引,索引即數據。

利用聚集索引和非聚集索引查找數據

前面我們講解 B+ 樹索引的時候并沒有去說怎么在 B+ 樹中進行數據的查找,主要就是因為還沒有引出聚集索引和非聚集索引的概念。

下面我們通過講解如何通過聚集索引以及非聚集索引查找數據表中數據的方式介紹一下 B+ 樹索引查找數據方法。

利用聚集索引查找數據

還是這張 B+ 樹索引圖,現在我們應該知道這就是聚集索引,表中的數據存儲在其中。

現在假設我們要查找 id>=18 并且 id<40?的用戶數據。對應的 sql 語句為:

MySQL

1select * from user where id>=18 and id <40

其中 id 為主鍵,具體的查找過程如下:

①一般根節點都是常駐內存的,也就是說頁 1 已經在內存中了,此時不需要到磁盤中讀取數據,直接從內存中讀取即可。

從內存中讀取到頁 1,要查找這個 id>=18 and id <40?或者范圍值,我們首先需要找到 id=18 的鍵值。

從頁 1 中我們可以找到鍵值 18,此時我們需要根據指針 p2,定位到頁 3。

②要從頁 3 中查找數據,我們就需要拿著 p2 指針去磁盤中進行讀取頁 3。

從磁盤中讀取頁 3 后將頁 3 放入內存中,然后進行查找,我們可以找到鍵值 18,然后再拿到頁 3 中的指針 p1,定位到頁 8。

③同樣的頁 8 頁不在內存中,我們需要再去磁盤中將頁 8 讀取到內存中。

將頁 8 讀取到內存中后。因為頁中的數據是鏈表進行連接的,而且鍵值是按照順序存放的,此時可以根據二分查找法定位到鍵值 18。

此時因為已經到數據頁了,此時我們已經找到一條滿足條件的數據了,就是鍵值 18 對應的數據。

因為是范圍查找,而且此時所有的數據又都存在葉子節點,并且是有序排列的,那么我們就可以對頁 8 中的鍵值依次進行遍歷查找并匹配滿足條件的數據。

我們可以一直找到鍵值為 22 的數據,然后頁 8 中就沒有數據了,此時我們需要拿著頁 8 中的 p 指針去讀取頁 9 中的數據。

④因為頁 9 不在內存中,就又會加載頁 9 到內存中,并通過和頁 8 中一樣的方式進行數據的查找,直到將頁 12 加載到內存中,發現 41 大于 40,此時不滿足條件。那么查找到此終止。

最終我們找到滿足條件的所有數據,總共 12 條記錄:

(18,kl), (19,kl), (22,hj), (24,io), (25,vg) , (29,jk), (31,jk) , (33,rt) , (34,ty) , (35,yu) , (37,rt) , (39,rt) 。

下面看下具體的查找流程圖

利用非聚集索引查找數據


讀者看到這張圖的時候可能會蒙,這是啥東西啊?怎么都是數字。如果有這種感覺,請仔細看下圖中紅字的解釋。

什么?還看不懂?那我再來解釋下吧。首先,這個非聚集索引表示的是用戶幸運數字的索引(為什么是幸運數字?一時興起想起來的:-)),此時表結構是這樣的。

在葉子節點中,不再存儲所有的數據了,存儲的是鍵值和主鍵。對于葉子節點中的 x-y,比如 1-1。左邊的 1 表示的是索引的鍵值,右邊的 1 表示的是主鍵值。

如果我們要找到幸運數字為 33 的用戶信息,對應的 sql 語句為:

MySQL

1select * from user where luckNum=33

查找的流程跟聚集索引一樣,這里就不詳細介紹了。我們最終會找到主鍵值 47,找到主鍵后我們需要再到聚集索引中查找具體對應的數據信息,此時又回到了聚集索引的查找流程。

下面看下具體的查找流程圖:

在 MyISAM 中,聚集索引和非聚集索引的葉子節點都會存儲數據的文件地址。

總結

本篇文章從二叉查找樹,詳細說明了為什么 MySQL 用 B+ 樹作為數據的索引,以及在 InnoDB 中數據庫如何通過 B+?樹索引來存儲數據以及查找數據。

我們一定要記住這句話:數據即索引,索引即數據。



喜歡的朋友記得點贊、收藏、關注哦!!!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/904662.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/904662.shtml
英文地址,請注明出處:http://en.pswp.cn/news/904662.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AWS VPC架構師指南:從零設計企業級云網絡隔離方案

一、VPC核心概念解析 1.1 核心組件 VPC&#xff1a;邏輯隔離的虛擬網絡&#xff0c;可自定義IPv4/IPv6地址范圍&#xff08;CIDR塊&#xff09; 子網&#xff08;Subnet&#xff09;&#xff1a; 公有子網&#xff1a;綁定Internet Gateway&#xff08;IGW&#xff09;&#…

HuggingFace與自然語言處理(從框架學習到經典項目實踐)[ 01 API操作 ]

本教程適用與第一次接觸huggingface與相應框架和對nlp任務感興趣的朋友&#xff0c;該欄目目前更新總結如下&#xff1a; ??Tokenizer??&#xff1a; 支持單句/雙句編碼&#xff0c;自動處理特殊符號和填充。 批量編碼提升效率&#xff0c;適合訓練數據預處理。Datasets?…

【LeetCode 42】接雨水(單調棧、DP、雙指針)

題面&#xff1a; 思路&#xff1a; 能接雨水的點&#xff0c;必然是比兩邊都低&#xff08;小&#xff09;的點。有兩種思路&#xff0c;一種是直接計算每個點的最大貢獻&#xff08;也就是每個點在縱向上最多能接多少水&#xff09;&#xff0c;另一種就是計算每個點在橫向上…

【嵌入式開發-USB】

嵌入式開發-USB ■ USB簡介 ■ USB簡介

Visual Studio 項目轉Qt項目

1. 先確保qmake 和 minGW &#xff08;g&#xff09; 路徑都在系統變量內&#xff1b;或者通過WinR -> cmd 來檢測&#xff0c; 如果能夠 顯示qmake 的信息 &#xff0c; g 的信息 &#xff0c; 就說明設置環境變量成功。 2. 打開項目文件夾&#xff0c;在這里打開cmd, 換…

總線通信篇:I2C、SPI、CAN 的底層結構與多機通信設計

本文為嵌入式通信協議系列第三章,深入剖析 MCU 世界中的三大總線協議 —— I2C、SPI 和 CAN。 這些總線協議廣泛應用于傳感器數據采集、Flash 存儲、外設擴展、汽車電子、工業設備控制等領域,是嵌入式開發不可或缺的通信骨架。 ?? 一、總線通信的基本概念 1.1 什么是總線?…

sherpa:介紹

更多內容&#xff1a;XiaoJ的知識星球 目錄 1. sherpa 介紹 1. sherpa 介紹 sherpa是 Next-gen Kaldi 項目的部署框架。 sherpa 支持在各種平臺上部署與語音相關的預訓練模型&#xff0c;并提供多種語言綁定。 目前&#xff0c;sherpa 擁有以下子項目&#xff1a; k2-fsa/sh…

77.組合問題

主函數 combine def combine(self, n: int, k: int) -> List[List[int]]:result [] # 存放所有有效的組合self.backtracking(n, k, 1, [], result) # 從數字1開始搜索return result 作用&#xff1a;初始化并啟動回溯過程。參數&#xff1a; n4&#xff1a;數字范圍是1…

Oracle免費認證來襲

1、Oracle Cloud Infrastructure 2025 Foundations Associate” &#x1f517; 考證地址&#xff1a;https://mylearn.oracle.com/ou/exam-unproctored/oracle-cloud-infrastructure-2025-foundations-associate-1z0-1085-25/148056/241954 2、Oracle Cloud Infrastructure 2…

【Unet++】

這是一篇關于語義分割U-net及其變體網絡結構的介紹性文章&#xff0c;主要介紹了U-net、U-net以及U-net的基本結構、特點和應用。 以下是對這些核心內容的簡要概述&#xff1a; 1. 語義分割U-net概述: - 基本結構&#xff1a;U-net是一種編碼解碼結構的網絡&#xff0c;起初…

git可視化工具Fork軟件的詳細使用教程

Fork是一款流行的Git圖形化客戶端&#xff0c;適用于Windows和macOS平臺。使用起來確實很方便&#xff0c;唯一的缺陷就是正版需要付費使用&#xff01; Fork 安裝 官網下載地址&#xff1a;Fork官網地址https://git-fork.com/ 支持 macOS 和 Windows。 安裝完成后&#xff…

【JMeter技巧】GET請求如何傳遞Body參數?版本兼容性詳解場景需求

在實際接口測試中&#xff0c;有時會遇到特殊需求&#xff1a;需要給GET請求傳遞Body參數。但JMeter默認配置下&#xff0c;GET請求的Body數據會被自動忽略。本文將介紹如何通過配置解決這個問題。 配置步驟 1. 版本要求&#xff08;重要&#xff01;&#xff09; JMeter ≥ …

HTML5好看的水果蔬菜在線商城網站源碼系列模板9

文章目錄 1.設計來源1.1 主界面1.2 商品界面1.3 購物車界面1.4 心愿列表界面1.5 商品信息界面1.6 博客界面1.7 關于我們界面1.8 聯系我們界面1.9 常見問題界面1.10 登錄界面 2.效果和源碼2.1 動態效果2.2 源代碼 源碼下載萬套模板&#xff0c;程序開發&#xff0c;在線開發&…

es 里的Filesystem Cache 理解

文章目錄 背景問題1&#xff0c;Filesystem Cache 里放的是啥問題2&#xff0c;哪些查詢它們會受益于文件系統緩存問題3 查詢分析 背景 對于es 優化來說常常看到會有一條結論給&#xff0c;給 JVM Heap 最多不超過物理內存的 50%&#xff0c;且不要超過 31GB&#xff08;避免壓…

存儲器:DDR和獨立顯卡的GDDR有什么區別?

本文來簡要對比DDR&#xff08;Double Data Rate SDRAM&#xff09;和GDDR&#xff08;Graphics Double Data Rate SDRAM&#xff09;的區別&#xff0c;重點說明它們在設計、性能和應用上的差異&#xff1a; 1. 設計目標與架構 DDR&#xff1a;通用型DRAM&#xff0c;設計為…

【Electron】electron-vue 借助 element-ui UI 庫助力桌面應用開發

前面文章我們講過 electron 讓可以用 HTML、JS、CSS 開發桌面應用程序。而 electron-vue 是一個結合了 electron 與 vue 的套件。這樣我們就能方便地使用 vue 快速開發桌面應用。但是&#xff0c;vue 只是在 js 這層面做了大量的便捷的操作。對 UI 并未過多涉及。此時如果您在開…

Linux/AndroidOS中進程間的通信線程間的同步 - 消息隊列

本文介紹消息隊列&#xff0c;它允許進程之間以消息的形式交換數據。數據的交換單位是整個消息。 POSIX 消息隊列是引用計數的。只有當所有當前使用隊列的進程都關閉了隊列之后才會對隊列進行標記以便刪除。POSIX 消息有一個關聯的優先級&#xff0c;并且消息之間是嚴格按照優…

深入理解進程與線程、進程池與線程池:企業級開發實戰指南

簡介 并發編程是現代軟件開發的核心能力,而進程與線程、進程池與線程池是實現高效并發的關鍵技術。 本文將從基礎概念出發,深入解析它們的工作原理、優勢及適用場景,并提供Python、Java、C#等主流語言的實戰代碼,幫助開發者掌握企業級并發編程的最佳實踐。 一、進程與線程…

解鎖 LLM 推理速度:深入 FlashAttention 與 PagedAttention 的原理與實踐

寫在前面 大型語言模型 (LLM) 已經滲透到我們數字生活的方方面面,從智能問答、內容創作到代碼輔助,其能力令人驚嘆。然而,驅動這些強大模型的背后,是對計算資源(尤其是 GPU)的巨大需求。在模型推理 (Inference) 階段,即模型實際對外提供服務的階段,速度 (Latency) 和吞…

Go使用Gin寫一個對MySQL的增刪改查服務

首先用SQL創建一個包含id、name屬性的users表 create table users (id int auto_incrementprimary key,name varchar(255) null );查詢所有用戶信息&#xff1a; func queryData(db *sql.DB, w http.ResponseWriter) {rows, err : db.Query("SELECT * FROM users"…