數據結構之二叉樹概念

數據結構之二叉樹

二叉樹
- 簡介
- 分類
- - 普通二叉樹
  - 平衡二叉樹
  - 滿二叉樹
  - 二叉搜索樹（二叉排序樹、二叉查找樹），
  - 平衡二叉樹
  - 紅黑樹
- B樹類型
- - B樹（B-樹、B_樹）
  - B+樹
  - B*樹

二叉樹

簡介

二叉樹(Binary Tree) ：是一種非常重要的非線性結構。：二叉樹是每個節點最多有兩個子樹的樹結構；
是n(n>=0)個結點的有限集合，它或者是空樹（n=0），或者是由一個根結點及兩顆互不相交的、分別稱為左子樹和右子樹的二叉樹所組成

節點：Node, 二叉樹是由N個節點組成，（每個節點有兩個子節點的指針（也可以沒有），分別為左子節點，右子節點）。

根節點：沒有父節點的節點就是根節點（唯一），也就是第一層的哪一個節點。如圖所示：4

葉子節點：沒有子節點的節點就是葉子節點。如圖所示：1，3，5，7

非葉子節點：有子節點的節點就是非葉子節點。如圖所示：2，6，4（4 是根節點也是特殊的非葉子節點）

度：表示節點的子節點個數，因為子節點最大數量為2 (左子，右子)，所以度最大為2.

高度：也稱樹的深度（層高）等，表示樹的層級。如圖所示：樹高度為3.

每層節點數量：N = 2^(h-1) . N（每層數量），h (層級)。

樹總節點數量：N = (2^h) - 1. N（每層數量），h (層級)。

如圖所示

在這里插入圖片描述

B樹類型

B樹（B-樹、B_樹）

一種平衡的多叉樹，稱為B樹（或B-樹、B_樹，B：balanced說明B樹和平衡樹有關系）
B樹是為磁盤等輔存設備設計的多路平衡查找樹，與二叉樹相比，B樹的每個非葉節點可以有多個子樹。因此，當總節點數量相同時，B樹的高度遠遠小于AVL樹和紅黑樹(B樹是一顆“矮胖子”)，磁盤IO次數大大減少。

在這里插入圖片描述

一棵M階B樹(M階數：表示此樹的結點最多有多少個孩子結點(子樹))是一棵平衡的m路搜索樹。它或者是空樹，或者是滿足下列性質的樹：

每個節點最多包含 m 個子節點
根結點至少有兩個子節點，除根節點外，每個非葉節點至少包含 m/2 個子節點；
擁有 k 個子節點的非葉節點將包含 k - 1 條記錄
每個非根節點所包含的關鍵字個數 j 滿足：┌m/2┐ - 1 <= j <= m - 1；
除根結點以外的所有結點(不包括葉子結點)的度數正好是關鍵字總數加1，故內部子樹個數 k 滿足：┌m/2┐ <= k <= m ；
所有的葉子結點都位于同一層。

簡單理解為：平衡多叉樹為B樹（每一個子節點上都是有數據的），葉子節點之間無指針相鄰

B樹的搜索，從根結點開始，如果查詢的關鍵字與結點的關鍵字相等，那么就命中；否則，如果查詢關鍵字比結點關鍵字小，就進入左兒子；如果比結點關鍵字大，就進入右兒子；如果左兒子或右兒子的指針為空，則報告找不到相應的關鍵字；重復，直到所對應的兒子指針為空，或已經是葉子結點

如果B樹的所有非葉子結點的左右子樹的結點數目均保持差不多（平衡），那么B樹的搜索性能逼近二分查找；但它比連續內存空間的二分查找的優點是，改變B樹結構（插入與刪除結點）不需要移動大段的內存數據，甚至通常是常數開銷；但B樹在經過多次插入與刪除后，有可能導致不同的結構

B-樹的特性：

關鍵字集合分布在整顆樹中；
任何一個關鍵字出現且只出現在一個結點中；
搜索有可能在非葉子結點結束；
其搜索性能等價于在關鍵字全集內做一次二分查找；
自動層次控制；

由于M階B樹每個結點最少M/2個結點的限制，是為了最大限度的減少查找路徑的長度，提供查找效率
B樹在數據庫中有一些應用，如mongodb的索引使用了B樹結構。但是在很多數據庫應用中，使用了是B樹的變種B+樹

B+樹

B+樹是B樹的一種變形形式，B+樹上的葉子結點存儲關鍵字以及相應記錄的地址，葉子結點以上各層作為索引使用。一棵m階的B+樹定義如下

每個結點至多有m個子女；
除根結點外，每個結點至少有[m/2]個子女，根結點至少有兩個子女；
有k個子女的結點必有k個關鍵字

B+樹的查找與B樹不同，當索引部分某個結點的關鍵字與所查的關鍵字相等時，并不停止查找，應繼續沿著這個關鍵字左邊的指針向下，一直查到該關鍵字所在的葉子結點為止。

在這里插入圖片描述

B+樹也是多路平衡查找樹，其與B樹的區別主要在于：

B樹中每個節點（包括葉節點和非葉節點）都存儲真實的數據，B+樹中只有葉子節點存儲真實的數據，非葉節點只存儲鍵。
在MySQL中，這里所說的真實數據，可能是行的全部數據（如Innodb的聚簇索引），也可能只是行的主鍵（如Innodb的輔助索引），或者是行所在的地址（如MyIsam的非聚簇索引）
點擊了解MySQL中索引數據結構分析
B樹中一條記錄只會出現一次，不會重復出現，而B+樹的鍵則可能重復重現——一定會在葉節點出現，也可能在非葉節點重復出現。
B+樹的葉節點之間通過雙向鏈表鏈接
B樹中的非葉節點，記錄數比子節點個數少1；而B+樹中記錄數與子節點個數相同。

由此，B+樹與B樹相比，有以下優勢：

更少的IO次數：B+樹的非葉節點只包含鍵，而不包含真實數據，因此每個節點存儲的記錄個數比B樹多很多（即階m更大），因此B+樹的高度更低，訪問時所需要的IO次數更少。此外，由于每個節點存儲的記錄數更多，所以對訪問局部性原理的利用更好，緩存命中率更高。
更適于范圍查詢：在B樹中進行范圍查詢時，首先找到要查找的下限，然后對B樹進行中序遍歷，直到找到查找的上限；而B+樹的范圍查詢，只需要對鏈表進行遍歷即可。
更穩定的查詢效率：B樹的查詢時間復雜度在1到樹高之間(分別對應記錄在根節點和葉節點)，而B+樹的查詢復雜度則穩定為樹高，因為所有數據都在葉節點。

B+樹也存在劣勢：由于鍵會重復出現，因此會占用更多的空間。但是與帶來的性能優勢相比，空間劣勢往往可以接受，因此B+樹的在數據庫中的使用比B樹更加廣泛。

B*樹

B*樹是B+樹的變體，在B+樹的非根和非葉子結點再增加指向兄弟的指針；
B*樹定義了非葉子結點關鍵字個數至少為(2/3)*M，即塊的最低使用率為2/3(代替B+樹的1/2)；

B+樹的分裂：當一個結點滿時，分配一個新的結點，并將原結點中1/2的數據復制到新結點，最后在父結點中增加新結點的指針；B+樹的分裂只影響原結點和父結點，而不會影響兄弟結點，所以它不需要指向兄弟的指針；

B*樹的分裂：當一個結點滿時，如果它的下一個兄弟結點未滿，那么將一部分數據移到兄弟結點中，再在原結點插入關鍵字，最后修改父結點中兄弟結點的關鍵字（因為兄弟結點的關鍵字范圍改變了）；如果兄弟也滿了，則在原結點與兄弟結點之間增加新結點，并各復制1/3的數據到新結點，最后在父結點增加新結點的指針；所以，B*樹分配新結點的概率比B+樹要低，空間使用率更高

B樹類型總結：

二叉搜索樹：二叉樹，每個結點只存儲一個關鍵字，等于則命中，小于走左結點，大于走右結點；
B樹(B-樹)：多路搜索樹，每個結點存儲M/2到M（M是指M階B樹）個關鍵字，非葉子結點存儲指向關鍵字范圍的子結點；所有關鍵字在整顆樹中出現，且只出現一次，非葉子結點可以命中；
B+樹：在B-樹基礎上，為葉子結點增加鏈表指針，所有關鍵字都在葉子結點中出現，非葉子結點作為葉子結點的索引；B+樹總是到葉子結點才命中；
B*樹：在B+樹基礎上，為非葉子結點也增加鏈表指針，將結點的最低利用率從1/2提高到2/3