數據結構第11節： B樹

B樹是一種自平衡的樹數據結構，它能夠保持數據排序，并且在插入、刪除和查找操作中具有對數時間復雜度。B樹廣泛應用于文件系統、數據庫和索引中，因為它們可以有效地處理大量數據。

B樹的特點：

所有葉子節點都位于同一層。
每個節點可以有多個子節點（至少兩個，最多為某個特定的最大值）。
節點包含一個關鍵字列表，這些關鍵字將子樹分為不同的范圍。
節點的關鍵字數量總是小于或等于其子節點的數量減一。
每個節點的關鍵字都是按照升序排列的。

下面是一個Python實現的B樹：

class BTreeNode:def __init__(self, t, leaf=False):self.t = tself.leaf = leafself.keys = []self.children = []class BTree:def __init__(self, t):self.root = BTreeNode(t, True)self.t = tdef insert(self, k):root = self.rootif len(root.keys) == (2 * self.t) - 1:s = BTreeNode(self.t, False)self.root = ss.children.insert(0, root)self.split_child(s, 0)self.insert_non_full(s, k)else:self.insert_non_full(root, k)def insert_non_full(self, x, k):i = len(x.keys) - 1if x.leaf:x.keys.append((None, None))while i >= 0 and k[0] < x.keys[i][0]:x.keys[i + 1] = x.keys[i]i -= 1x.keys[i + 1] = kelse:while i >= 0 and k[0] < x.keys[i][0]:i -= 1i += 1if len(x.children[i].keys) == (2 * self.t) - 1:self.split_child(x, i)if k[0] > x.keys[i][0]:i += 1self.insert_non_full(x.children[i], k)def split_child(self, x, i):t = self.ty = x.children[i]z = BTreeNode(t, y.leaf)x.children.insert(i + 1, z)x.keys.insert(i, y.keys[t - 1])z.keys = y.keys[t: (2 * t) - 1]y.keys = y.keys[0: t - 1]if not y.leaf:z.children = y.children[t: 2 * t]y.children = y.children[0: t - 1]def delete(self, k):# deletion code here...passdef search(self, k):# search code here...pass

在這個例子中，我們定義了兩個類：BTreeNode 和 BTree。BTreeNode 類表示B樹中的每個節點，而 BTree 類表示整個B樹。我們實現了插入和分裂操作，但刪除和搜索操作尚未實現。

案例分析：

假設我們要創建一個t=3的B樹，并插入以下關鍵字：(10, ‘a’), (20, ‘b’), (30, ‘c’), (40, ‘d’), (50, ‘e’)。

首先，我們創建一個空的B樹，然后插入第一個關鍵字 (10, ‘a’)。由于樹是空的，這個關鍵字將成為根節點的唯一關鍵字。

接下來，我們插入第二個關鍵字 (20, ‘b’)。因為根節點還沒有達到最大容量（2 * t - 1 = 5），我們可以直接將新關鍵字插入到適當的位置。

然后，我們插入第三個關鍵字 (30, ‘c’)。同樣地，由于根節點還沒有達到最大容量，我們可以直接將新關鍵字插入到適當的位置。

接下來，我們插入第四個關鍵字 (40, ‘d’)。此時，根節點已達到最大容量（5），我們需要創建一個新的父節點，并將根節點分裂成兩個子節點。我們將根節點的中間關鍵字 (20, ‘b’) 移動到新的父節點上，然后將剩下的關鍵字分別放入左右子節點。

最后，我們插入第五個關鍵字 (50, ‘e’)。由于根節點的右子節點還沒有達到最大容量，我們可以直接將新關鍵字插入到適當的位置。

最終的B樹如下所示：

          (20, 'b')/     \(10, 'a')   (30, 'c')\(40, 'd')\(50, 'e')

在上一個案例中，我們構建了一個t=3的B樹并插入了一些關鍵字。現在，讓我們繼續分析如何從這個B樹中刪除一個關鍵字，例如 (20, ‘b’)。

在B樹中，刪除操作可能涉及到以下步驟：

查找要刪除的關鍵字。
如果找到的關鍵字在葉節點中，則直接刪除。
如果找到的關鍵字在非葉節點中，則需要找到后繼或前驅節點，用它來替換要刪除的關鍵字，然后遞歸地刪除該后繼或前驅節點。
在刪除節點后，如果該節點的關鍵字數量低于最小限制（t-1），則可能需要與相鄰的兄弟節點合并或重新分配關鍵字以保持B樹的平衡。

現在，我們來刪除 (20, ‘b’)。

首先，我們在B樹中查找關鍵字 (20, ‘b’)。在本例中，(20, ‘b’) 是根節點的關鍵字。
因為 (20, ‘b’) 在非葉節點中，我們需要找到它的后繼節點。后繼節點是當前節點右側子樹中的最小關鍵字。在本例中，后繼節點是 (30, ‘c’)。
我們用 (30, ‘c’) 替換 (20, ‘b’)。現在，B樹如下所示：

          (30, 'c')/     \(10, 'a')   (40, 'd')\(50, 'e')

現在，我們需要遞歸地刪除 (30, ‘c’)。但是，(30, ‘c’) 已經被用作替換，因此不需要進一步刪除。
下一步是檢查是否有節點的關鍵字數量低于最小限制（t-1）。在這種情況下，根節點只有一個關鍵字，這滿足了最小限制。因此，我們不需要進行任何額外的操作。

最終的B樹如下所示：

          (30, 'c')/     \(10, 'a')   (40, 'd')\(50, 'e')

如果我們繼續向此B樹中添加或刪除關鍵字，B樹將自動進行調整，以保持平衡和排序特性。這種自平衡和排序特性使得B樹非常適合用于大型數據集和外部存儲，如文件系統、數據庫和索引。

在之前的案例分析中，我們討論了如何在B樹中插入和刪除關鍵字。現在，讓我們通過實際的源代碼實現來進一步了解B樹的刪除操作。

在我們之前給出的B樹代碼示例中，delete 方法尚未實現。為了實現刪除操作，我們需要添加以下代碼：

def delete(self, k):root = self.rootself.delete_entry(root, k)def delete_entry(self, x, k):i = 0while i < len(x.keys) and k[0] > x.keys[i][0]:i += 1if x.leaf:if i < len(x.keys) and x.keys[i][0] == k[0]:x.keys.pop(i)returnif i < len(x.keys) and x.keys[i][0] == k[0]:return self.delete_internal_node(x, k, i)elif len(x.children[i].keys) >= self.t:self.delete_entry(x.children[i], k)else:if i != 0 and i + 2 < len(x.children):if len(x.children[i - 1].keys) >= self.t:self.move_right(x, i)elif len(x.children[i + 1].keys) >= self.t:self.move_left(x, i)else:self.merge(x, i)self.delete_entry(x.children[i], k)def delete_internal_node(self, x, k, i):if x.leaf:if x.keys[i][0] == k[0]:x.keys.pop(i)returnif len(x.children[i].keys) >= self.t:x.keys[i] = self.find_predecessor(x.children[i])self.delete_entry(x.children[i], x.keys[i])elif len(x.children[i + 1].keys) >= self.t:x.keys[i] = self.find_successor(x.children[i + 1])self.delete_entry(x.children[i + 1], x.keys[i])else:self.merge(x, i)self.delete_entry(x.children[i], k)def find_predecessor(self, x):while not x.leaf:x = x.children[-1]return x.keys[-1]def find_successor(self, x):while not x.leaf:x = x.children[0]return x.keys[0]def move_right(self, x, i):child = x.children[i]sibling = x.children[i + 1]child.keys.append(x.keys[i])x.keys[i] = sibling.keys[0]sibling.keys.pop(0)if not child.leaf:child.children.append(sibling.children[0])sibling.children.pop(0)def move_left(self, x, i):child = x.children[i]sibling = x.children[i - 1]child.keys.insert(0, x.keys[i - 1])x.keys[i - 1] = sibling.keys[-1]sibling.keys.pop()if not child.leaf:child.children.insert(0, sibling.children[-1])sibling.children.pop()def merge(self, x, i):child = x.children[i]sibling = x.children[i + 1]child.keys.append(x.keys[i])child.keys += sibling.keyschild.children += sibling.childrenx.keys.pop(i)x.children.pop(i + 1)

現在，我們可以使用以下代碼測試B樹的刪除操作：

tree = BTree(3)
tree.insert((10, 'a'))
tree.insert((20, 'b'))
tree.insert((30, 'c'))
tree.insert((40, 'd'))
tree.insert((50, 'e'))tree.delete((20, 'b'))

這將刪除關鍵字 (20, ‘b’) 并自動調整B樹以保持平衡。最終的B樹如下所示：

          (30, 'c')/     \(10, 'a')   (40, 'd')\(50, 'e')

在這個示例中，我們實現了B樹的刪除操作，包括查找要刪除的關鍵字、用后繼或前驅節點替換要刪除的關鍵字、遞歸地刪除后繼或前驅節點以及維護B樹的平衡。這些操作確保了B樹在插入、刪除和查找操作中始終具有對數時間復雜度，使其成為處理大量數據和外部存儲的理想數據結構。

B樹的性質可以通過一個表格的形式來總結，這樣可以清晰地列出B樹的關鍵特征。以下是一個關于B樹性質的表格：

特性	描述
定義	B樹是一種自平衡的多路搜索樹，用于快速查找、插入和刪除操作。
階數	B樹的階數 `m` 定義了每個節點最多有多少個子節點。
最小度數	B樹的最小度數 `t`，等于 `m/2` 向上取整。
關鍵字數量	每個節點最多有 `m-1` 個關鍵字，至少有 `t-1` 個關鍵字（對于非根節點）。
子節點數量	每個節點至少有 `t` 個子節點（對于非根節點），最多有 `m` 個子節點。
根節點	根節點至少有一個關鍵字，最多有 `m-1` 個關鍵字。
葉子節點	所有葉子節點都位于同一層，并且不含有子節點。
關鍵字順序	節點中的關鍵字按升序排列。
分割規則	當一個節點的關鍵字數量超過 `m-1` 時，節點將被分割。
分割細節	分割時，中間關鍵字被提升到父節點，形成兩個新的子節點。
平衡性	B樹的所有路徑從根到葉的長度相同。

此外，下面是關于B樹插入、刪除和查找操作的表格：

操作	描述
插入	當插入一個關鍵字時，如果節點未滿，則直接插入；如果節點已滿，則節點將被分割，中間關鍵字提升到父節點。
刪除	刪除一個關鍵字可能涉及替換內部節點的關鍵字（用前驅或后繼），然后從葉節點刪除該關鍵字。如果刪除導致節點的關鍵字數量低于 `t-1`，則需要與兄弟節點合并或重新分配關鍵字。
查找	從根節點開始，比較關鍵字，向下遍歷到正確的子節點，直到找到關鍵字或到達葉節點。

這些表格提供了B樹的基本結構和操作的概覽，幫助理解其設計和功能。B樹的設計目的是為了優化磁盤I/O，因為磁盤讀寫通常涉及較大的塊，B樹允許在每次磁盤訪問時讀取更多的數據。