CMU15445實驗總結(Spring 2023)

CMU15445實驗總結(Spring 2023)

背景

菜鳥博主是2024屆畢業生,學歷背景太差,導致23年秋招無果,準備奮戰春招。此前有讀過LevelDB源碼的經歷,對數據庫的了解也僅限于LevelDB。奔著”有對比才能學的深“的理念,以及緩解自身就業焦慮的想法,于是乎在2024.2.16日開始CMU15445(關系性數據庫)實驗之旅。截止到2.26日:將P2做完了。

因為C++的基礎還湊合,而且時間緊迫,于是跳過了p0實驗,建議之前沒學過C++同學,可以做做p0以熟悉現代C++的語法。

課程主頁鏈接:https://15445.courses.cs.cmu.edu/spring2023/

B站有一位up主“Moody-老師”,對著CMU15445的ppt按照自己的理解復現了每一次的講座,鏈接如下:https://space.bilibili.com/23722270

Project #1 - Buffer Pool

總結

該模塊是基于LRU-K Replacement Policy實現了一個內存池。簡單來講LRU-K Replacement Policy就是類似操作系統的內存頁面置換。

P1模塊實現的內存池,和LevelDB的Cache有相似的作用,只是LevelDB的Cache中實現的內存替換策略是最簡單的LRU算法,同時,LevelDB并沒有像本實驗中那樣一上來就分配那么多內存進行內存復用,而是采用了動態內存分配與釋放的方式,新的Block(或者Table)加到Cache中時,使用malloc分配內存,淘汰時,使用free直接釋放內存。可能這就是在BusTub中叫內存池,而在LevelDB中叫Cache的原因。

本實驗進行的比較順利,唯一主要弄清楚的是Frame和Page的區別。

  • Frame(4K): 就是內存頁,相應的frame_id就是Buffer Manager最開始申請的每個內存頁的唯一id號。

  • Page(4K): 就是磁盤頁,相應的page_id就是磁盤上每一頁的id號。

理清這兩個術語,接下來直接復現本模塊的業務代碼即可。

  1. 在實現class BufferPoolManager時,可以實現一個NewFrameUnlocked成員函數,方便在BufferPoolManager中獲得空閑內存頁(Frame)。

  2. 明確class Page的讀寫鎖是保護data_的,在class BufferPoolManager中無需對Page加讀寫鎖,從實現上也可以想清楚這點。

Gradescope測試

關于6個Fail的解釋

前三個是關于代碼規范的測試,沒有通過。。。

后三個是關于PageGuard的測試,我的實現參考了std::lock_guard,在構造時加讀寫鎖、在析構時,解讀寫鎖。但是因為出現了死鎖,猜測測試程序可能不支持這么實現,但其實并沒有錯誤。而且后續的B+樹索引實驗在使用PageGuard時并沒有出現死鎖。

gradescope測試

Project #2 - B+Tree

總結

該模塊就是基于磁盤(結合Buffer Pool Manager)實現一個B+樹的增刪查改,另外要保證線程安全。

和LevelDB對比,LevelDB使用LSM Tree的結構,其數據結構使用的是跳表、內存按層的方式,每層內部存儲SSTable文件的元數據,作為表級索引,SSTable文件尾部存儲著數據塊的索引,作為塊級索引,而每個數據塊的尾部存儲著數據索引,作為數據索引。在檢索一個key-value對時,由于LevelDB一層的各個部分之間是有序不重疊的,所以以二分為主。查詢方面,可能LevelDB會略差,但是增刪改,LevelDB可以做到“O(1)”(忽略內存插入跳表的操作)的時間復雜度,而使用B+的數據庫增刪查改時間復雜度都是O(logn)。LevelDB其實將真正的刪改延遲到了壓縮階段。具體細節有興趣的讀者可以自行看LevelDB的源碼。

B+樹的實現

考慮到遞歸方式調試困難,我采用了迭代式實現了B+樹

由于B+樹只在葉節點存數據,所有迭代式只需要保存從根節點定位到key的路徑然后根據規則進行調整即可。

約定:

  1. internal_page的kv關系如下:… key1 <= value1(value所代表的page中的key) < key2 <= value2 …

需了解的是:B+樹internal_page,索引為0的entry,其key是無效value是有效。即,B+樹internal_page中,key的數量 = value數量 - 1。而leaf page中,kv數量一樣。也正是存在這種關系,使得在插入和刪除時,internal page的處理更為復雜。

關于對我幫助很大的鏈接:

調試B+樹可視化調試方式可以參考這篇文章:https://www.cnblogs.com/wangzming/p/17479777.html

經驗貼:https://zhuanlan.zhihu.com/p/665802858?utm_id=0

B+樹-查找

我實現了一個輔助函數:

INDEX_TEMPLATE_ARGUMENTS
void BPLUSTREE_TYPE::FindPath(const KeyType &key, Context& ctx, bool write, Transaction *txn)

可以查找key并保存路徑。后面的插入和刪除都用到了該函數。

流程如下:

從root_page開始,根據key找到leaf_page,同時保存沿路的internal_page。

官方提供的查找偽代碼:

查找偽代碼

B+樹-插入

插入也是先調用FindPath記錄并鎖住沿路的page,然后自下而上迭代操作。

插入需要注意的是節點達到MAXSize時需要分裂。

對于leaf page的分裂

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>…

要分裂page_id為vn-1的leaf_page,流程如下:

  1. 以leaf_page的1/2處的kv作為分裂點,假設為<ki, vi>

  2. 將leaf_page節點中,索引為i(包括i)之后的所有的entry移動到new_leaf_page(index從0開始)中。

  3. 將leaf_page的next_page_id賦值給new_leaf_page的next_page_id。

  4. 將new_leaf_page_id賦值給leaf_page的next_page_id。

  5. 左孩子為vn-1(leaf_page的id),key為ki,右孩子為new_leaf_page_id(new_leaf_page的id)

  6. 將ki插到parent_page中。(即插到parent_page的index為n的地方)

分裂后parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<ki, new_page_id>、<kn, vn> 、<kn+1, vn+1>…

由于new_leaf_page中index為0處key還是有效的,所以,leaf page的分裂中,分裂點ki是復制并上移的。

對于internal page的分裂

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>…

要分裂page_id為vn-1的internal_page,流程如下:

  1. 以internal_page的1/2處的kv作為分裂點,假設為<ki, vi>

  2. 將internal_page節點中,索引為i(包括i)之后的所有的entry移動到new_internal_page(index從0開始)中。

  3. 左孩子為vn-1(internal_page的id),key為ki,右孩子為new_internal_page_id(new_internal_page的id)

  4. 將ki插到parent_page中。(即插到parent_page的index為n的地方)

分裂后parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<ki, new_page_id>、<kn, vn> 、<kn+1, vn+1>…

注意和leaf_page分裂時的區別。

由于new_internal_page中index為0處key是無效的,所以,internal page的分裂中,分裂點ki是上移的。

官方提供的插入偽代碼:

插入偽代碼1

插入偽代碼2

Gradescope測試

關于3個Fail的解釋

這三個是關于代碼規范的測試,所以沒有通過。

gradescope測試

B+樹-刪除

刪除也是先調用FindPath記錄并鎖住沿路的page,然后自下而上迭代操作。

刪除比較麻煩,需要考慮的情況比較多,但是一步一步,理清思路還是很好實現的。按規律來說,不能拆借就一定能合并,反之亦然。至于拆借和合并的時機,本文不過多贅述。

對于leaf page的拆借與合并

向left sibling拆借

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id為vn-1的leaf_page向left sibling借其最右端的entry,流程如下:

  1. 找到left sibling的page_id假設中是vn-2。移除并獲得其最右端的entryi,假設為<ki, vi>

  2. 根據上面的[約定1],將parent_page中的entryn-1(<kn-1, vn-1>)中的key更新為:ki。

  3. 將<ki, vi>插到page_id為vn-1的leaf page最前方。

向left sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<ki, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

向left sibling合并

我實現的合并,以大頁向小頁追加為原則

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id為vn-1的leaf_page和left sibling合并,流程如下:

  1. 找到left sibling的page_id假設中是vn-2。

  2. 將leaf_page所有的entry都追加到left_sibling中去。

  3. 將leaf_page的next_page_id賦值給left sibling的next_page_id。

  4. 刪除parent_page中index為n-1的entry。

和left sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn, vn> 、<kn+1, vn+1>、…

向right sibling拆借

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id為vn-1的leaf_page向right sibling借其最左端的entry,流程如下:

  1. 找到right sibling的page_id假設中是vn。移除并獲得其最左端的entryi,假設為<ki, vi>,為方便將entryi的下一個entry設為entryi+1<ki+1, vi+1>。

  2. 根據上面的[約定1],將parent_page中的entryn(<kn, vn>)中的key更新為:ki+1。

  3. 將<ki, vi>插到page_id為vn-1的leaf page最后方。

向right sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<ki, vn-1>、<ki+1, vn> 、<kn+1, vn+1>、…

向right sibling合并

還是以大頁向小頁追加為原則

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id為vn-1的leaf_page和right sibling合并,流程如下:

  1. 找到right sibling的page_id假設中是vn。

  2. 將right_sibling所有的entry都追加到leaf_page中去。

  3. 將right_sibling的next_page_id賦值給leaf_page的next_page_id。

  4. 刪除parent_page中index為n的entry。

和right sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn+1, vn+1>、…

對于internal page的拆借與合并

向left sibling拆借

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id為vn-1的internal_page向left sibling借其最右端的entry,流程如下:

  1. 找到left sibling的page_id假設中是vn-2。移除并獲得其最右端的entryi,假設為<ki, vi>

  2. 根據上面的[約定1],parent_page的key更新如下:

    • entryn-1(<kn-1, vn-1>) -> entryn-1(<ki, vn-1>)
    • entryi(<ki, vi>) -> entryi(<kn-1, vi>)(描述成<vi, kn-1>更合適)
  3. 將<kn-1, vi>按kv關系插到page_id為vn-1的internal page最前方。

向left sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<ki, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

向left sibling合并

以大頁向小頁追加為原則

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id為vn-1的internal_page和left sibling合并,流程如下:

  1. 找到left sibling的page_id假設中是vn-2。

  2. 將internal_page所有的entry(包括index為0,盡管key是無效的)都追加到left_sibling中去。

  3. 在left sibling中找到原來internal_page中index為0的entry(其key是無效key),將kn-1設為其key。

  4. 刪除parent_page中index為n-1的entry。

和left sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn, vn> 、<kn+1, vn+1>、…

向right sibling拆借

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id為vn-1的internal_page向right sibling借其最左端的entry,流程如下:

  1. 找到right sibling的page_id假設中是vn。取right sibling的entry0的value,以及entry1的key,組成entryi,假設為<k1, v0>。(描述成<v0, k1>更合適)

  2. 根據上面的[約定1],parent_page的key更新如下:

    • entryn(<kn, vn>) -> entryn(<k1, vn>)
    • entryi(<k1, v0>) -> entryi(<kn, v0>)
  3. 將<k1, v0>插到page_id為vn-1的internal page最后方。

向right sibling拆借后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<k1, vn> 、<kn+1, vn+1>、…

向right sibling合并

還是以大頁向小頁追加為原則

假設parent_page中有如下entry:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn, vn> 、<kn+1, vn+1>、…

page_id為vn-1的internal_page和right sibling合并,流程如下:

  1. 找到right sibling的page_id假設中是vn。

  2. 將right_sibling所有的entry(包括index為0,盡管key是無效的)都追加到internal_page中去。

  3. 在internal_page中找到原來right_sibling中index為0的entry(其key是無效key),將kn設為其key。

  4. 刪除parent_page中index為n的entry。

和right sibling合并后,parent_page的entry如下:

… 、<kn-2, vn-2>、<kn-1, vn-1>、<kn+1, vn+1>、…

官方提供的刪除偽代碼如下:

刪除偽代碼

Gradescope測試

關于3個Fail的解釋

這三個是關于代碼規范的測試,所以沒有通過。

gradescope測試

大總結

p1+p2兩個lab,大概花了10天,效率還是比較滿意的。后面還剩兩個project。目前核心在春招,所以準備放一放了。

CMU15445的lab做的還是爽的,就調試而言,起碼比6.824的lab友好很多了。


本章完結

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/714475.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/714475.shtml
英文地址,請注明出處:http://en.pswp.cn/news/714475.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

linux系統Jenkins工具配置webhook自動部署

Jenkins工具webhook自動部署 webhook自動部署webhook的意義操作流程jenkins頁面操作gitlab頁面操作 webhook自動部署 webhook的意義 自動化部署&#xff1a;Webhook 可以在代碼提交、合并請求或其他特定事件發生時自動觸發 Jenkins 構建和部署任務&#xff0c;從而實現自動化…

C#,K中心問題(K-centers Problem)的算法與源代碼

1 K中心問題&#xff08;K-centers Problem&#xff09; k-centers problem: 尋找k個半徑越小越好的center以覆蓋所有的點。 比如&#xff1a;給定n個城市和每對城市之間的距離&#xff0c;選擇k個城市放置倉庫&#xff08;或ATM或云服務器&#xff09;&#xff0c;以使城市…

【JavaEE進階】 Spring AOP源碼簡單剖析

文章目錄 &#x1f343;前言&#x1f340;Spring AOP源碼剖析?總結 &#x1f343;前言 前面的博客中&#xff0c;博主對代理模式進行了一個簡單的講解&#xff0c;接下來博主將對Spring AOP源碼進行簡單剖析&#xff0c;使我們對Spring AOP了解的更加深刻。 &#x1f340;Sp…

leetcode 簡單

1. 兩數之和 兩數之和 方法1&#xff1a;暴力枚舉 兩次for 循環&#xff0c;記錄索引和值&#xff0c;找到合適的值然后返回 方法2&#xff1a;使用哈希表 第一次for循環的時候&#xff0c;就可以使用哈希表記錄key的value&#xff0c;可以實現時間復雜度是1&#xff0c;要分…

【前端素材】推薦優質后臺管理系統網頁Highdmin平臺模板(附源碼)

一、需求分析 1、系統定義 后臺管理系統是一種用于管理和控制網站、應用程序或系統的管理界面。它通常被設計用來讓網站或應用程序的管理員或運營人員管理內容、用戶、數據以及其他相關功能。后臺管理系統是一種用于管理網站、應用程序或系統的工具&#xff0c;通常由管理員使…

express+mysql+vue,從零搭建一個商城管理系統7--文件上傳,大文件分片上傳

提示&#xff1a;學習express&#xff0c;搭建管理系統 文章目錄 前言一、安裝multer&#xff0c;fs-extra二、新建config/upload.js三、新建routes/upload.js四、修改routes下的index.js五、修改index.js六、新建上傳文件test.html七、開啟jwt驗證token&#xff0c;通過login接…

Vue.js+SpringBoot開發開放實驗室管理系統

目錄 一、摘要1.1 項目介紹1.2 項目錄屏 二、研究內容2.1 實驗室類型模塊2.2 實驗室模塊2.3 實驗管理模塊2.4 實驗設備模塊2.5 實驗訂單模塊 三、系統設計3.1 用例設計3.2 數據庫設計 四、系統展示五、樣例代碼5.1 查詢實驗室設備5.2 實驗放號5.3 實驗預定 六、免責說明 一、摘…

vue3的router

需求 路由組件一般放在&#xff0c;pages或views文件夾, 一般組件通常放在component文件夾 路由的2中寫法 子路由 其實就是在News組件里面&#xff0c;再定義一個router-view組件 他的子組件&#xff0c;機會渲染在router-view區域 路由傳參 <RouterLink :to"/news…

解決導入項目后在idea中不顯示的問題

問題&#xff1a; 今天下午重新打開寒假之前負責的項目&#xff0c;發現打不開了&#xff0c; 從master拉取最新代碼到我的分支&#xff0c;發現我的分支上顯示就是這樣子&#xff0c;無論怎么更新代碼都不行。 原因&#xff1a; 在上一次上傳代碼的時候&#xff0c;我把我分…

leetcode括號生成

題目描述 解題思路 首先看到題目&#xff0c;一開始是并沒有思路的。這時候可以在紙上進行演算一下結果。當只有一對括號的時候&#xff0c;我們可以得知結果[“()”],當有兩對括號的時候&#xff0c;我們可以發現&#xff0c;括號在第一個基礎上&#xff0c;要么在括號內部出…

靜態時序分析:SDC約束命令set_case_analysis詳解

相關閱讀 靜態時序分析https://blog.csdn.net/weixin_45791458/category_12567571.html?spm1001.2014.3001.5482 目錄 指定值 指定端口/引腳列表 簡單使用 set_case_analysis命令用于對電路進行特定模式的設定&#xff0c;例如對于一個工作在正常模式下的芯片&#xff0c;…

HTML5新特性:為Web帶來的翻天覆地變化

隨著互聯網的發展&#xff0c;HTML5作為Web開發的重要里程碑&#xff0c;為我們帶來了一系列令人興奮的新特性和功能。本文將帶領大家探索HTML5的新特性&#xff0c;揭示其對Web技術的巨大影響。 一、介紹 HTML5作為HTML的最新版本&#xff0c;不僅強化了網頁結構與內容&#…

Android 解決引入的三方庫中類名沖突問題

參考&#xff1a; Android開發——如何解決三方庫中的類名沖突問題_android 類沖突-CSDN博客 Android 解決 jar/aar 包類名沖突 - 簡書 實操步驟 1.提前安裝好unzip-5.51-bin&#xff0c;proguard-7.4.0&#xff0c;jarjar-1.4軟件 2.解壓包名沖突的 AAR 文件 進入到需要修…

reach功能的使用

1.reach添加后 1.reach添加后2 2.拷貝reach最后一幀的動作 3.刪除reach(注意畫選時如果reach延長不能直接刪否則以前的動畫也會刪掉&#xff0c;要縮短reach后再刪另外這兩個灰原點也要刪掉否則影響后邊新加clip的對齊會出現亂七八糟的事情) 4.刪除reach后&#xff0c;光標移到…

收藏:數據防泄漏系統推薦,數據防泄漏系統有哪些?

一金融機構在近期發生了一起數據泄露事件。 經過調查&#xff0c;發現是由于一名員工將包含客戶敏感信息的文件通過電子郵件發送給了未經授權的第三方。 這一事件導致客戶數據泄露&#xff0c;給該機構帶來了嚴重的聲譽損失和信任危機。 這一案例凸顯了數據防泄漏系統的重要性…

Neo4j aura 官方網站快速入門新手教精讀-從官方教程學習知識圖譜

Neo4j 官方網站快速入門新手教精讀 本文旨在為Neo4j新手提供一份全面的入門指南。除了基礎的文本解釋&#xff0c;我在里面還插入了每一步驟的詳細截圖或者自己畫的圖&#xff0c;從官方了解知識肯定比自己亂看要權威一些&#xff0c;有看不懂的不要糾結了解大概意思即可&#…

Java中心校智慧校園智慧班牌物聯網平臺源碼

目錄 智慧班牌 班牌首頁 班級信息 課表信息 視頻 圖片 進離校管理 人臉登錄頁 學生個人中心 請假管理 成績管理 家長留言 學生綁卡 學生評價 系統設置 通知管理 值日管理 倒計時 班級德育 班牌模式 1.課堂授課模式 2.家長會簽到模式 3.考場模式 4.班級…

React富文本編輯器開發(一)

這是一個系統的完整的教程&#xff0c;每一節文章的內容都很重要。這個教程學完后自己可以開發出一個相當完美的富文本編輯器了。下面就開始我們今天的內容&#xff1a; 安裝 是的&#xff0c;我們的開發是基于Slate的開發基礎&#xff0c;所以要安裝它&#xff1a; yarn ad…

【貪心算法】Leetcode 122. 買賣股票的最佳時機 II

【貪心算法】Leetcode 122. 買賣股票的最佳時機 II 122. 買賣股票的最佳時機 II貪心算法&#xff1a;整體利潤拆為每天的利潤&#xff0c;只收集每天的正利潤 122. 買賣股票的最佳時機 II ---------------&#x1f388;&#x1f388;122. 買賣股票的最佳時機 II 題目鏈接&…

【Excel PDF 系列】EasyExcel + iText 庫實現 Excel 轉換 PDF

你知道的越多&#xff0c;你不知道的越多 點贊再看&#xff0c;養成習慣 如果您有疑問或者見解&#xff0c;歡迎指教&#xff1a; 企鵝&#xff1a;869192208 文章目錄 前言轉換前后效果引入 pom 配置代碼實現定義 ExcelDataVo 對象主方法EasyExcel 監聽器 前言 最近遇到生成 …