Kafa面試經典題--Kafka為什么吞吐量大，速度快

這是一個非常核心的面試題和技術問題。Kafka 的高吞吐量和速度并非來自某一項“銀彈”技術，而是其架構設計中一系列精巧決策共同作用的結果。

Kafka 速度快的根本原因是，它的設計哲學是 “盡可能地避免不必要的開銷，并將硬件（尤其是磁盤和網絡）的性能壓榨到極致”。

這聽起來簡單，但絕大多數系統之所以慢，就是因為違反了這些原則。Kafka 通過以下設計完美踐行了這一哲學。

常見誤解：“Kafka 用磁盤存儲數據，磁盤IO慢，所以 Kafka 慢。”

現實：磁盤（無論是 HDD 還是 SSD）的順序讀寫性能遠遠高于隨機讀寫（可能差出千倍以上）。Kafka 的消息是追加（Append）寫入日志文件的，這是一個純粹的順序寫操作。消費消息時，也是通過偏移量（Offset）進行順序讀。

類比：這就像用磁帶錄音（順序寫）和用唱片機找某首歌里的某一秒（隨機讀）。前者雖然不能隨機跳轉，但持續寫入的速度極快。

傳統做法：很多系統會在用戶空間維護一個內存緩存（Heap），數據先寫入這里，再刷到磁盤。這會導致雙緩存問題：數據在 OS 的 Page Cache 和應用緩存中存了兩份，并且伴隨著頻繁的 GC 和對象創建開銷。
Kafka 的做法：Kafka 直接利用操作系統的頁緩存（Page Cache） 來緩存數據。生產者寫入和消費者讀取消息，大部分都是在直接與內存（Page Cache）進行高速交互。
- 寫操作：數據直接寫入 Page Cache，由操作系統決定何時異步刷盤。這非常快。
- 讀操作：如果消費者消費的是“熱數據”（剛剛寫入或常讀），數據極大概率還在 Page Cache 中，相當于直接從內存讀取，速度極快。
好處：零拷貝的基礎、避免了 JVM GC overhead、充分利用 OS 高效的內存管理。

這是 Kafka 在消費端加速的殺手锏。

傳統的數據發送流程（從磁盤文件到網絡 socket）非常低效：

這個過程涉及 4 次上下文切換 和 4 次數據拷貝。

具體的流程如下：

步驟	操作	上下文切換	數據拷貝	執行者
1	`read()` 系統調用	第1次 (usr -> kernel)	-	CPU
2	磁盤 -> 內核緩沖區	-	第1次	DMA
3	內核緩沖區 -> 用戶緩沖區	-	第2次	CPU
4	`read()` 返回	第2次 (kernel -> usr)	-	CPU
5	`write()` 系統調用	第3次 (usr -> kernel)	-	CPU
6	用戶緩沖區 -> Socket緩沖區	-	第3次

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/94651.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/94651.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/94651.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！