【系統設計】2WTPS生產級數據處理系統設計Review

歡迎來到啾啾的博客🐱。
記錄學習點滴。分享工作思考和實用技巧，偶爾也分享一些雜談💬。
有很多很多不足的地方，歡迎評論交流，感謝您的閱讀與評論😄。

反正能用的系統

幾年前，我曾經參與過一個月工單10億級別（TPS數萬/秒）的系統開發，當時的架構設計大致如下。
圖以數據流為導向，省去了一些微服務架構組件。

![[數據處理系統-Review.png]]

很顯然，這個架構存在一個明顯的問題：數據分區后由不同的服務專門處理，若這個專職的服務掛掉，該分區的數據在服務恢復前都將無法得到處理。

那么，我們應該怎么改善這個設計呢？

每個專職服務都部署成多實例，從而提升容錯能力，解決部分功能性問題。

多實例會帶來一個問題：多個服務競爭同一批任務。

這是很簡單的資源競爭問題，可以簡單使用鎖來避免資源競爭。
在分布式架構中，使用第三方存儲即可解決，如Redis，ZooKeeper。
另外設計兜底機制，如果多個服務實例中存在不靠譜實例，競爭到了資源但是沒有完成，使用告警機制重新競爭處理。
以及從底層設計支持冪等，防止重復消費帶來問題。

關于任務：任務應該有一個唯一ID、狀態（如：待處理、處理中、已完成、失敗）、處理實例ID（可選，用于追蹤）、嘗試次數等字段。

實例需要嘗試獲取并鎖定一個“未處理”的任務批次。
因此，我們需要一種方式來標識數據分片。
如果數據本身有連續ID或者可以按某種規則分批，那是最好的。如果不行，可能需要預先在DB中標記好批次，或者有一個專門的“任務池”表。為了簡化，我們假設數據可以按ID范圍劃分。

簡單流程圖如下：
選定幾個實例負責加載任務，所有實例從任務池中獲取任務，并對任務加鎖（Redis的SETNX）。
![[數據處理系統-Review-4.png]]

詳細UML如下（AI生成）：
![[數據處理系統-Review-5.png]]

但是這樣設計容錯率還是不夠、且不能無法解決其他分區的動態資源分配問題。對所有服務來說性能也沒有利用到極致。

我們可以補充設計一個資源調度系統來解決所有問題。
簡單草圖如下：
![[數據處理系統-Review-3.png]]

很顯然，我們需要有

原來的數據庫分庫分表結構不做更改，需要分庫分表來緩解數據查詢壓力。
調度服務需要獲取數據與分配數據。
任務（數據）獲取注意事項：需要能感知數據源數據量、數據概要信息（比如區間信息，用于分區）。獲取連續數據、內存數據、多線程獲取并匯總信息用于分配。
任務分配：要避免多個分配者競爭。

很顯然，我們可以使用Kafka來解決上述問題。任務均發送至Kafka，由Kafka的rebalance機制進行任務調度，且Kafka消費者組可以很大程序上解決容錯問題。也較易擴展。

最后但是的團隊在一次迭代中選擇了容器化+主備模式的方式來解決容錯問題。
即，為每個專職服務設置一個備用實例。并且將服務容器化。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/81400.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/81400.shtml
英文地址，請注明出處：http://en.pswp.cn/web/81400.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！