分庫分表、分布式數據庫、MPP

分庫分表、分布式數據庫、MPP的區別嗎？

一、MySQL分庫分表和MySQL分布式集群在性能方面各有優劣，具體取決于應用場景和需求。

MySQL分庫分表：

在分庫分表的場景下，可以將負載分散到多個數據庫實例上，從而提高整體性能。這種架構可以更好地處理大量并發請求，因為每個數據庫實例都可以獨立地處理一部分請求。此外，通過水平分庫和分表，可以大大增加單個數據庫的讀寫能力。但是，跨庫事務的處理可能會引入一些延遲，并且如果一個數據庫實例出現故障，整個系統的可用性可能會受到影響。

MySQL分布式集群：

分布式集群可以提供更好的可擴展性和高可用性。通過將多個數據庫實例組合成一個集群，可以輕松地增加系統的整體性能和容量。這種架構還可以實現負載均衡，將請求分散到不同的數據庫實例上。此外，一些分布式數據庫解決方案還提供了自動故障恢復功能，以確保系統的可用性。然而，分布式集群的架構相對復雜，數據一致性和事務管理的復雜性可能會增加。

綜上所述，MySQL分庫分表和MySQL分布式集群在性能方面各有優勢。選擇哪種架構取決于應用場景和需求。如果需要處理大量并發請求并且關注單個數據庫的性能，那么分庫分表可能更適合。如果需要更好的可擴展性和高可用性，并且愿意付出一些額外的復雜性，那么分布式集群可能是一個更好的選擇。

二、MySQL分庫分表和MySQL MPP（大規模并行處理）

是兩種不同的數據處理策略，它們在數據劃分方式、擴展性和事務處理方面存在一些差異。

1、數據劃分方式：

MySQL分庫分表：將數據劃分到不同的數據庫和表，通過水平或垂直的方式進行拆分。這種劃分方式可以減輕單個數據庫的
負載，提高查詢性能，但跨庫/跨表的事務處理可能變得復雜。MySQL MPP：采用分布式架構，將數據劃分成多個部分，并在多臺計算機上運行。每個節點都有自己的CPU、內存、磁盤和網絡連接，通過共享數據和計算資源進行協作，從而實現高速的處理能力和可擴展性。

擴展性：

MySQL分庫分表：通過增加數據庫實例的數量來擴展系統性能。每個數據庫實例可以獨立地處理一部分數據，從而實現負
載均衡。然而，這種擴展方式可能受到硬件資源的限制。MySQL MPP：通過增加計算節點來擴展系統性能。每個節點都可以獨立地處理一部分數據，從而實現高效的并行處理。
這種架構可以充分利用集群中的硬件資源，實現線性擴展。

事務處理：

MySQL分庫分表：跨庫/跨表的事務處理可能變得復雜。在分布式環境下，事務的一致性和同步問題需要額外關注和處理。MySQL MPP：分布式集群中的事務處理相對簡單。由于數據被劃分成多個部分并分布在不同的節點上，事務可以在各個節點
上獨立執行，減少了事務的一致性和同步問題。

綜上所述，MySQL分庫分表和MySQL MPP在數據劃分方式、擴展性和事務處理方面存在一定差異。選擇哪種策略取決于具體的業務需求和數據處理規模。如果需要處理大規模數據并充分利用硬件資源，那么MySQL MPP可能更適合。如果需要處理中等規模數據并關注單個數據庫的性能，那么MySQL分庫分表可能更合適。

1）分庫分表做法，主要是因為早期單機數據庫（主要還是MySQL這種低成本場景）下無法在一個庫一張表來承載同一業務表下所有的數據，因而將數據劃分到不同的物理庫表中去，從業務視角來形成一個大的邏輯表。這樣的話能夠充分利用水平拆分能力，來存儲超大的數據集。一般拆分邏輯依賴業務給出相關的字段，配合分表規則，來做hash、range的拆分。這種方式一般通過一些富客戶端來支持用戶sql，好處很直觀，針對點查詢效率很高，插入數據效率高，
缺點：問題點很多，也不太好解決，主要在于涉及到不同分庫的sql操作，比如怎么支持跨庫表join，怎么支持分布式事務來更新，如果sql中不帶分區鍵導致全邏輯表查詢等等。另外，數據量越來越大時有熱點問題怎么辦，數據怎么重分布，宕機怎么恢復，路由表變更怎么辦，怎么做多個實例的服務發現，怎么做讀寫分離，等等。

解決辦法：最終就是讓業務上做妥協，最終一致性，不支持join，允許局部節點故障，等等。

2）本質上，分庫分表中間件相當于把數據庫解決不了的問題推到業務側，讓業務參與解決或者妥協。隨著云計算平臺分布式數據庫越來越強大，分庫分表的技術會慢慢的退出歷史舞臺。簡單來說，分布式數據庫把上面的問題盡量的在數據系統內部解決掉，給客戶的接口非常簡單，統一的endpoint，標準的數據庫協議，完整的sql支持能力，等等，但內部一樣有各種數據分區邏輯。分布式數據庫從廣義上來說，就是實現數據庫語義的分布式架構下的系統，像云上各種OLTP和OLAP產品，應該都可以稱之為分布式數據庫。分布式數據庫中最重要的就是數據怎么擺放，數據在多個機器上平均分攤持有一份數據做sharding，還是多個節點相互復制一份數據做主備，還是利用底層共享存儲共享一份完整數據集，衍生出不一樣的系統架構和能力。

3）mpp數據庫主要區別于smp數據庫。后者一般是單機架構，而單機能力畢竟有限，在OLAP計算數據量非常大的時候，單機數據庫的分析能力非常有限。mpp數據庫構建一套分布式計算集群（mpp數據庫肯定是分布式系統，但狹義上應該不算那些只考慮數據切片的分布式數據庫），增強計算能力，在計算中再針對數據集做切片調度執行等，最終希望能實現計算力的水平擴展。廢話較多，總結一下。這些概念本身不是完全無關的，相互有關系。我接觸過的發展過程：單機數據庫，到主備分布式數據庫（解決高可用和數據高可靠），到分庫分表（sharding解決橫向擴展）+主備分布式數據庫（解決部分數據的可用和數據可靠性，全局數據無強一致保障），再到主備+內部自動分區和復雜分布式計算的分布式數據庫（數據，語義，能力，免運維都很強），再到數據層共享存儲、計算層橫向彈性擴縮容的分布式數據庫架構（能力越來越強，成本、彈性、故障恢復速度、災備等），等等。無論上單機還是分布式數據庫，針對單個sql，最終只會在一個節點上執行完成，而mpp數據庫會對這個sql執行計算任務分解，靠整個集群的算力分布式調度計算，最后整體完成sql。這個可能是與分布式數據庫的差異。但分布式數據庫與mpp數據庫不是一個差異化很大的概念，技術實現上也會有很多重疊的。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/167926.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/167926.shtml
英文地址，請注明出處：http://en.pswp.cn/news/167926.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！