(一)分布式計算要處理的問題
【老師提問:分布式計算要面臨什么問題?】
【老師總結】
分布式計算需要做到:
1.分區控制。把大的數據拆成一小份一小份的(分區,分片)讓多臺設備同時計算,所以要分區。
2.Shuffle控制。不同分區之間的數據是需要有關聯的,在不同的分區之間進行數據的傳輸就是Shuffle,也叫洗牌。
3.數據存儲\序列化\發送
4.數據計算API
等等一些功能。
【舉例講案例】
我們用期末考試結束,老師們批改全校試卷的例子來解釋這些概念。
老師們批改試卷時,會按照一定的規則進行分工。比如,先把試卷按照班級分成不同的 “分區”,每個班級的試卷就是一個獨立的分區,就像分布式計算中把數據劃分成不同的部分進行處理。然后,不同學科的老師負責批改相應學科的試卷,這就是 “區域控制”,每個學科區域專注于自己的任務。
在批改試卷之前,需要對試卷信息進行整理,就像 “數據的存儲序列化”。例如,將學生的基本信息、題目內容以及對應的分值等信息整理成規范的格式,以便于后續的處理。這個過程就如同將數據轉換為計算機能夠理解和處理的形式。
當試卷分發到各個老師手中開始批改時,這類似于 “發送數據” 和 “計算” 的過程。老師們根據評分標準給試卷打分,這就是 “計算” 操作,每個老師就如同一個計算節點,各自處理分配到的試卷任務。
而在批改過程中,可能會出現一些特殊情況,比如某些題目的評分標準需要進一步明確或者不同老師對某個答案的理解有差異。這時就需要進行溝通和協調,就像分布式計算中的 “SHUFFLE”(洗牌)過程。老師們會交流討論,重新梳理評分標準,確保批改結果的一致性。這個過程就像是在分布式系統中,不同節點之間的數據交換和協調,以保證整個任務的順利進行。