1. 如何決定分布式推理策略?
在深入探討分布式推理和服務之前,我們首先需要明確何時使用分布式推理以及可用的策略是什么。常見的做法如下:
-
單 GPU(無需分布式推理):
如果你的模型可以放入單個 GPU 中,那么你可能不需要使用分布式推理。直接使用單個 GPU 運行推理即可。 -
單節點多 GPU(張量并行推理):
如果你的模型太大,無法放入單個 GPU,但可以放入單個節點的多個 GPU 中,你可以使用張量并行(Tensor Parallelism)。張量并行大小是你希望使用的 GPU 數量。例如,如果你的單個節點有 4 個 GPU,可以將張量并行大小設置為 4。 -
多節點多 GPU(張量并行加流水線并行推理):
如果你的模型太大,無法放入單個節點,你可以結合使用張量并行和流水線并行(Pipeline Parallelism)。張量并行大小是每個節點中使用的 GPU 數量,流水線并行大小是你希望使用的節點數量。例如,如果你有 2 個節點共 16 個 GPU(每個節點 8 個 GPU),可