怎么查看LLM Transformer 架構進行并行計算和設備映射
num_hidden_layers = model.config.num_hidden_layers
print(num_hidden_layers)
print(model)
LLM(大語言模型)通常是基于 Transformer 架構 構建的,它由多個模塊化的層(Layer)堆疊組成,每個層都有其獨特的作用。你問的 device_map
配置就是把這些層按功能或層級分布在多個設備(比如多個 GPU)上,來實現 模型并行。
?? 常見 LLM 層組件及其作用
模塊名 | 作用 | device_map 示例 |
---|---|---|
model.embed_tokens | 詞嵌入層(將 token 映射為向量) | device_map[' |