PyTorch 中mm和bmm函數的使用詳解

torch.mm 是 PyTorch 中用于 二維矩陣乘法（matrix-matrix multiplication）的函數，等價于數學中的 A × B 矩陣乘積。

一、函數定義

torch.mm(input, mat2) → Tensor

執行的是兩個 2D Tensor（矩陣）的標準矩陣乘法。

input: 第一個二維張量，形狀為 (n × m)
mat2: 第二個二維張量，形狀為 (m × p)
返回：形狀為 (n × p) 的張量

二、使用條件和注意事項

條件	說明
僅支持 2D 張量	一維或三維以上使用 `torch.matmul` 或 `@` 操作符
維度要匹配	即 `input.shape[1] == mat2.shape[0]`
不支持廣播	兩個矩陣維度不匹配會直接報錯
結果是普通矩陣乘積	不是逐元素乘法（Hadamard），即不是 `*` 或 `torch.mul()`

三、示例代碼

示例 1：基本矩陣乘法

import torchA = torch.tensor([[1., 2.], [3., 4.]])   # 2x2
B = torch.tensor([[5., 6.], [7., 8.]])   # 2x2C = torch.mm(A, B)
print(C)

輸出：

tensor([[19., 22.],[43., 50.]])

計算步驟：

C[0][0] = 1*5 + 2*7 = 19
C[0][1] = 1*6 + 2*8 = 22
...

示例 2：不匹配維度導致報錯

A = torch.rand(2, 3)
B = torch.rand(4, 2)
C = torch.mm(A, B)  # ? 會報錯

報錯：

RuntimeError: mat1 and mat2 shapes cannot be multiplied (2x3 and 4x2)

示例 3：推薦寫法（推薦使用 `@` 或 `matmul`）

A = torch.rand(3, 4)
B = torch.rand(4, 5)C1 = torch.mm(A, B)
C2 = A @ B                # 推薦用法
C3 = torch.matmul(A, B)   # 推薦用法

四、與其他乘法函數的比較

函數名	支持維度	運算類型	支持廣播
`torch.mm`	僅限二維	矩陣乘法	? 不支持
`torch.matmul`	1D, 2D, ND	自動判斷點乘 / 矩陣乘	? 支持
`torch.bmm`	批量二維乘法	3D Tensor batch × batch	? 不支持
`torch.mul`	任意維度	元素乘（Hadamard）	? 支持
`*` 運算符	任意維度	元素乘	? 支持
`@` 運算符	ND（推薦用）	矩陣乘法（和 matmul 一樣）	?

五、典型應用場景

神經網絡權重乘法：output = torch.mm(W, x)
點云 / 圖像變換：x' = torch.mm(R, x) + t
多層感知機中的矩陣計算
注意力機制中 QK^T 乘積

六、總結：什么時候用 `mm`？

使用場景	用什么
僅二維矩陣乘法	`torch.mm`
高維或支持廣播乘法	`torch.matmul` / `@`
批量矩陣乘法 (如 batch_size×3×3)	`torch.bmm`
元素乘	`torch.mul` or `*`

在 PyTorch 中，torch.bmm 是 批量矩陣乘法（batch matrix multiplication） 的操作，專用于處理三維張量（batch of matrices）。它的主要作用是對一組矩陣成對進行乘法，效率遠高于手動循環計算。

一、`torch.bmm` 語法

torch.bmm(input, mat2, *, out=None) → Tensor

input: Tensor，形狀為 (B, N, M)
mat2: Tensor，形狀為 (B, M, P)
返回結果形狀為 (B, N, P)

這表示對 B 對 N×M 和 M×P 的矩陣進行成對相乘。

二、示例演示

示例 1：基礎用法

import torch# 定義兩個 batch 矩陣
A = torch.randn(4, 2, 3)  # shape: (B=4, N=2, M=3)
B = torch.randn(4, 3, 5)  # shape: (B=4, M=3, P=5)# 批量矩陣乘法
C = torch.bmm(A, B)       # shape: (4, 2, 5)print(C.shape)  # 輸出: torch.Size([4, 2, 5])

示例 2：手動循環 vs bmm 效率對比

# 慢速手動方式
C_manual = torch.stack([A[i] @ B[i] for i in range(A.size(0))])# 等效于 bmm
C_bmm = torch.bmm(A, B)print(torch.allclose(C_manual, C_bmm))  # True

三、注意事項

1. 維度必須是三維張量

否則會報錯：

RuntimeError: batch1 must be a 3D tensor

你可以通過 .unsqueeze() 手動調整維度：

a = torch.randn(2, 3)
b = torch.randn(3, 4)# 升維
a_batch = a.unsqueeze(0)  # (1, 2, 3)
b_batch = b.unsqueeze(0)  # (1, 3, 4)c = torch.bmm(a_batch, b_batch)  # (1, 2, 4)

2. 維度必須滿足矩陣乘法規則

(B, N, M) × (B, M, P) → (B, N, P)
若 M 不一致會報錯：

RuntimeError: Expected size for the second dimension of batch2 tensor to match the first dimension of batch1 tensor

3. `bmm` 不支持廣播（broadcasting）

必須顯式提供相同的 batch size。
如果只有一個矩陣固定，可以使用 .expand()：

A = torch.randn(1, 2, 3)  # 單個矩陣
B = torch.randn(4, 3, 5)  # 4 個矩陣# 擴展 A 以進行 batch 乘法
A_expand = A.expand(4, -1, -1)
C = torch.bmm(A_expand, B)  # (4, 2, 5)

四、在實際應用中的例子

在點云變換中：批量乘旋轉矩陣

# 假設有 B 個旋轉矩陣和點坐標
R = torch.randn(B, 3, 3)       # 旋轉矩陣
points = torch.randn(B, 3, N)  # 點云# 先轉置點坐標為 (B, N, 3)
points_T = points.transpose(1, 2)  # (B, N, 3)# 用 bmm 做點變換：每組點乘旋轉
transformed = torch.bmm(points_T, R.transpose(1, 2))  # (B, N, 3)

五、總結

特性	torch.bmm
操作對象	三維張量（batch of matrices）
核心規則	`(B, N, M) x (B, M, P) = (B, N, P)`
是否支持廣播	? 不支持，需要手動 `.expand()`
與 `matmul` 區別	`matmul` 支持更多廣播，`bmm` 更高效用于純批量矩陣乘法
應用場景	批量線性變換、點云配準、神經網絡前向傳播等

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/910304.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/910304.shtml
英文地址，請注明出處：http://en.pswp.cn/news/910304.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！