從統計學習(也就是數學)的角度來分析深度學習模型的本質。
頻率派與貝葉斯派對模型本質理解的差異:前者認為學習參數估計,后者認為學習后驗分布。不過這個問題下概率分布的視角更本質。
三個核心部分:任務類型分類(推斷與生成)、模型本質的概率解釋、不同學習范式的數學統一性。
總結模型本質時,可以考慮引入變分推斷的觀點——所有學習都是在近似數據的真實概率分布。不同范式區別在于:監督學習近似條件分布,無監督學習近似聯合分布,而自監督通過代理任務逼近聯合分布的結構特性。
一、 AI模型能夠執行的主要任務類型
- 推斷 (Inference - 更常指預測/Prediction):
- 定義: 給定輸入數據
X
,模型預測或估計與之相關的輸出值Y
或Y
的某些屬性(如概率、置信度)。 - 核心: 學習
P(Y | X)
或其點估計(如均值、眾數)。目標是找到一個函數f: X -> Y
,使得預測? = f(X)
盡可能接近真實的Y
。 - 子類型:
- 分類 (Classification):
Y
是離散類別標簽 (e.g., 貓/狗, 垃圾郵件/正常郵件)。 - 回歸 (Regression):
Y
是連續數值 (e.g., 房價預測, 溫度預測)。 - 結構化預測 (Structured Prediction):
Y
具有復雜的結構 (e.g., 序列標注、句法樹預測、圖像分割圖)。 - 概率推斷 (Probabilistic Inference): 輸出
Y
的概率分布P(Y | X)
(e.g., 貝葉斯神經網絡輸出均值方差, 分類模型輸出各類別概率)。
- 分類 (Classification):
- 定義: 給定輸入數據
- 生成 (Generation):
- 定義: 模型學習數據
X
本身(或隱含變量Z
)的分布P(X)
或P(X, Z)
,并能夠從中采樣,創造出與訓練數據相似的新樣本X_new
。 - 核心: 學習聯合分布
P(X)
或P(X, Z)
,以及采樣機制。 - 子類型:
- 無條件生成: 直接生成新樣本
X_new ~ P(X)
(e.g., GAN生成新人臉, VAE生成新數字圖片)。 - 條件生成: 給定特定條件
C
(可以是類別標簽、文本描述、另一模態數據),生成符合該條件的樣本X_new ~ P(X | C)
(e.g., 文本生成圖像, 圖像修復, 機器翻譯, 語音合成)。
- 無條件生成: 直接生成新樣本
- 定義: 模型學習數據
重要關聯與區別:
- 生成模型通常也能做推斷: 一旦學習到了
P(X)
或P(X, Z)
,理論上可以通過貝葉斯定理計算P(Z | X)
或P(Y | X)
(如果Y
是X
的一部分或與Z
相關)。例如,VAE可以用于異常檢測(低似然度樣本),語言模型可以用于文本分類(計算文本屬于某類的概率)。 - 推斷模型不總能做生成: 純粹的判別模型(如邏輯回歸、SVM、標準CNN分類器)只建模
P(Y | X)
,沒有學習P(X)
,因此無法生成新的X
。 - 推斷是生成的核心組成部分: 許多強大的生成模型(如擴散模型、自回歸模型)在生成過程中反復進行條件預測/推斷。
二、 模型的本質:概率分布的學習
從統計學習的角度看,機器學習模型的核心本質確實是學習一個概率分布。
- 核心目標: 模型的目標是近似數據的真實但未知的生成分布
P_data
。 - 學習過程: 通過優化算法(如梯度下降)和損失函數(如負對數似然、交叉熵),利用訓練數據
D = {x_i, y_i}
或D = {x_i}
來調整模型參數θ
,使得模型定義的分布P_model(X, Y; θ)
或P_model(X; θ)
盡可能接近P_data(X, Y)
或P_data(X)
。 - 參數化: 模型
M
提供了一個參數化的函數族{P_model(·; θ) | θ ∈ Θ}
。學習就是在這個函數族中找到最優參數θ*
,使得P_model(·; θ*)
是P_data(·)
的最佳近似。
從學習范式看概率分布的本質
- 監督學習 (Supervised Learning):
- 目標: 學習從輸入
X
到輸出Y
的映射關系。 - 概率本質: 學習條件概率分布
P(Y | X)
。 - 數據: 訓練數據是標注好的樣本對
(X, Y)
。數據隱含地假設是從聯合分布P_data(X, Y)
中獨立同分布采樣得到的。 - 模型作用: 模型
M
參數化一個條件分布P_model(Y | X; θ)
。 - 損失函數: 通常基于條件對數似然的負值或與之相關的度量(如交叉熵用于分類,均方誤差可看作高斯分布下極大似然的特例)。最小化損失等價于最大化訓練數據在模型分布下的條件似然
Π_i P_model(y_i | x_i; θ)
。 - 例子: 分類器(學習
P(類別 | 圖像)
),回歸模型(學習P(連續值 | 特征)
,常假設為高斯分布),序列到序列模型(學習P(目標序列 | 源序列)
)。
- 目標: 學習從輸入
- 無監督學習 (Unsupervised Learning):
- 目標: 發現數據
X
本身的內在結構、模式或表示,沒有顯式的輸出標簽Y
。 - 概率本質: 學習數據
X
的聯合概率分布P(X)
或其隱含表示P(X, Z)
(Z
是隱變量)。 - 數據: 只有未標注的數據
{x_i}
。假設數據是從P_data(X)
中獨立同分布采樣得到的。 - 模型作用: 模型
M
參數化一個聯合分布P_model(X; θ)
或P_model(X, Z; θ)
。 - 損失函數: 通常基于數據對數似然的負值或相關目標(如重構誤差 + 正則項)。最小化損失等價于最大化訓練數據在模型分布下的似然
Π_i P_model(x_i; θ)
。 - 例子:
- 密度估計: 直接建模
P(X)
(e.g., 自回歸模型如PixelCNN, 流模型如RealNVP/Glow)。 - 聚類: 可看作學習
P(X, Z)
,其中Z
是聚類標簽(離散隱變量),目標是最大化P(X) = Σ_z P(X, Z)
。 - 降維 (PCA, t-SNE): 可看作學習數據的低維流形結構(隱空間
Z
),其概率解釋通常與高斯分布或t分布相關(t-SNE)。概率PCA (PPCA) 顯式建模P(X | Z)
和P(Z)
。 - 生成模型 (VAE, GAN, 擴散模型): 核心目標是學習
P(X)
以便生成新樣本。VAE顯式建模P(X, Z)
并學習變分下界;GAN通過對抗訓練隱式學習一個能從P_data(X)
采樣的生成器;擴散模型學習一個逐步去噪的過程,其目標可形式化為變分推斷或得分匹配。
- 密度估計: 直接建模
- 目標: 發現數據
- 自監督學習 (Self-Supervised Learning):
- 目標: 利用數據本身固有的結構或信息自動構造“偽標簽”或“代理任務”,從而學習數據的有用表示,通常為下游任務(監督或無監督)做準備。
- 概率本質: 巧妙地構造條件分布
P(Y_pseudo | X)
來學習聯合分布P(X)
或其內部表示。 本質上是一種利用數據自動生成監督信號來近似無監督學習目標P(X)
的策略。 - 數據: 只有未標注的數據
{x_i}
。 - 核心思想: 人為定義一個任務,將輸入數據
X
的一部分X_part
作為“輸入”,同一數據的另一部分X_rest
或某種變換作為“偽標簽”Y_pseudo
。模型學習預測Y_pseudo
給定X_part
。通過完成這個代理任務,模型被迫學習數據的內在結構和有用特征。 - 模型作用: 模型學習一個條件分布
P_model(Y_pseudo | X_part; θ)
。代理任務的損失函數(如交叉熵、對比損失)驅動參數學習。 - 與無監督的關系: 自監督學習是無監督學習的一個子集或一種實現策略。其最終目標通常也是學習
P(X)
或其良好表示(編碼器輸出)。它通過定義代理的監督任務(學習P(Y_pseudo | X_part)
)來間接達到這個目標。 - 例子:
- 掩碼語言建模 (MLM - BERT):
X_part
= 帶掩碼的句子,Y_pseudo
= 被掩碼的詞。學習P(掩碼詞 | 上下文)
。目標是學習語言表示。 - 自回歸語言建模 (GPT):
X_part
= 前序詞序列,Y_pseudo
= 下一個詞。學習P(下一個詞 | 前文)
。目標是顯式建模P(整個句子)
。 - 對比學習 (SimCLR, MoCo): 構造正負樣本對。模型學習將同一數據的不同增強視圖(
X_part
和X_part'
)的表示拉近(視為正對Y_pseudo=相似
),與其他數據的視圖推遠(負對Y_pseudo=不相似
)。學習P(相似 | 樣本對)
或更一般地,學習一個表示空間使得相似樣本靠近。 - 圖像旋轉預測:
X_part
= 旋轉后的圖像,Y_pseudo
= 旋轉角度。學習P(旋轉角度 | 圖像)
。 - 圖像補塊排序/拼圖:
X_part
= 打亂的圖像塊,Y_pseudo
= 正確的順序/位置。學習P(正確順序 | 亂序塊)
。
- 掩碼語言建模 (MLM - BERT):
三、 小結:AI/Model的統計學習本質
- 核心目標: 機器學習模型的核心本質是學習一個能夠最佳近似觀測數據真實生成過程
P_data
的參數化概率分布P_model(·; θ)
。 - 任務視角:
- 推斷/預測任務: 主要關注學習和利用條件概率分布
P(Y | X)
。 - 生成任務: 主要關注學習和利用聯合概率分布
P(X)
或P(X, Z)
以及從中采樣。
- 推斷/預測任務: 主要關注學習和利用條件概率分布
- 學習范式視角:
- 監督學習: 顯式地、直接地學習條件概率分布
P(Y | X)
。數據提供(X, Y)
對。 - 無監督學習: 顯式地或隱式地學習聯合概率分布
P(X)
或P(X, Z)
。數據只提供X
。 - 自監督學習: 是無監督學習的一種高效策略。它通過**構造代理條件分布 **
P(Y_pseudo | X_part)
并利用數據自身信息作為“偽標簽”來學習,其最終目標是學習P(X)
或其高質量的內部表示(編碼),為下游的監督或無監督任務服務。它巧妙地利用了監督學習的技術框架來解決無監督學習的核心問題。
- 監督學習: 顯式地、直接地學習條件概率分布
簡而言之,模型就是在參數化函數族中尋找一個參數 θ*
,使得 P_model(·; θ*)
成為 P_data(·)
的最佳代理。不同的學習范式和任務類型,決定了我們關注的是 P_data
的哪個具體部分(條件分布 P(Y|X)
還是聯合分布 P(X)
),以及我們如何利用數據(有無標簽 Y
, 是否構造偽標簽 Y_pseudo
)來驅動這個逼近過程。
四,自監督學習的補充