半監督學習(SSL)的目標是借助未標記數據輔助訓練,以期獲得比僅用帶標簽的監督學習范式更好的效果。但是,SSL的前提是數據分布需滿足某些假設。否則,SSL可能無法提升監督學習的效果,甚至會因誤導性推斷降低預測準確性。
半監督學習的相關假設包括:Self-training assumption,Co-training assumption,Generative model assumption,Cluster assumption,Low-density separation,Manifold assumption:
-
自訓練假設:自訓練模型的預測,尤其是高置信度的預測,往往是正確的。當該假設成立時,這些高置信度預測可視為真實標簽。
-
聚類假設:若兩點 x1 和 x2 屬于同一簇,則它們應屬于同一類別。該假設指的是,單一類別的數據傾向于形成一個簇,且當數據點可通過不經過任何低密度區域的短曲線連接時,它們屬于同一類簇。根據該假設,決策邊界不應穿過高密度區域,而應位于低密度區域。因此,學習算法可利用大量未標記數據調整分類邊界。
-
低密度分離假設:決策邊界應位于低密度區域,而非穿過高密度區域。低密度分離假設與聚類假設密切相關。我們可以從另一角度理解聚類假設:類別由低密度區域分隔。因為高密度區域的決策邊界會將一個簇分割為兩個不同類別,這會違背聚類假設。
以上翻譯了文獻[1]中的部分內容,具體內容請看原文獻。總的來說,自訓練假設是用帶標簽訓練模型,訓練好的模型用于預測未標注的數據,由此獲得了相應的偽標簽。聚類假設和低密度分離假設基本上相同,均認為決策邊界位于低密度區域。
低密度分離假設的直觀理解
低密度分離假設是半監督學習中一個核心且重要的理論前提。它描述了數據在特征空間中的分布特性,并為許多半監督學習方法(如熵最小化)提供了為什么利用未標記數據有效的理論依據。
如下圖,當決策邊界位于低密度區域時,模型對輸入的數據有確定性的預測(低熵),表明意這個點位于某個類別的高密度簇內部,遠離邊界。
當未標記的數據處于決策邊界附近,模型難以對這些未標記的數據進行分類,即做出高熵(不確定)的預測。
因此,熵最小化損失函數懲罰模型對未標記數據點做出高熵(不確定)的預測,強迫模型對這些點也必須給出低熵(自信、確定)的預測。表現為:
- 調整內部表示 (Feature Learning): 讓特征空間中原本靠近的不同類別點變得更容易區分(拉開距離),在它們之間創造出低密度間隙。
- 移動決策邊界 (Boundary Adjustment): 把邊界從當前穿過的、可能還是高密度混雜區(或高密度區邊緣)的地方,推離到旁邊數據更稀疏的低密度區域。
參考:
[1] Yang, Xiangli, et al. “A survey on deep semi-supervised learning.” IEEE transactions on knowledge and data engineering 35.9 (2022): 8934-8954.