一、多示例
? ? ??多示例學習屬于弱監督學習中的一種,在對模型進行訓練時,我們需要把訓練數據分成正負包,再將每個包分成大小相同的示例,并且我們只對包的正負進行標注,而不對示例進行分類。當某個包被標識為正時,該包里必須包含一個示例為正,而其他示例既可能是負,也可能是正。而當一個包被標記為負時,它里面的所有示例一定全部為負,如圖2-1所示。與監督學習相比,多示例學習中的每個示例都是沒有標注的,而與無監督學習相比,多示例學習的訓練數據包是有標注的。在以往的各類學習框架中,樣本與示例通常是一一對應的關系,而在多示例學習中,我們將一個樣本作為一個包,一個包中具有多個示例,樣本和示例是一對多的關系,這就使得用以往的訓練模式并沒有很好解決的問題,現在通過多示例學習就能夠更加容易的解決了。
? ? ? 弱監督學習根據數據集標簽情況大致可分為不完全監督、不確切監督和不準確監督學習三種:不完全監督學習中只有部分訓練數據帶有標簽,不確切監督學習中訓練數據只給出粗粒度的標簽,不準確監督學習中訓練數據的標簽并不都是正確的。多示例學習屬于不確切監督學習的一種,其只有粗粒度的標簽信息可用。在多示例學習中,訓練集由帶標簽的多示例學習包組成,多示例學習包由不帶標簽的示例構成,多示例學習算法的目的是預測測試集中多示例學習包的標簽并找出決定多示例學習包標簽的關鍵性示例。?
二、多標記學習
? ? ? 舉例來說,在功能基因組學問題中,每個基因可能同時具有多種功能,如“新 陳代謝”,“轉錄”以及“蛋白質合成”;在場景分類問題中,每幅場景圖像可能 同時包含了多種語義信息,如“海灘”與“城市”;在視頻自動標注問題中,每 個視頻片斷可能同時對應于多個語義類別,如“城市”與“建筑”等等。對于上 述這些多標記學習問題,訓練集中的每個示例均對應于一組概念標記,學習系統 通過對多標記示例構成的訓練集進行學習,以盡可能正確地預測訓練集之外的示 例的概念集合。
? ? ? ?如果限定每個樣本只對應于一個概念標記,那么傳統的二類以及多類學習問 題均可看作多標記學習問題的特例。然而另一方面,多標記學習問題的一般性使 得解決該問題的難度大大增加。一種直觀地解決多標記學習問題的方法是將其分 解為多個獨立的二類分類問題來求解,其中每個二類分類問題對應于一個可能的 概念類。然而,由于該類方法沒有考慮到每個樣本所對應的概念標記之間的相關性,因此其泛化性能往往并不理想。例如,在文檔類問題中,如果已知一篇文 檔隸屬于體育新聞類,則該文檔同時隸屬于休閑新聞類的可能性將大于其隸屬于 政治新聞類的可能性。再比如,如果已知一段視頻或一幅圖像隸屬于“野生動物” 類,則該視頻或圖像同時隸屬于“草原”類的可能性將大于其隸屬于“城市”類 的可能性。因此,多標記學習問題的主要難點就在于如何充分利用各訓練樣本所 含多個概念標記之間的相關性,從而有效地預測未知樣本的概念標記集合。
三、多示例多標簽學習
例如,在圖像分類問題中,一幅圖像通常包含多個區域其中每個區域可以由 一個示例進行表示,與此同時該圖像可能同時隸屬于“山”與“樹”等多個概念 標記;在文本分類問題中,每個文檔通常包含多個段落其中每個段落可以由一個 示例進行表示,而該文檔在從不同的角度進行考察時可能同時隸屬于“科幻小 說”、“儒勒·凡爾納作品”甚至“旅游書籍”類;
該學習框架下,每個對象由多個示例表示且同時隸屬于多個概念標記。