全監督、半監督、弱監督、無監督
- 全監督學習(Fully Supervised Learning)
- 數據標注:使用的數據集包含大量的輸入數據(特征)以及與之對應的準確標注信息(標簽)。
- 學習目標:通過學習輸入和輸出之間的映射關系,建立一個模型,使其能夠對新的、未見過的輸入數據進行準確的預測。
- 半監督學習(Semi-Supervised Learning)
- 數據標注:結合了少量的有標注數據和大量的無標注數據。在實際應用中,獲取大量準確的標注數據可能成本很高或耗時很長,而半監督學習可以利用未標注數據中的信息來輔助學習。
- 學習目標:利用有標注數據來學習基本的模式和特征,同時借助無標注數據來發現數據的分布結構、聚類信息等,以提高模型的泛化能力和性能。
- 應用場景:在數據標注成本較高的領域,如醫學圖像分析(標注醫學圖像需要專業知識和時間)、自然語言處理(標注大量文本數據困難)等有廣泛應用。
- 弱監督學習(Weakly Supervised Learning)
- 數據標注:使用的標注信息相對較弱或不精確。標注可能是粗粒度的(如只標注圖像中是否存在某類物體,而不標注具體位置)、不完整的(部分數據有標注,部分沒有)或不準確的(存在一定的標注誤差)。例如在圖像目標檢測中,只知道圖像中存在某些物體,但沒有詳細的物體邊界框標注。
- 學習目標:從這些弱標注數據中學習有效的模型,通過各種技術(如多實例學習、標簽傳播等)來推斷出更準確的預測結果。例如在弱監督的圖像分割中,利用圖像級別的標注信息來推斷出圖像中物體的具體分割區域。
- 應用場景:適用于難以獲取精確標注數據的場景,如視頻行為分析(精確標注視頻中的行為動作困難)、遙感圖像分析(標注大規模遙感圖像的細節信息不易,就可以利用現成模型生成為標簽來訓練新模型,這時只需要加入極少量的真是標簽,模型就能達到不錯的效果)等。
- 無監督學習(Unsupervised Learning)
- 數據標注:處理的數據集**完全沒有標注信息,只有輸入數據。**視覺領域代表性算法:MAE。
- 學習目標:旨在發現數據中的內在結構、模式和關系。常見的任務包括聚類、降維和異常檢測(發現數據中與正常模式不同的異常點)等。
- 應用場景:用于探索性數據分析、數據預處理、發現數據中的潛在規律等。如在市場細分中,通過聚類分析將客戶群體劃分為不同的細分市場,以便制定針對性的營銷策略。