半監督學習:低密度分離假設 (Low-Density Separation Assumption)

半監督學習(SSL)的目標是借助未標記數據輔助訓練,以期獲得比僅用帶標簽的監督學習范式更好的效果。但是,SSL的前提是數據分布需滿足某些假設。否則,SSL可能無法提升監督學習的效果,甚至會因誤導性推斷降低預測準確性。

半監督學習的相關假設包括:Self-training assumptionCo-training assumptionGenerative model assumptionCluster assumptionLow-density separationManifold assumption

  • 自訓練假設:自訓練模型的預測,尤其是高置信度的預測,往往是正確的。當該假設成立時,這些高置信度預測可視為真實標簽。

  • 聚類假設:若兩點 x1 和 x2 屬于同一簇,則它們應屬于同一類別。該假設指的是,單一類別的數據傾向于形成一個簇,且當數據點可通過不經過任何低密度區域的短曲線連接時,它們屬于同一類簇。根據該假設,決策邊界不應穿過高密度區域,而應位于低密度區域。因此,學習算法可利用大量未標記數據調整分類邊界。

  • 低密度分離假設:決策邊界應位于低密度區域,而非穿過高密度區域。低密度分離假設與聚類假設密切相關。我們可以從另一角度理解聚類假設:類別由低密度區域分隔。因為高密度區域的決策邊界會將一個簇分割為兩個不同類別,這會違背聚類假設。

以上翻譯了文獻[1]中的部分內容,具體內容請看原文獻。總的來說,自訓練假設是用帶標簽訓練模型,訓練好的模型用于預測未標注的數據,由此獲得了相應的偽標簽。聚類假設低密度分離假設基本上相同,均認為決策邊界位于低密度區域。

低密度分離假設的直觀理解

低密度分離假設是半監督學習中一個核心且重要的理論前提。它描述了數據在特征空間中的分布特性,并為許多半監督學習方法(如熵最小化)提供了為什么利用未標記數據有效的理論依據。

如下圖,當決策邊界位于低密度區域時,模型對輸入的數據有確定性的預測(低熵),表明意這個點位于某個類別的高密度簇內部,遠離邊界。

在這里插入圖片描述

當未標記的數據處于決策邊界附近,模型難以對這些未標記的數據進行分類,即做出高熵(不確定)的預測。

在這里插入圖片描述

因此,熵最小化損失函數懲罰模型對未標記數據點做出高熵(不確定)的預測,強迫模型對這些點也必須給出低熵(自信、確定)的預測。表現為:

  • 調整內部表示 (Feature Learning): 讓特征空間中原本靠近的不同類別點變得更容易區分(拉開距離),在它們之間創造出低密度間隙。
  • 移動決策邊界 (Boundary Adjustment): 把邊界從當前穿過的、可能還是高密度混雜區(或高密度區邊緣)的地方,推離到旁邊數據更稀疏的低密度區域。

參考

[1] Yang, Xiangli, et al. “A survey on deep semi-supervised learning.” IEEE transactions on knowledge and data engineering 35.9 (2022): 8934-8954.

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/83721.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/83721.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/83721.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Python Day44

Task: 1.預訓練的概念 2.常見的分類預訓練模型 3.圖像預訓練模型的發展史 4.預訓練的策略 5.預訓練代碼實戰:resnet18 1. 預訓練的概念 預訓練(Pre-training)是指在大規模數據集上,先訓練模型以學習通用的特征表示&am…

vue3 eslint ts 關閉多單詞命名檢查

無效做法 import { globalIgnores } from eslint/config import {defineConfigWithVueTs,vueTsConfigs, } from vue/eslint-config-typescript import pluginVue from eslint-plugin-vue import skipFormatting from vue/eslint-config-prettier/skip-formatting// To allow m…

貪心,回溯,動態規劃

1.貪心算法 ? 貪心算法是一種在每一步選擇中都采取在當前狀態下最好或最優的選擇,從而希望全局最好或是最優的算法。 特點 局部最優選擇不能保證全局最優高效 適用條件 局部最優可以導致全局最優問題的最優解包含子問題的最優解 經典問題 活動選擇問題最短路徑最…

【Netty4核心原理⑧】【揭開Bootstrap的神秘面紗 - 服務端Bootstrap?】

文章目錄 一、前言二、流程分析1. 創建 EventLoopGroup2. 指定 Channel 類型2.1 Channel 的創建2.2 Channel 的初始化 3. 配置自定義的業務處理器 Handler3.1 ServerBootstrap#childHandler3.2 handler 與 childHandler 的區別 4. 綁定端口服務啟動 三、bossGroup 與 workerGro…

為什么需要自動下載瀏覽器驅動?

為什么需要自動下載瀏覽器驅動? 血淚場景重現 新人入職第一天: 花3小時配置Chrome/Firefox驅動版本不匹配導致SessionNotCreatedException 瀏覽器自動更新后: 所有測試腳本突然崩潰手動查找驅動耗時長 終極解決方案:自動下載驅…

NLP常用工具包

?做一次按NLP項目常見工具的使用拆解 1. tokenizer from torchtext.data.utils import get_tokenizertokenizer get_tokenizer(basic_english) text_sample "Were going on an adventure! The weather is really nice today." tokens tokenizer(text_sample) p…

在 Vue 的template中使用 Pug 的完整教程

在 Vue 的template中使用 Pug 的完整教程 引言 什么是 Pug? Pug(原名 Jade)是一種高效的網頁模板引擎,通過縮進式語法和簡潔的寫法減少 HTML 的冗長代碼。Pug 省略了尖括號和閉合標簽,使用縮進定義結構,…

【Android基礎回顧】四:ServiceManager

Android 中的 ServerManager 是 Android 框架中一個用于管理系統服務的核心機制。它是 Binder IPC 的一部分,用于在客戶端和服務端之間建立聯系,廣泛應用于系統服務(如 ActivityManager、WindowManager 等)的注冊與獲取。 1 Serv…

【Android基礎回顧】一:Binder機制是什么?有什么用?

Android中的Binder機制是Android系統中最核心和最基礎的進程間通訊機制。 1 什么是進程間通訊機制(IPC)? 眾所周知,Android系統基于Linux開發,Linux系統里面本來就有進程間通訊機制。 1.1 Linux的IPC(Inter-Process Communication)概覽 它…

Go語言爬蟲系列教程5:HTML解析技術以及第三方庫選擇

Go語言爬蟲系列教程5:HTML解析技術以及第三方庫選擇 在上一章中,我們使用正則表達式提取網頁內容,但這種方法有局限性。對于復雜的HTML結構,我們需要使用專門的HTML解析庫。在這一章中,我們將介紹HTML解析技術以及如何…

AtCoder 第408?場初級競賽 A~E題解

A Timeout 【題目鏈接】 原題鏈接:A - Timeout 【考點】 模擬 【題目大意】 長老會在 s 秒后睡去,進過 n 次叫醒,長老最后能否是保持清醒。 【解析】 模擬每一次拍擊叫醒的過程,查看本次時間距上次時間是否大于 s。注意:第一次拍擊叫醒應和 0 秒相減。 【難度】 …

Unity VR/MR開發-VR設備與適用場景分析

視頻講解鏈接:【XR馬斯維】VR/MR設備與適用場景分析?【UnityVR/MR開發教程--入門】_游戲熱門視頻

MyBatis 查詢功能實現全流程

一、創建maven項目 配置好相應的jdk 二、在數據庫建立相應的表格 1.因為Mybatis實際是對sql表的一系列操作,所以我們新建一個數據庫 2.在查詢界面運行下面指令創建一個user表 CREATE TABLE user (id int(11) NOT NULL AUTO_INCREMENT,username varchar(32) NOT NU…

tcp/udp

tcp/udp協議概述 傳輸層協議基本概念 傳輸層協議建立在網絡層和會話層之間,為應用層實體提供端到端的通信功能,確保數據包的順序傳送及數據的完整性。它利用網絡層提供的服務,并通過傳輸層地址(端口號)提供給高層用戶…

k8s集群安裝坑點匯總

前言 由于使用最新的Rocky9.5,導致kubekey一鍵安裝用不了,退回Rocky8麻煩機器都建好了,決定手動安裝k8s,結果手動安裝過程中遇到各種坑,這里記錄下; k8s安裝 k8s具體安裝過程可自行搜索,或者deepseek; 也…

深入解析 Dotnet-Boxed.Framework:提升 .NET 開發效率的利器

在現代 .NET 開發中,框架和工具的選擇對項目的開發效率和長期維護至關重要。Dotnet-Boxed.Framework 是一個開源框架,旨在簡化開發流程,提高生產力。它通過一組實用的工具和自動化功能,幫助開發者快速構建高質量的應用程序。本文將…

如何輕松地將文件從 PC 傳輸到 iPhone?

傳統上,您可以使用 iTunes 將文件從 PC 傳輸到 iPhone,但現在,使用 iTunes 已不再是唯一的選擇。現在有多種不同且有效的方法可以幫助您傳輸文件。在今天的指南中,您可以找到 8 種使用或不使用 iTunes 傳輸文件的方法,…

Kafka深度解析與原理剖析

文章目錄 一、Kafka核心架構原理1. **分布式協調與選舉**2. **ISR、OSR與HW機制**3. **高性能存儲設計**4. **刷盤機制 (Flush)**5. **消息壓縮算法**二、高可用與消息可靠性保障1. **數據高可用策略**2. **消息丟失場景與規避**3. **順序消費保證**三、Kafka高頻面試題精析1. …

【教學類】20250605立體紙盤(3邊形-22邊形,角度5、10……40,45)

背景需求 在《自助餐》活動中, 【教學類-53-01】20240918自助餐餐盤-CSDN博客文章瀏覽閱讀984次,點贊29次,收藏11次。【教學類-53-01】20240918自助餐餐盤https://blog.csdn.net/reasonsummer/article/details/142340542?spm1011.2415.300…

GC1809:高性能24bit/192kHz音頻接收芯片解析

1. 芯片概述 GC1809 是數字音頻接收芯片,支持IEC60958、S/PDIF、AES3等協議,集成8選1輸入切換、低抖動時鐘恢復和24bit DAC,適用于家庭影院、汽車音響等高保真場景。 核心特性 高精度:24bit分辨率,動態范圍105dB&…