周志華《機器學習導論》第13章 半監督學習

目錄

1. 未標記樣本

2. 生成式方法? 高斯混合+EM

3. 半監督SVM? 存在未標記樣本的SVM變形

4. 圖半監督學習 對圖權值迭代矩陣計算

5. 基于分歧的方法 多視圖協同訓練

6. 半監督聚類 k-means的條件變形

6.1 Constrained k-means 利用“必連”與 “勿連”約束

6.2?Constrained Seed k-means 少量有標記的樣本


在監督與無監督之間,少量標記樣本的情況下,如何相比純監督學習充分利用無標記樣本的分布特征,相比無監督學習利用少量的已知信息?

對高斯混合分布、SVM、k-means進行一些修正和改進。

建模圖論節點、邊權迭代的思想;多視圖協同訓練、互相學習的思想。

1. 未標記樣本

標記樣本太少 用來訓練不夠; 還有很多未標記樣本 全標記需要的成本太高

主動學習 active learning:每次挑對改善模型性能幫助大的樣本 用少的專家查詢 換取高性能

若不引用額外的專家知識可以嗎?因為標記或未標記樣本 都是由相同數據源 獨立同分布采樣

我們可以利用觀察到的總樣本分布

聚類假設:假設數據存在簇結構,同一個簇的樣本屬于同一個類別

流形假設:假設數據 分布在一個流形結構上,鄰近的樣本擁有相似的輸出值

比如這里 帶判別樣本是在標記正負中間 無法判斷;

但把他們放在樣本群里面 發現左邊那一大塊更有可能是+ 這個帶判別也更有可能是正

半監督學習:讓學習器不依賴外界交互、 自動地利用未標記樣本來提升學習性能

純半監督學習:目標是預測樣本外未觀測到的數據

直推學習:目標是預測樣本中?未標記數據

2. 生成式方法? 高斯混合+EM

前置思想 周志華《機器學習導論》第9章 聚類中的高斯混合分布

樣本由N個高斯分布加權組合而成

樣本x屬于第i個高斯分布的概率為

樣本x對應后驗概率最大的類別 j? ? ?條件概率 第i個高斯下的類別 j

?極大似然估計 有標記的為(x,y)概率 無標記的為x概率

隱變量估計 EM算法?模型推隱變量-隱變量更新模型 重復至收斂

隱變量為 未標記樣本 屬于類別i高斯分布的概率

模型參數有:把未標記樣本 依概率加權算作類i 更新類i的均值 方差 權重

3. 半監督SVM? 存在未標記樣本的SVM變形

TSVM 二分類:所有m個未標記樣本(每個樣本可能+ - 共2^m個可能里)

對于每一種可能 都SVM一下 選所有可能里間隔最大的那個劃分超平面

周志華《機器學習導論》第5章 支持向量機SVM 前情回顧

這里的區別:之前有標記的 判別錯誤的懲罰項系數 比無標記的懲罰要高(前l有標記 后m無標記)

但這樣2^m個超平面 計算復雜度還是太高了 考慮局部搜索迭代近似

先根據標記樣本算出超平面 未標記樣本根據超平面打上初始標記 Cu權重遠小于Cl

1.把兩個一正一負的 且出錯可能性相對比較高(相加>2)的標簽 進行正負對調?

2.把所有兩兩都檢查一下后,重算SVM調高Cu權重

一直重復1 2調整 直到Cu權重接近Cl。

?

為防止+ - 類別不平衡,進行調整權重操作 按照正負項數反比例

?

4. 圖半監督學習 對圖權值迭代矩陣計算

建模成圖 每個樣本為點 邊值為兩樣本的相似度大小(可用高斯函數)

已標記樣本為染色點 圖半監督問題相當于擴展染色/傳播 問題?

?

要學習一個函數f 可以把樣本向量x 映射到一個值? 把f前l和后u拆解??fl已知?需要優化 fu

目標函數為 最小化能量函數 W大的需要讓他們的f接近

用一個 P=D逆W 可用Puu Pul 簡化式子

?

W可以推 D和P 求偏導得 fu和 fl的關系

如果是多分類的標記傳播:f就不是映射到值 而是F 映射到一個向量

每個樣本 都會映射到一個長度為 |y| 的向量

最后的值為 向量最大數的位置(評估一下和每個類的相似度 分為相似度最大的那個)

初始的F是 前l樣本對應的那類位置為1 矩陣其余位置均為0? ? ? 一直迭代到F*收斂

S為W除以度數 歸一化(防止高度數節點過度影響結果 保證特征值在[-1,1]內 使迭代過程收斂)

α的系數為迭代? (1-α)為保持初始Y的特征

? 令F(t+1)=F(t)

5. 基于分歧的方法 多視圖協同訓練

多視圖數據:同一個數據對象不同方面的屬性(如視覺、聽覺上的)

協同訓練:利用多視圖的 相容性(判別答案的類別空間y相同)和互補性

假設數據擁有兩個充分(每個視圖都包含足以產生最優學習器的信息)且

條件獨立(在給定類別標記條件下兩個視圖獨立)視圖:?

每個視圖的學習器,把自己最有把握的未標記樣本打上標簽給其他學習器學習(互相學習

我知道你的信息 -> 我學到新東西告訴你 -> 你根據我的新信息 學到新東西告訴我

為防止所有樣本都被大量改變:構建一個緩沖池 每次從緩沖池里找最有把握的

每次循環 對每個視圖分別:1.根據已有數據訓練分類器

2.在緩沖池里找 p個最有把握的正類和 n個最有把握的負類 打標記后 移除緩沖池

3.每個視圖進行完畢后 補充緩沖池 從樣本池隨機抽一定樣本移到緩沖池? ?維持每次循環前緩沖池中樣本數目一定

6. 半監督聚類 k-means的條件變形

聚類本來無監督 但是有一些額外的信息的話 可以幫助聚類效果更好(帶限制的k-means)

6.1 Constrained k-means 利用“必連”與 “勿連”約束

還是k個均值點μ 代表k個簇

每個樣本依次塞到最近的 不違背“必連勿連約束”的簇;? ?分類好再取新的均值μ; 上兩步迭代

6.2?Constrained Seed k-means 少量有標記的樣本

用帶標記的樣本 初始化的k個μ

并在后續的迭代過程中 不改變這些樣本;無標記的樣本類似傳統k-means

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/90116.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/90116.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/90116.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

消息推送功能設計指南:精準觸達與用戶體驗的平衡之道

消息推送功能設計指南:精準觸達與用戶體驗的平衡之道消息推送是平臺與用戶保持連接的重要橋梁,既能及時傳遞重要資訊,又能喚醒沉睡用戶、提升活躍度。然而,推送功能若設計不當,可能變成 “信息騷擾”,導致用…

CanOpen--SDO 數據幀分析

CanOpen--SDO 數據幀分析1 介紹1.1 概述1.2 主站與從站2 數據幀詳細分析2.1 主站發送的請求幀 (Client → Server)2.2 從站響應的確認幀 (Server → Client)成功數據幀內容示例錯誤幀2.3 命令字2.4 小端格式:低字節在前3 其他示例60FF index 發送 數值 1000 數據幀分…

Day20-二叉樹基礎知識

二叉樹(Binary Tree)是一種每個節點最多有兩個子節點的樹形數據結構,這兩個子節點分別稱為左子節點和右子節點。二叉樹是計算機科學中最基礎、最常用的樹結構之一,廣泛應用于搜索、排序、表達式解析等領域! 核心特點 …

示波器探頭接口類型與PINTECH品致探頭選型指南

一、示波器探頭接口類型及技術特點1. BNC接口:通用型主流標準- 優勢:75%以上示波器標配接口,具備阻抗匹配靈活(50Ω/1MΩ)、插拔穩定、抗干擾性強等特點。 - 應用場景:適用于大多數示波器(如Le…

Spring之【Bean工廠后置處理器】

目錄 BeanFactoryPostProcessor BeanDefinitionRegistryPostProcessor 使用一下Bean工廠后置處理器 定義包掃描范圍 定義一個組件Bean 定義一個普通的類 自定義一個組件類實現Bean工廠后處理器 測試類 BeanFactoryPostProcessor 該接口是Spring提供的擴展點之一是一個…

【C++】第十八節—一文萬字詳解 | map和set的使用

嗨,我是云邊有個稻草人,與你分享C領域專業知識(*^▽^*) 《C》本篇文章所屬專欄—持續更新中—歡迎訂閱— 目錄 一、序列式容器和關聯式容器 二、set系列的使用 2.1 set和multiset參考?檔 2.2 set類的介紹 2.3 set的構造和迭代器 2.4 set的增刪查…

Java 大視界 -- Java 大數據在智能交通自動駕駛車輛與周邊環境信息融合與決策中的應用(357)

Java 大視界 -- Java 大數據在智能交通自動駕駛車輛與周邊環境信息融合與決策中的應用(357)引言:正文:一、Java 構建的環境信息融合架構1.1 多傳感器數據實時關聯1.2 動態障礙物軌跡預測二、Java 驅動的決策系統設計2.1 緊急決策與…

單細胞轉錄組學+空間轉錄組的整合及思路

一、概念 首先還是老規矩,處理一下概念問題,好將之后的問題進行分類和區分 單細胞轉錄組:指在單個細胞水平上對轉錄組(即細胞內所有轉錄出來的 RNA,主要是 mRNA)進行研究的學科或技術方向,核心…

用Python實現神經網絡(五)

這一節告訴你如何用TensorFlow實現全連接網絡。安裝 DeepChem這一節,你將使用DeepChem 機器學習工具鏈進行實驗在網上可以找到 DeepChem詳細安裝指導。Tox21 Dataset作為我們的建模案例研究,我們使用化學數據庫。毒理學家很感興趣于用機器學習來預測化學…

ReasonFlux:基于思維模板與分層強化學習的高效推理新范式

“以結構化知識壓縮搜索空間,讓輕量模型實現超越尺度的推理性能” ReasonFlux 是由普林斯頓大學與北京大學聯合研發的創新框架(2025年2月發布),通過 結構化思維模板 與 分層強化學習,顯著提升大語言模型在復雜推理任務…

PHP與Web頁面交互:從基礎表單到AJAX實戰

文章目錄 PHP與Web頁面交互:從基礎到高級實踐 1. 引言 2. 基礎表單處理 2.1 HTML表單與PHP交互基礎 2.2 GET與POST方法比較 3. 高級交互技術 3.1 AJAX與PHP交互 3.2 使用Fetch API進行現代AJAX交互 4. 文件上傳處理 5. 安全性考量 5.1 常見安全威脅與防護 5.2 數據驗證與過濾 …

OpenCV基本的圖像處理

參考資料: 參考視頻 視頻參考資料:鏈接: https://pan.baidu.com/s/1_DJTOerxpu5_dSfd4ZNlAA 提取碼: 8v2n 相關代碼 概述: 因為本人是用于機器視覺的圖像處理,所以只記錄了OpenCV的形態學操作和圖像平滑處理兩部分 形態學操作:…

Git 與 GitHub 學習筆記

本文是一份全面的 Git 入門指南,涵蓋了從環境配置、創建倉庫到日常分支管理和與 GitHub 同步的全部核心操作。 Part 1: 初始配置 (一次性搞定) 在開始使用 Git 之前,需要先配置好你的電腦環境。(由于網絡的原因,直接使用https的方式拉取倉庫大概率是失敗的,故使用ssh的方…

文件系統-文件存儲空間管理

文件存儲空間管理的核心是空閑塊的組織、分配與回收,確保高效利用磁盤空間并快速響應文件操作(創建、刪除、擴展)。以下是三種主流方法:1. 空閑表法(連續分配)原理:類似內存動態分區&#xff0c…

python爬蟲實戰-小案例:爬取蘇寧易購的好評

一、項目背景與價值1 為什么爬取商品好評? 消費者洞察:分析用戶真實反饋,了解產品優缺點 市場研究:監測競品評價趨勢,優化產品策略二.實現代碼from selenium import webdriver from selenium.webdriver.edge.options i…

Spring Boot環境搭建與核心原理深度解析

一、開發環境準備 1.1 工具鏈選擇 JDK版本:推薦使用JDK 17(LTS版本),與Spring Boot 3.2.5完全兼容,支持虛擬線程等JDK 21特性可通過配置啟用構建工具:Maven 3.8.6(配置阿里云鏡像加速依賴下載…

Java自動拆箱機制

在黑馬點評項目中,提到了一個細節,就是Java的自動拆箱機制,本文來簡單了解一下。Java 的??自動拆箱機制(Unboxing)??是一種編譯器層面的語法糖,用于簡化??包裝類對象??(如 Integer、Boo…

哈希算法(Hash Algorithm)

哈希算法(Hash Algorithm)是一種將任意長度的數據映射為固定長度的哈希值(Hash Value)的算法,廣泛應用于密碼學、數據完整性驗證、數據結構(如哈希表)和數字簽名等領域。🧠 一、哈希…

黑馬點評使用Apifox進行接口測試(以導入更新店鋪為例、詳細圖解)

目錄 一、前言 二、手動完成接口測試所需配置 三、進行接口測試 一、前言 在學習黑馬點評P39實現商鋪緩存與數據庫的雙寫一致課程中,老師使用postman進行了更新店鋪的接口測試。由于課程是22年的,按照我從24年JavaWebAI課程所學習使用的Apifox內部其實…

Ubuntu 虛擬機配置 與Windows互傳文件

在VMware中為Ubuntu虛擬機設置共享文件夾 設置共享文件夾可以傳遞大量文件 在VMware的設置中打開共享文件夾功能,并設置共享文件夾的目錄。 點擊添加后,選擇一個電腦上的文件夾,這個文件夾最好是新建的空的。 完成后在“文件夾”列表中就…