閱讀筆記(3) 單層網絡:回歸(下)

閱讀筆記(3) 單層網絡:回歸(下)

該筆記是DataWhale組隊學習計劃(共度AI新圣經:深度學習基礎與概念)的Task03

以下內容為個人理解,可能存在不準確或疏漏之處,請以教材為主。

1. 為什么書上要提到決策理論?

在剛看到這小節內容的時候很懵,為什么突然蹦出來“決策理論”這一小節?這部分主要是為了回答一個關鍵問題:在已知條件概率分布 p ( t ∣ x ) p(t|x) p(tx) 的前提下,如何做出最優的預測決策?

書中將回歸任務建模為 條件概率分布 p ( t ∣ x ) p(t|x) p(tx),這是一種概率建模視角,即:

  • 我們不再直接預測一個確定的輸出值 t t t,而是預測一個關于 t t t 的概率分布(知道了分布,要進行預測就簡單了)。

  • 這個分布我們通常假設為高斯分布:
    p ( t ∣ x ) = N ( t ∣ y ( x , w ) , σ 2 ) p(t | x) = \mathcal{N}(t \mid y(x, w), \sigma^2) p(tx)=N(ty(x,w),σ2)
    其中均值 y ( x , w ) y(x, w) y(x,w) 是由模型參數決定的預測函數,方差 σ 2 \sigma^2 σ2 則表示噪聲水平(之前提到過的)。

雖然我們得到了這個分布,但實際應用中往往需要輸出一個具體的數值(,這就引出了一個問題:

我們應該從分布 p ( t ∣ x ) p(t|x) p(tx) 中選擇哪一個值作為最終的預測值?

這個問題本質上涉及到損失函數的設計和風險最小化原則,而決策理論就是在已知預測分布的前提下,回答:“我應該做出什么樣的具體決策才能最小化預期損失?”

明白了這一點,再去看書上的內容就更容易理解了。這一小節的核心目的就是說明:在給定損失函數的前提下,如何從分布中選擇一個最優的預測值。

2. 書中式(4.35)到式(4.36)的推導過程

個人推導,可能會有誤,歡迎指出。(其實這部分推導并不是特別重要,重點在于理解式(4.37)的結論)

我們要解決的是這樣一個問題:

在所有可能的函數 f ( x ) f(x) f(x) 中,哪個函數能使如下期望損失最小?

E [ L ] = ? ( f ( x ) ? t ) 2 p ( x , t ) d x d t \mathbb{E}[L] = \iint \left( f(x) - t \right)^2 p(x, t) dx dt E[L]=?(f(x)?t)2p(x,t)dxdt

這是一個典型的泛函優化問題,即我們要找一個函數 f ( x ) f(x) f(x),使得某個“關于函數的函數”取極小值。這類問題需要用到變分法

推導步驟如下:

引入擾動函數:設 f ? ( x ) = f ( x ) + ? η ( x ) f_\epsilon(x) = f(x) + \epsilon \eta(x) f??(x)=f(x)+(x),其中:

  • η ( x ) \eta(x) η(x) 是任意光滑函數(擾動函數)
  • ? \epsilon ? 是一個小參數(標量)

將擾動函數代入期望損失中:
E [ L ? ] = ? ( f ( x ) + ? η ( x ) ? t ) 2 p ( x , t ) d x d t \mathbb{E}[L_\epsilon] = \iint \left( f(x) + \epsilon \eta(x) - t \right)^2 p(x, t) dx dt E[L??]=?(f(x)+(x)?t)2p(x,t)dxdt
? \epsilon ? 求導并令其為0:
d d ? E [ L ? ] ∣ ? = 0 = ? 2 ( f ( x ) ? t ) η ( x ) p ( x , t ) d x d t \frac{d}{d\epsilon} \mathbb{E}[L_\epsilon] \Big|_{\epsilon=0} = \iint 2(f(x) - t)\eta(x) p(x, t) dx dt d?d?E[L??] ??=0?=?2(f(x)?t)η(x)p(x,t)dxdt
交換積分順序:
= ∫ η ( x ) [ ∫ 2 ( f ( x ) ? t ) p ( x , t ) d t ] d x = \int \eta(x) \left[ \int 2(f(x) - t)p(x, t) dt \right] dx =η(x)[2(f(x)?t)p(x,t)dt]dx
因為上式必須對任意擾動函數 η ( x ) \eta(x) η(x) 成立,所以括號內的部分必須恒等于0:
∫ 2 ( f ( x ) ? t ) p ( x , t ) d t = 0 \int 2(f(x) - t)p(x, t) dt = 0 2(f(x)?t)p(x,t)dt=0
這就是書中的式(4.36)。

3. 偏差-方差分解的理解

書中講的內容涉及了很多額外的知識點,這里試著用自己的語言解釋一下我對偏差-方差分解的理解。僅供參考

我們現在要分析的是一個回歸模型的預測性能。假設:真實的目標函數為 h ( x ) h(x) h(x),即理想情況下我們希望模型學到的函數;模型通過訓練數據集 D \mathcal{D} D 學到的函數為 f ( x ; D ) f(x; \mathcal{D}) f(x;D),它是依賴于具體數據集的隨機變量;數據集是從某個分布中采樣得到的,因此 f ( x ; D ) f(x; \mathcal{D}) f(x;D) 是一個隨機函數;使用平方損失衡量誤差:

L = ( f ( x ; D ) ? t ) 2 L = (f(x; \mathcal{D}) - t)^2 L=(f(x;D)?t)2
我們關心的是,在固定輸入 x x x 下,模型預測值與真實值之間的平均誤差,即:

E D , t ∣ x [ ( f ( x ; D ) ? t ) 2 ] \mathbb{E}_{\mathcal{D}, t|x} \left[ (f(x; \mathcal{D}) - t)^2 \right] ED,tx?[(f(x;D)?t)2]

這是模型在該點 x x x 的“期望預測誤差”。

我們可以把模型預測拆成兩個部分:

f ( x ; D ) = E D [ f ( x ; D ) ] ? 平均預測值 + ( f ( x ; D ) ? E D [ f ( x ; D ) ] ) ? 偏離平均的部分 f(x; \mathcal{D}) = \underbrace{\mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})]}_{\text{平均預測值}} + \underbrace{(f(x; \mathcal{D}) - \mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})])}_{\text{偏離平均的部分}} f(x;D)=平均預測值 ED?[f(x;D)]??+偏離平均的部分 (f(x;D)?ED?[f(x;D)])??

于是有:
f ( x ; D ) ? h ( x ) = ( f ( x ; D ) ? E D [ f ( x ; D ) ] ) + ( E D [ f ( x ; D ) ] ? h ( x ) ) f(x; \mathcal{D}) - h(x) = \left( f(x; \mathcal{D}) - \mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})] \right) + \left( \mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})] - h(x) \right) f(x;D)?h(x)=(f(x;D)?ED?[f(x;D)])+(ED?[f(x;D)]?h(x))

兩邊平方得:
( f ( x ; D ) ? h ( x ) ) 2 = ( f ( x ; D ) ? E D [ f ( x ; D ) ] ) 2 + ( E D [ f ( x ; D ) ] ? h ( x ) ) 2 + 2 ? ( f ( x ; D ) ? E D [ f ( x ; D ) ] ) ? ( E D [ f ( x ; D ) ] ? h ( x ) ) + (f(x; \mathcal{D}) - h(x))^2 = \left( f(x; \mathcal{D}) - \mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})] \right)^2 + \left( \mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})] - h(x) \right)^2 + 2 \cdot \left( f(x; \mathcal{D}) - \mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})] \right) \cdot \left( \mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})] - h(x) \right)+ (f(x;D)?h(x))2=(f(x;D)?ED?[f(x;D)])2+(ED?[f(x;D)]?h(x))2+2?(f(x;D)?ED?[f(x;D)])?(ED?[f(x;D)]?h(x))+

對所有可能的訓練集 D \mathcal{D} D 取期望后,最后一項消失(因為期望為0),最終得到:

E D [ ( f ( x ; D ) ? h ( x ) ) 2 ] = ( E D [ f ( x ; D ) ] ? h ( x ) ) 2 ? 偏差項?(Bias) 2 + E D [ ( f ( x ; D ) ? E D [ f ( x ; D ) ] ) 2 ] ? 方差項?(Variance) \mathbb{E}_{\mathcal{D}} \left[ (f(x; \mathcal{D}) - h(x))^2 \right] = \underbrace{(\mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})] - h(x))^2}_{\text{偏差項 (Bias)}^2} + \underbrace{\mathbb{E}_{\mathcal{D}} \left[ (f(x; \mathcal{D}) - \mathbb{E}_{\mathcal{D}}[f(x; \mathcal{D})])^2 \right]}_{\text{方差項 (Variance)}} ED?[(f(x;D)?h(x))2]=偏差項?(Bias)2 (ED?[f(x;D)]?h(x))2??+方差項?(Variance) ED?[(f(x;D)?ED?[f(x;D)])2]??

4. 習題(4.8 - 4.12)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/86827.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/86827.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/86827.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Mac OS系統每次開機啟動后,提示:輸入密碼來解鎖磁盤“Data”,去除提示的解決方法

問題描述: Mac mini外接了一個磁盤(EX_Mac)為默認使用的系統盤,內置的硬盤(Macintosh HD)為Mac mini自帶的系統盤 外置硬盤系統每次開機都會掛載內置磁盤,同時會提示需要輸入密碼來解鎖磁盤“…

CSS Flex 布局中flex-shrink: 0使用

flex-shrink: 0 是 CSS Flexbox 布局中的一個關鍵屬性,用于禁止彈性項目(flex item)在容器空間不足時被壓縮。以下是詳細解釋和示例: 核心作用 當容器的可用空間小于所有彈性項目的總寬度(或高度)時&#…

WHERE 子句中使用子查詢:深度解析與最佳實踐

🔍 WHERE 子句中使用子查詢:深度解析與最佳實踐 在 WHERE 子句中使用子查詢是 SQL 的高階技巧,可實現動態條件過濾。以下是全面指南,涵蓋語法、類型、陷阱及優化策略: 📜 一、基礎語法結構 SELECT 列 FR…

從0到1:不文明現象隨手拍小程序開發日記(一)

前期調研 不文明現象隨手拍小程序:在城市的快速發展進程中,不文明現象時有發生,為了有效解決這一問題,提升城市文明程度, 市民若發現不文明行為,如亂扔垃圾、隨地吐痰、破壞公共設施、違規停車等&#xff…

STM32F103之SPI軟件讀寫W25Q64

一、W25Q64簡介 1.1 簡介 W25Q64(Nor flash)、 24位地址,64Mbit/8MByte、是一種低成本、小型化、使用簡單的非易失性存儲器,常用于數據存儲、字庫存儲、固件程序存儲等場景 時鐘頻率:最大80MHz(STM32F103系統時鐘為72MHz…

vue3+element-plus 組件功能實現 上傳功能

一、整體功能概述 這段代碼實現了一個基于 Vue 3 和 Element Plus 組件庫的文件導入及預覽功能模塊。主要包含了一個主導入對話框(用于上傳文件、展示文件相關信息、進行導入操作等)以及一個用于預覽文件內容的預覽對話框。支持導入特定格式(…

OpenCV中創建Mat對象

第1章 創建Mat對象 1.1. 創建空的 Mat 對象 cv::Mat mat; 1.2. 創建灰度圖像 // 創建一個 3 行 4 列、8位無符號單通道矩陣(相當于灰度圖) cv::Mat mat(3, 4, CV_8UC1); 1.3. 創建彩色圖像 // 創建三通道矩陣(相當于彩色圖像&#xff0…

10、做中學 | 五年級下期 Golang循環控制

一、一個小需求 我想要打印10遍hello world,你想怎么編寫呢? // 需求:打印10遍"hello world"fmt.Println("hello world")fmt.Println("hello world")fmt.Println("hello world")fmt.Println("hello world…

機器學習算法-K近鄰算法-KNN

1. K近鄰算法是什么? 定義: K近鄰是一種基于實例的懶惰學習(Lazy Learning)算法,用于分類和回歸任務。 核心思想:“物以類聚”——通過計算樣本間的距離,找到目標點的最近K個鄰居,…

基于vue框架的法律知識咨詢普及系統gwuv7(程序+源碼+數據庫+調試部署+開發環境)帶論文文檔1萬字以上,文末可獲取,系統界面在最后面。

系統程序文件列表 項目功能:用戶,知識類型,律師,律師推薦,法律知識,新聞類型,法律新聞,咨詢律師 開題報告內容 基于Vue框架的法律知識咨詢普及系統開題報告 一、研究背景與意義 隨著法治社會建設的深入推進,公眾對法律知識的需求呈現爆發式增長。然而…

Netty 揭秘CompositeByteBuf:零拷貝優化核心技術

CompositeByteBuf 類 核心設計目標?? ??虛擬緩沖區??:將多個 ByteBuf 合并為單一邏輯視圖,減少數據復制。??零拷貝優化??:通過組合而非復制提升性能。??引用計數管理??:統一管理底層 ByteBuf 的生命周期。 核心成…

用css實現文字字體顏色漸變

用css實現文字字體顏色漸變 background-clip 是CSS3中新增的屬性,可以用于指定背景圖片或顏色的繪制范圍。利用 background-clip 屬性實現文字顏色從左到右、從綠到白的漸變效果: 代碼如下: .gradient-color {background-image: linear-gr…

SpringBatch處理數據性能優化

SpringBatch的Step默認使用同步方式批量處理數據,也可以通過配置將讀數改為同步,處理和寫入改為異步方式。 1、同步處理Step SpringBatch的Step一般由ItemReader、ItemProcessor和ItemWriter組成,其中ItemProcessor是可選的。他的設計思路的…

【機器學習深度學習】前饋神經網絡(單隱藏層)

目錄 一、什么是前饋神經網絡? 二、數學表達式是什么? 三、為什么需要“非線性函數”? 四、NumPy 實現前饋神經網絡代碼示例 五、 運行結果 六、代碼解析 6.1 初始化部分 6.2 前向傳播 6.3 計算損失(Loss) 6…

設計模式系列(08):創建型模式 - 原型模式

系列導讀:完成創建型模式的學習,我們來看最后一個創建型模式——原型模式。它通過復制已有對象來創建新對象,是一種獨特的創建方式。 解決什么問題:通過復制現有對象來創建新對象,而不是重新實例化。適用于對象創建成本…

區塊鏈到底是什么?

區塊鏈本質上是一種去中心化的分布式賬本技術,具有以下核心特點: - 去中心化:沒有中央管理機構,數據由網絡中的多個節點共同維護,比如比特幣網絡中各個節點都保存著完整賬本。 - 分布式存儲:數據不是存在一…

系統架構設計師論文分享-論ATAM的使用

我的軟考歷程 摘要 2023年2月,我司通過了研發紗線MES系統的立項,該系統為國內紗線工廠提供SAAS服務,旨在提高紗線工廠的數字化和智能化水平。我在本項目中擔任系統架構設計師,負責整個項目的架構設計工作。本文結合我在該項目中…

vue-28(服務器端渲染(SSR)簡介及其優勢)

服務器端渲染(SSR)簡介及其優勢 服務器端渲染(SSR)是現代網絡應用的關鍵技術,特別是使用 Vue.js 等框架構建的應用。它通過在服務器上渲染初始應用狀態來彌補傳統單頁應用(SPA)的局限性&#x…

工業電子 | 什么是SerDes,為何工業和汽車應用需要它?

重點內容速覽: 1. 什么是SerDes? 2. ADI:私有協議的GMSL將向公有協議轉變 3. TI:工業和汽車有兩套SerDes解決方案 4. Microchip:推出通用協議SerDes芯片 5. 羅姆:主要針對汽車領域 6. 國產SerDes芯…

大事件項目記錄4-用戶接口開發-更新用戶基本信息

4)更新用戶基本信息。 UserController.java: UserMapper.java: Update("update user set nickname #{nickname},email #{email},update_time #{updateTime} where id #{id}")void update(User user); UserServiceInterface…