從高斯噪聲的角度分析MAE和MSE

文章目錄

  • 1. MAE與MSE的本質區別
  • 2. 高斯噪聲下的統計特性
  • 3. MAE導致稀疏解的內在機制
  • 4. 對比總結

1. MAE與MSE的本質區別

MAE(Mean Absolute Error)和MSE(Mean Squared Error)是兩種常用的損失函數,它們的數學形式決定了對誤差的不同敏感程度:

  • MAEMAE=1n∑i=1n∣yi?y^i∣\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|MAE=n1?i=1n?yi??y^?i?
  • MSEMSE=1n∑i=1n(yi?y^i)2\text{MSE} = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2MSE=n1?i=1n?(yi??y^?i?)2

從幾何角度看,MSE等價于歐氏距離的平方,而MAE等價于曼哈頓距離。這導致MSE對離群點更加敏感,而MAE更具魯棒性。

2. 高斯噪聲下的統計特性

在噪聲服從高斯分布 ?~N(0,σ2)\epsilon \sim \mathcal{N}(0, \sigma^2)?N(0,σ2) 的假設下:

  1. MSE是最優損失函數
    MSE對應于高斯噪聲下的最大似然估計(MLE)。此時,最小化MSE等價于最大化對數似然函數:
    arg?min?θ∑i=1n(yi?f(xi;θ))2?arg?max?θ∏i=1n12πσ2exp?(?(yi?f(xi;θ))22σ2)\arg\min_{\theta} \sum_{i=1}^{n} (y_i - f(x_i; \theta))^2 \quad \Leftrightarrow \quad \arg\max_{\theta} \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - f(x_i; \theta))^2}{2\sigma^2}\right) argθmin?i=1n?(yi??f(xi?;θ))2?argθmax?i=1n?2πσ2?1?exp(?2σ2(yi??f(xi?;θ))2?)
    高斯分布的二次指數形式直接對應平方誤差。

  2. MAE的統計假設
    MAE對應于噪聲服從拉普拉斯分布時的MLE。拉普拉斯分布的概率密度函數為:
    p(?)=12bexp?(?∣?∣b)p(\epsilon) = \frac{1}{2b} \exp\left(-\frac{|\epsilon|}{b}\right) p(?)=2b1?exp(?b??)

    arg?min?θ∑i=1n∣yi?f(xi;θ)∣?arg?max?θ∏i=1n12bexp?(?∣yi?f(xi;θ)∣b)\arg\min_{\theta} \sum_{i=1}^{n} |y_i - f(x_i; \theta)| \quad \Leftrightarrow \quad \arg\max_{\theta} \prod_{i=1}^{n} \frac{1}{2b} \exp\left(-\frac{|y_i - f(x_i; \theta)|}{b}\right) argθmin?i=1n?yi??f(xi?;θ)?argθmax?i=1n?2b1?exp(?byi??f(xi?;θ)?)
    此時,最小化MAE等價于最大化拉普拉斯分布下的對數似然。

3. MAE導致稀疏解的內在機制

MAE容易產生稀疏解的根本原因在于其梯度特性:

  1. MAE的梯度恒定
    MAE的梯度為:
    ?MAE?θ={+1,if?yi?f(xi;θ)>0?1,if?yi?f(xi;θ)<0undefined,if?yi?f(xi;θ)=0\frac{\partial \text{MAE}}{\partial \theta} = \begin{cases} +1, & \text{if } y_i - f(x_i; \theta) > 0 \\ -1, & \text{if } y_i - f(x_i; \theta) < 0 \\ \text{undefined}, & \text{if } y_i - f(x_i; \theta) = 0 \end{cases} ?θ?MAE?=????+1,?1,undefined,?if?yi??f(xi?;θ)>0if?yi??f(xi?;θ)<0if?yi??f(xi?;θ)=0?
    當參數接近零時,梯度仍保持恒定(±1),促使參數快速收斂到零。

  2. MSE的梯度衰減
    MSE的梯度為:
    ?MSE?θ=?2(yi?f(xi;θ))??f(xi;θ)?θ\frac{\partial \text{MSE}}{\partial \theta} = -2(y_i - f(x_i; \theta)) \cdot \frac{\partial f(x_i; \theta)}{\partial \theta} ?θ?MSE?=?2(yi??f(xi?;θ))??θ?f(xi?;θ)?
    當誤差接近零時,梯度趨近于零,導致參數更新變得非常緩慢,難以徹底消除小參數。

  3. 幾何解釋
    從優化角度看,MAE的等高線是菱形(在二維空間中),其頂點位于坐標軸上;而MSE的等高線是圓形。當損失函數的最小值靠近坐標軸時,MAE的等高線更容易與坐標軸相交,從而使某些參數被置零。更多可見 損失函數的等高線與參數置零的關系

    在這里插入圖片描述

4. 對比總結

特性MSEMAE
對離群點敏感度高(平方放大誤差)低(線性處理誤差)
噪聲分布假設高斯分布拉普拉斯分布
梯度特性梯度隨誤差減小而衰減梯度恒定(除零點外)
稀疏性不易產生稀疏解易產生稀疏解
優化穩定性平滑優化,數值穩定性好非光滑優化,可能需要特殊處理

在實際應用中,如果數據包含較多離群點或需要進行特征選擇,MAE是更合適的選擇;如果追求預測精度且噪聲近似高斯分布,MSE通常表現更好。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/91592.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/91592.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/91592.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AR智能巡檢:制造業零缺陷安裝的“數字監工”

在制造業中&#xff0c;設備安裝與組裝環節的準確性是產品質量和生產效率的關鍵。傳統的人工巡檢和紙質作業指導書容易因人為疏忽、經驗不足或信息滯后導致安裝錯誤&#xff0c;進而引發返工、延誤甚至安全事故。然而&#xff0c;隨著增強現實&#xff08;AR www.teamhelper.cn…

js最簡單的解密分析

js最簡單的解密分析 一、JavaScript 代碼保護技術簡介 ? 為什么要保護 JavaScript 代碼&#xff1f; JavaScript 是前端語言&#xff0c;代碼在瀏覽器中是完全可見的。這意味著&#xff1a; 別人可以輕松查看你的核心算法或業務邏輯頁面上的接口地址、加密邏輯等容易被抓包分析…

React強大且靈活hooks庫——ahooks入門實踐之開發調試類hook(dev)詳解

什么是 ahooks&#xff1f; ahooks 是一個 React Hooks 庫&#xff0c;提供了大量實用的自定義 hooks&#xff0c;幫助開發者更高效地構建 React 應用。其中開發調試類 hooks 是 ahooks 的一個重要分類&#xff0c;專門用于開發調試階段&#xff0c;幫助開發者追蹤組件更新和副…

React強大且靈活hooks庫——ahooks入門實踐之副作用類hook(effect)詳解

什么是 ahooks&#xff1f; ahooks 是一個 React Hooks 庫&#xff0c;提供了大量實用的自定義 hooks&#xff0c;幫助開發者更高效地構建 React 應用。其中副作用類 hooks 是 ahooks 的一個重要分類&#xff0c;專門用于處理各種副作用操作&#xff0c;如定時器、防抖、節流等…

SpringBoot一Web Flux、函數式Web請求的使用、和傳統注解@Controller + @RequestMapping的區別

一、函數式 Web 在 Spring Boot 中&#xff0c;使用函數式 Web&#xff08;Function-based Web&#xff09;可以通過 RouterFunction 和 HandlerFunction 來定義路由和請求處理邏輯。這種方式與傳統的注解驅動的方式不同&#xff0c;它更加簡潔&#xff0c;并且適合響應式編程。…

Vue+Cesium快速配置指南

安裝必要依賴在項目根目錄下運行以下命令安裝vue-cesium和cesium&#xff1a;npm install vue-cesium3.1.4 cesium1.84配置Vite在vite.config.js文件中添加以下配置&#xff1a;import { defineConfig } from vite import vue from vitejs/plugin-vue import { resolve } from …

礦業自動化破壁者:EtherCAT轉PROFIBUS DP網關的井下實戰

在深井鉆機的轟鳴、礦石輸送帶的奔流與通風設備的不息運轉中&#xff0c;礦業生產的脈搏強勁跳動。然而&#xff0c;這片創造價值的土地&#xff0c;卻為自動化技術的深入設置了嚴苛的考場&#xff1a;信息孤島林立&#xff1a; 高效現代的EtherCAT控制系統與井下大量穩定服役的…

SpringBoot+Loki4j+Loki+Grafana搭建輕量級日志系統

文章目錄前言一、組件介紹&#xff08;一&#xff09;Loki特點架構適用場景總結&#xff08;二&#xff09;Loki4j特點&#xff08;三&#xff09;Grafana特點適用場景二、組件配置&#xff08;一&#xff09;Loki&#xff08;二&#xff09;Grafana三、項目搭建參考文章前言 …

SpringCloud之Config

SpringCloud之Config 推薦網站&#xff1a;https://www.springcloud.cc/spring-cloud-dalston.html#_spring_cloud_config 1. 什么是 Spring Cloud Config Spring Cloud Config 是 Spring 官方提供的 分布式配置中心 組件&#xff0c;用來 集中管理、動態下發、版本控制 所有微…

探索VB.NET中的貝塞爾Bezier曲線繪制技巧

簡介&#xff1a;Bezier曲線是計算機圖形學中用于創建平滑曲線的重要工具&#xff0c;廣泛應用于圖形設計、游戲開發、CAD系統等領域。本文深入探討了Bezier曲線的基礎知識&#xff0c;并詳細說明了如何在Visual Basic中使用 Graphics 對象的 DrawBezier 方法繪制曲線。通過理論…

分布式分片策略中,分片數量的評估與選擇

分布式分片策略中,分片數量的評估與選擇是影響系統性能、擴展性和運維成本的核心問題 一、分片數量評估方法論 1. ??數據量基準模型?? ??單分片容量建議??:根據Elasticsearch最佳實踐,單個分片建議控制在10-50GB(冷數據可放寬至100GB),超過100GB會導致段合并效率…

Vue3高級特性:深入理解effectScope及其應用場景

系列文章目錄 Vue3 組合式 API 進階&#xff1a;深入解析 customRef 的設計哲學與實戰技巧 Vue3 watchEffect 進階使用指南&#xff1a;這些特性你可能不知道 Vue3高級特性&#xff1a;深入理解effectScope及其應用場景 文章目錄系列文章目錄前言一、核心概念1、什么是 effect…

Docker 中的動態配置:docker update 命令與環境變量管理

Docker 中的動態配置&#xff1a;docker update 命令與環境變量管理 在 Docker 容器的日常管理中&#xff0c;動態調整配置以適應業務需求變化是常見的操作。docker update 命令作為 Docker 平臺的重要工具&#xff0c;為運行中的容器提供了便捷的配置調整方式&#xff0c;而環…

ELK 使用教程采集系統日志

作者&#xff1a;小凱 沉淀、分享、成長&#xff0c;讓自己和他人都能有所收獲&#xff01; 本文的宗旨在于通過易于上手實操的方式&#xff0c;教會讀者完成系統ELK日志采集的對接和使用。那你知道對于一個系統的上線考察&#xff0c;必備的幾樣東西是什么嗎&#xff1f;其實這…

小程序部分pai

wx.setClipboardData 這是微信小程序提供的 API&#xff0c;用于將數據復制到剪貼板。 Page({data: {clientInfo: {email: exampleexample.com // 假設的郵箱數據}},// 復制郵箱到剪貼板copyEmail: function() {wx.setClipboardData({data: this.data.clientInfo.email,success…

【解決方案】鴻蒙 / 礦鴻系統 Shell 無故退出問題(息屏導致)詳解

平臺環境 OpenHarmony 版本&#xff1a;4.1 release開發板&#xff1a;DAYU / RK3568調試工具&#xff1a;hdc 在使用 OpenHarmony 4.1 Release&#xff08;礦鴻系統&#xff09;進行開發時&#xff0c;遇到這樣的問題&#xff1a; &#x1f6a8; Shell 會在一段時間后自動退出…

Data Analysis TTAD=>CNN-BiGRU-MSA

TTAO 預處理、CNN-BiGRU-MSA 模型 時序數據回歸分析時序數據分析方法&#xff0c;特點&#xff1a;TTAO 預處理&#xff1a;通過三角拓撲結構增強時序特征的局部和全局關系混合模型架構&#xff1a;CNN 層提取局部特征模式BiGRU 捕獲雙向時序依賴多頭自注意力機制進行序列建模…

python-字典、集合、序列切片、字符串操作(筆記)

一、字符串常見操作&#xff08;重點&#xff09;?1.?2.字符串無法修改#錯誤示范 str1"djskds" str1[2]"3"3.?str1"abcand" # 輸出3 print(str1.index("and"))4.?str1"abcand" newStrstr1.replace("and",&quo…

【Android】EditText使用和監聽

三三想成為安卓糕手 一&#xff1a;用戶登錄校驗 1&#xff1a;EditText文本輸入框<EditTextandroid:id"id/et_user_name"android:layout_width"match_parent"android:layout_height"wrap_content"android:inputType"number"androi…

SQL 中根據當前時間動態計算日期范圍

在 SQL 中寫“動態時間”通常是指根據當前時間動態計算日期范圍&#xff0c;而不是寫死固定日期。以下是幾種常見寫法&#xff08;以 SQL Server / MySQL / PostgreSQL 為例&#xff09;&#xff1a;1. 獲取當前時間-- SQL Server SELECT GETDATE() AS now-- MySQL SELECT NOW(…