深度學習入門基石:線性回歸與 Softmax 回歸精講

一、線性回歸:從房價預測看懂 “連續值預測” 邏輯
線性回歸是深度學習的 “敲門磚”,它的核心思想是用線性關系擬合數據規律,解決連續值預測問題—— 比如根據房屋特征估算房價、根據溫度濕度預測降雨量等。
1. 從生活案例到數學模型
拿房價預測場景來說:看中一套房時,我們會收集它的特征(比如 7 間臥室、2 個車庫、花崗巖 countertops 等),再參考往年同類房屋的成交價,最終估算出合理出價。這個過程本質就是線性回歸的核心邏輯。

線性回歸的數學模型可表示為y = w?x + b。其中,x 是輸入特征向量(如臥室數、車庫面積等房屋屬性);w 是權重向量,代表每個特征對預測結果的 “影響力”(比如臥室數權重高,說明臥室多對房價提升更明顯);b 是偏置項,相當于線性關系的 “截距”,捕捉特征之外的基礎影響;y 則是預測的連續值(比如房價)。若處理批量數據,還可寫成矩陣形式y = Xw + b,其中 X 是包含多個樣本的特征矩陣,更適合計算機高效計算。
2. 線性回歸的神經網絡視角
線性回歸其實是最簡單的單層神經網絡:輸入層對應特征 x(如臥室數、車庫大小),每個特征是一個輸入神經元;輸出層對應預測值 y(如房價),只有 1 個輸出神經元;輸入層與輸出層是 “全連接”—— 每個輸入特征都通過權重 w 與輸出神經元相連,再疊加偏置 b 得到結果。
3. 如何訓練:從損失到優化
模型的 “學習過程”,本質是找到最優的 w 和 b,讓預測值 y 盡可能接近真實值。這需要損失函數與優化算法兩個核心工具。
(1)損失函數:量化 “預測誤差”
線性回歸常用平方損失(L2 損失),計算預測值與真實值的平方差,損失越小,模型預測越準。
(2)優化算法:尋找 “最優參數”
最經典的方法是梯度下降法,核心邏輯是 “跟著梯度反方向走,最快找到最小值”。梯度是由所有參數(w 和 b)的偏導數組成的向量,指向 “損失函數增加最快的方向”;每次沿梯度的反方向更新參數,逐步降低損失。

實際中更常用小批量隨機梯度下降(Mini-batch SGD) :隨機梯度下降(SGD)每次用 1 個樣本更新參數,速度快但波動大;小批量 SGD 每次用一小批樣本(比如 32 個、64 個)計算梯度,兼顧效率與穩定性。
(3)關鍵超參數:學習率與批量大小
學習率(η)是參數更新的 “步長”,太大容易越過最小值,太小則訓練太慢;批量大小需適中,太小浪費計算資源,太大則梯度估計不準,需根據硬件調整。
二、Softmax 回歸:從 “連續預測” 到 “多類分類”
當任務從 “預測房價” 變成 “識別手寫數字是 0-9 中的哪一個” 時,線性回歸就不夠用了 —— 這需要解決離散分類問題,而 Softmax 回歸正是為此設計的多類分類模型。
1. 回歸與分類:核心差異
回歸的輸出是連續數值,典型場景如房價預測、溫度預測;分類的輸出是離散類別,典型場景如手寫數字識別、ImageNet 自然對象分類(1000 類)、Kaggle 蛋白質圖像分類(28 類)、惡語評論分類(7 類)等。
2. Softmax 回歸的模型設計
Softmax 回歸在 linear 層基礎上增加了 “概率轉換”,核心是解決 “多類置信度” 問題。
(1)模型結構:全連接 + 多輸出
Softmax 回歸也是單層全連接神經網絡,但輸出層神經元數量等于類別數。輸入層對應樣本特征(比如圖像的像素值),輸出層每個神經元輸出對應類別的 “原始置信度”。比如 MNIST 手寫數字識別(10 類),輸出層就有 10 個神經元,分別對應數字 0-9 的置信度。
(2)Softmax 運算:把置信度變成概率
原始置信度可能為負、總和不為 1,無法直接作為概率。Softmax 運算通過兩步解決:用指數函數 exp (o?) 把置信度轉為 “非負值”,再除以所有類別的 exp 之和,得到 “和為 1 的概率分布”。例如,原始置信度 [1, -1, 2] 經 Softmax 運算后得到 [0.26, 0.04, 0.7],即預測為第 3 類的概率最高(70%)。
3. 損失函數:交叉熵更適合分類
線性回歸的平方損失不適合分類任務 —— 當模型對錯誤類別置信度很高時,平方損失的梯度會很 小,導致學習緩慢。此時需用交叉熵損失,專門衡量兩個概率分布的差異。它以真實標簽的概率分布(如 “真實是第 2 類” 則為 [0,1,0] 的獨熱編碼)和模型預測的概率分布為輸入,模型預測越偏離真實標簽,損失越大,梯度也越大,能快速 “懲罰” 錯誤預測。
三、總結:兩個基礎模型的核心脈絡
線性回歸與 Softmax 回歸共享深度學習的核心邏輯 ——“特征輸入→線性變換→損失量化→梯度優化”,但二者針對不同任務存在關鍵差異。

線性回歸聚焦于回歸任務,輸出連續值,輸出層只有 1 個神經元,核心運算為線性變換(w?x+b),常用平方損失函數;Softmax 回歸針對多類分類任務,輸出離散類別對應的概率分布,輸出層神經元數量等于類別數,核心運算為 “線性變換 + Softmax”,常用交叉熵損失函數。二者在優化算法上均以小批量 SGD 為主流選擇。

這兩個模型是深度學習的 “地基”:后續的多層神經網絡,本質是在它們的基礎上疊加更多線性層與激活函數;而復雜的圖像、NLP 任務,也都是從 “線性擬合” 或 “概率分類” 的邏輯延伸而來。吃透這兩個模型,才算真正邁入深度學習的大門~

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/100474.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/100474.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/100474.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

GPT-5-Codex CLI保姆級教程:獲取API Key配置與openai codex安裝詳解

朋友們,就在 2025 年 9 月中旬,OpenAI 悄悄扔下了一顆重磅炸彈:GPT-5-Codex。 如果你以為這只是又一次平平無奇的模型升級,那可就大錯特錯了。 我可以這么說:軟件開發的游戲規則,從這一刻起,可能…

基于Spark的用戶實時分析

Spark的最簡安裝 1. 下載并解壓 Spark 首先,我們需要下載 Spark 安裝包。您可以選擇以下方式之一: 方式一:從官網下載(推薦) # 在 hadoop01 節點上執行 cd /home/hadoop/app wget https://archive.apache.org/dist/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz方…

OpenCV 風格遷移、DNN模塊 案例解析及實現

圖像風格遷移是計算機視覺領域極具趣味性的技術之一 —— 它能將普通照片(內容圖像)與藝術畫作(風格圖像)的特征融合,生成兼具 “內容輪廓” 與 “藝術風格” 的新圖像。OpenCV 的 DNN(深度神經網絡&#x…

MySQL 日志:undo log、redo log、binlog以及MVCC的介紹

一、MySQL 日志:undo log、redo log、binlogundo log(回滾日志):是 Innodb 存儲引擎層生成的日志,實現了事務中的原子性,主要用于事務回滾和 MVCC(隔離性)。 redo log(重…

【面板數據】省及地級市農業新質生產力數據集(2002-2025年)

農業新質生產力是以科技創新為核心驅動力,以科技化、數字化、網絡化和智能化為主線,通過技術革命性突破、生產要素創新性配置、產業深度轉型升級,實現農業全要素生產率顯著躍升的先進生產力形態 本數據基于2002-2025年各省政府工作報告中關于…

20250917在榮品RD-RK3588-MID開發板的Android13系統下使用tinyplay播放wav格式的音頻

input keyevent 24 1|console:/sdcard # cat /proc/asound/cards console:/sdcard # ls -l /dev/snd/【需要打開Android13內置的音樂應用才會有聲音出來,原因未知!】 1|console:/sdcard # tinyplay /sdcard/Music/kiss8.wav -D 1 -d 020250917在榮品RD-R…

總共分為幾種IP

IP(Internet Protocol)地址根據不同的分類標準可分為多種類型,以下是常見的分類方式:按版本分類IPv4:32位地址,格式為四組十進制數字(如192.168.1.1),約43億個地址&#…

【Linux】常用命令(六)

【Linux】常用命令(六)1. yum命令1.1 基本語法1.2 常用命令2. 從服務器把數據cp到本地3. uname命令3.1 常用命令1. yum命令 全稱:Yellowdog Updater, Modified作用:是 RPM 包管理器的前端工具,用于基于 RPM 的 Linux …

go grpc開發使用

1、安裝proto 下載 Windows 版本 打開官方發布頁面 訪問 Protocol Buffers 的 GitHub Releases 頁面: 👉 https://github.com/protocolbuffers/protobuf/releases 解壓 ZIP 文件 將下載的 ZIP 文件解壓到一個你容易找到的目錄,例如&#xff1…

MyBatis分頁:PageHelper

MyBatis分頁:PageHelper 📖 前言:為什么需要分頁? 在處理大量數據時,一次性從數據庫查詢并返回所有結果是不可行的,這會帶來巨大的性能和內存開銷。分頁是解決這一問題的標準方案。而PageHelper是一個極其流…

Gin框架:構建高性能Go Web應用

Gin框架:構建高性能Go Web應用 Gin是Go語言中最受歡迎的Web框架之一,以其高性能、簡潔API和豐富的中間件支持而聞名。本文將帶你從零開始,逐步掌握Gin框架的核心概念和高級特性,并通過實際代碼示例演示如何構建高效的Web應用程序。…

IO進程——線程、IO模型

一、線程Thread1、引入1.1 概念相當于是一個輕量級的進程,為了提高系統的性能引入線程,在同一進程中可以創建多個線程,共享進程資源1.2 進程和線程比較相同點:都為操作系統提供了并發執行的能力不同點:調度和資源&…

人工智能概念:NLP任務的評估指標(BLEU、ROUGE、PPL、BERTScore、RAGAS)

文章目錄一、評估指標基礎1. 準確率(Accuracy)2. 精確率(Precision)3. 召回率(Recall)4. F1-Score5. 示例二、文本生成專用指標1. BLEU:機器翻譯與標準化文案的“質量標尺”1.1 計算流程&#x…

團隊對 DevOps 理解不統一會帶來哪些問題

團隊對DevOps理念與實踐的理解不統一、片面甚至扭曲,是導致眾多企業DevOps轉型失敗的根本原因,它將直接引發一系列深層次的、相互關聯的嚴重問題。核心體現在:轉型極易淪為“為了工具而工具”的盲目自動化,導致最核心的文化變革被…

企業級實戰:構建基于Qt、C++與YOLOv8的模塊化工業視覺檢測系統(基于QWidget)

目錄一、概述二、項目目標與技術架構2.1 核心目標2.2 技術選型2.3 軟件架構三、AI推理DLL的開發 (Visual Studio 2019)3.1 定義DLL接口 (DetectorAPI.h)3.2 實現核心功能 (DetectorAPI.cpp)四、Qt Widget GUI應用程序的開發4.1 項目配置 (.pro 文件)4.2 UI設計 (mainwindow.ui)…

SVN自動化部署工具 腳本

SVN自動化部署工具 功能概述 這是一個自動化部署SVN倉庫的bash腳本,主要功能包括: 自動安裝SVN服務(如未安裝) 創建SVN項目倉庫 配置多用戶權限 設置自動同步到網站目錄 提供初始檢出功能 下載地址 https://url07.ctfile…

Facebook主頁變現功能被封?跨境玩家該如何申訴和預防

不少跨境玩家在運營Facebook公共主頁時,最期待的就是通過變現工具獲得穩定收入。但現實中,經常會遇到一個扎心的問題:主頁好不容易做起來,卻突然收到提示——“你的變現功能已被停用”。這意味著收入中斷,甚至可能導致…

安裝es、kibana、logstash

下載 elk 下載地址 elasticsearch地址: https://www.elastic.co/cn/downloads/elasticsearch kibana地址: https://www.elastic.co/cn/downloads/kibana logstash地址: https://www.elastic.co/cn/downloads/logstash 解壓elk 創建es全家桶文件夾 cd /usr/local mkdir elk …

Django admin 后臺開發案例【字段/圖片】

這是一個簡單的django admin 管理后臺,這個應用案例主要是給運營人員進行填寫數據 主要功能包括: 上傳圖片功能【選擇上傳時可以預覽】【替換已有數據中的圖片時可以預覽新舊圖片】 每條數據都將會記錄操作歷史。記錄操作人是誰?修改內容是什么?并且定位責任到某一員。 …

【C++】const和static的用法

目錄🚀前言💻const:“只讀”的守護者💯修飾普通變量💯修飾指針💯修飾函數💯修飾類成員💯修飾對象🌟static:“靜態存儲”與“作用域控制”💯修飾全…