機器學習---線性回歸

1、線性回歸

例如:對于一個房子的價格,其影響因素有很多,例如房子的面積、房子的臥室數量、房子的衛生間數量等等都會影響房子的價格。這些影響因子不妨用 x i x_{i} xi?表示,那么房價 y y y可以用如下公式表示:
y = w 1 x 1 + w 2 x 2 + w 3 x 3 + b y=w_1x_1+w_2x_2+w_3x_3+b y=w1?x1?+w2?x2?+w3?x3?+b
其中 w i w_{i} wi?表示特征 i i i的權重, b b b表示偏置,也稱作截距,當然在實際問題中, x i x_i xi? 0 0 0 y y y肯定為 0 0 0而不可能為 b b b,但是加上偏置后可以是模型的擬合效果更好。

2、損失的衡量

在分類問題時,我們可以用準確率(預測正確的數量/測試集總樣本數量),而在回歸任務時,衡量誤差的損失函數通常使用均方誤差,設 y ′ y' y是預測值, y y y是真實值,則損失函數為:
l o s s = 1 n ∑ i = 1 n 1 2 ( y i ′ ? y ) 2 loss = \frac{1}{n}∑_{i=1}^{n} \frac{1}{2}(y'_{i}-y)2 loss=n1?i=1n?21?(yi??y)2
這個又稱作均方誤差,前面的系數 1 2 \frac{1}{2} 21?是為了求導后與平方項的 2 2 2相乘時得到 1 1 1
可知,均方誤差越小,擬合效果越好。反之擬合效果越差。
另外一個重要的衡量指標為 R 2 R^2 R2系數,當 R 2 < 0.3 R^2<0.3 R2<0.3時,擬合能力

3、優化損失

對于損失較大的時候,如何優化權重 w w w b b b使其讓我們的均方誤差盡可能的小。這里提供兩種方法。
a)使用正規方程進行優化
b)使用梯度下降進行優化。
正規方程依次即可求得最優解,而梯度下降法需要逐次迭代,尋找出最優解。但是對于大規模的數據集,通常是采用梯度下降進行優化,而正規方程在小規模數據集的優化上表現略由于梯度下降。

4、線性回歸API及其調用

在sklearn中提供了線性回歸的API,根據優化方法不同,分為以下兩種:

sklearn.linear_model.LinearRegression(fit_intercept=True)
通過正規方程進行優化
fit_intercept:是否計算偏置,默認為True,不計算偏置則模型一定過原點
LinearRegression.coef_:回歸系數
LinearRegression。intercept_:偏置sklearn.linear_model.SGDRegressor(loss='squared_loss', fit_intercept=True, learning_rate ='invscaling', eta0=0.01)
loss:損失類型,loss='squared_loss'  普通最小二乘法
fit_intercept:是否計算偏置
learning_rate:學習率

5、線性回歸實例–波士頓房價預測(數據集點我)

RM: 每個住宅的平均房間數
LSTAT: 區域內房東的地位,表示低收入人群的百分比
PTRATIO: 區域內學生和教師的比例
MEDV: 自住房的中位數價值,以千美元為單位

import pandas as pd
data = pd.read_csv('housing.csv',sep=',')

在這里插入圖片描述

# 檢查是否具有缺失值,全部為False,說明沒有缺失值
pd.isnull(data).any()

在這里插入圖片描述

# 數據集的切分
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(data[['RM','LSTAT','PTRATIO']],data.MEDV,train_size=0.8)
# 數據歸一化
from sklearn.preprocessing import StandardScaler
transfer = StandardScaler()
x_train=transfer.fit_transform(x_train)
x_test=transfer.transform(x_test)
import matplotlib.pyplot as plt
plt.rcParams['font.family']='STFangsong'
# 創建一個畫布,分成三個繪圖區,查看每個變量和目標值的關系
figure, axes = plt.subplots(nrows=1, ncols=3, figsize=(20, 8), dpi=80)
axes[0].scatter(data.RM,data.MEDV)
axes[1].scatter(data.LSTAT,data.MEDV)
axes[2].scatter(data.PTRATIO,data.MEDV)
# 加網格,透明度為0.5
axes[0].grid(linestyle='--',alpha=0.5)
axes[1].grid(linestyle='--',alpha=0.5)
axes[2].grid(linestyle='--',alpha=0.5)
plt.show()

在這里插入圖片描述

# 采用回歸算法進行預測
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error,r2_score
# 使用正則化進行優化
estimator = LinearRegression(fit_intercept=True)
estimator.fit(x_train, y_train)
y_predict1 = estimator.predict(x_test)
print(f"r方系數為{r2_score(y_predict1,y_test)}")
print(f"方差為:{mean_squared_error(y_predict1,y_test)}")
print(f'優化后的權重參數為:{estimator.coef_},偏置為:{estimator.intercept_}')

正則化優化的結果

from sklearn.linear_model import SGDRegressor
estimator = SGDRegressor(fit_intercept=True)
estimator.fit(x_train, y_train)
y_predict1 = estimator.predict(x_test)
print(f"r方系數為{r2_score(y_predict1,y_test)}")
print(f"方差為:{mean_squared_error(y_predict1,y_test)}")
print(f'優化后的權重參數為:{estimator.coef_},偏置為:{estimator.intercept_}')

在這里插入圖片描述
觀察可發現使用梯度下降優化的方差較小,可認為其預測的擬合效果更好。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:
http://www.pswp.cn/diannao/41639.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/41639.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/41639.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

吳恩達機器學習 第三課 week3 強化學習(月球著陸器自動著陸)

目錄 01 學習目標 02 概念 2.1 強化學習 2.2 深度Q學習&#xff08;Deep Q-Learning &#xff09; 03 問題描述 04 算法中的概念及原理 05 月球著陸器自動著陸的算法實現 06 拓展&#xff1a;基于pytorch實現月球著陸器著陸 07 總結 寫在最前&#xff1a;關于強化學習…

python conda查看源,修改源

查看源 conda config --show-sources 修改源 可以直接vim .condarc修改源&#xff0c;

Shell學習——Shell變量

文章目錄 Shell變量使用變量只讀變量刪除變量變量類型字符串變量&#xff1a; 在 Shell中&#xff0c;變量通常被視為字符串。整數變量&#xff1a; 在一些Shell中&#xff0c;你可以使用 declare 或 typeset 命令來聲明整數變量。數組變量&#xff1a; Shell 也支持數組&#…

平價貓糧新選擇!福派斯鮮肉貓糧,讓貓咪享受美味大餐!

福派斯鮮肉貓糧&#xff0c;作為一款備受鏟屎官們青睞的貓糧品牌&#xff0c;憑借其卓越的品質和高性價比&#xff0c;為眾多貓主帶來了健康與美味的雙重享受。接下來&#xff0c;我們將從多個維度對這款貓糧進行解析&#xff0c;讓各位鏟屎官更加全面地了解它的魅力所在。 1?…

【三】ubuntu24虛擬機集群配置免密登陸

文章目錄 環境背景1. 配置域名映射2. 配置免密登錄2.1 在每臺機器上生成SSH密鑰對&#xff1a;2.2 將公鑰分發到其他機器&#xff1a;2.2.1 報錯問題2.2.2 修復方法 3. 驗證免密登錄在 ubuntu1 上&#xff1a;在 ubuntu2 上&#xff1a;在 ubuntu3 上&#xff1a; 測試連接 環境…

三級_02_網絡系統結構與設計的基本原則

1.下列關于接入技術特征的描述中&#xff0c;錯誤的是()。 無線統一網絡中AC如果發現某個AP出現故障&#xff0c;將自動調高周圍AP的發射功率以覆蓋出現的空洞 ADSL技術具有非對稱帶寬特性 APON是一種無線接入技術 Cable Modem利用頻分復用的方法將信道分為上行信道和下行信…

Linux系統的服務——以Centos7為例

一、Linux系統的服務簡介 服務是向外部提供對應功能的進程&#xff0c;其運行在系統后臺&#xff0c;能夠7*24小時持續不斷的提供外界隨時發來的服務請求&#xff0c;且服務進程常駐在內存中&#xff0c;具有固定的端口號&#xff0c;通過端口號就能找到服務內容。 提供服務的一…

【PB案例學習筆記】-27制作一個控制任務欄顯示與隱藏的小程序

寫在前面 這是PB案例學習筆記系列文章的第27篇&#xff0c;該系列文章適合具有一定PB基礎的讀者。 通過一個個由淺入深的編程實戰案例學習&#xff0c;提高編程技巧&#xff0c;以保證小伙伴們能應付公司的各種開發需求。 文章中設計到的源碼&#xff0c;小凡都上傳到了gite…

柯西施瓦茨不等式證明過程

柯西-施瓦茨不等式&#xff08;Cauchy-Schwarz Inequality&#xff09;是數學分析中的一個重要不等式&#xff0c;它在向量空間、內積空間等多個領域都有廣泛應用。對于實數或復數域上的內積空間&#xff0c;柯西-施瓦茨不等式可以表述為&#xff1a; 對于任意向量 u \mathbf…

Android Gradle 開發與應用 (七): Gradle 插件開發與發布

目錄 一、概述 二、Gradle插件的基礎知識 2.1 Gradle插件的定義 2.2 Gradle插件的種類 2.3 Gradle插件的生命周期 三、開發一個Gradle插件 3.1 創建Gradle插件項目 3.2 編寫插件實現 3.3 配置插件元數據 3.4 構建和測試插件 3.5 在項目中應用插件 四、發布Gradle插…

計算機未來大方向的選擇

選專業要了解自己的興趣所在。 即想要學習什么樣的專業&#xff0c;如果有明確的專業意向&#xff0c;就可以有針對性地選擇那些專業實力較強的院校。 2.如果沒有明確的專業意向&#xff0c;可以優先考慮一下院校。 確定一下自己想要選擇綜合性院校還是理工類院校或是像財經或者…

C語言結構體的相關知識

前言 從0開始記錄我的學習歷程&#xff0c;我會盡我所能&#xff0c;寫出最最大白話的文章&#xff0c;希望能夠幫到你&#xff0c;謝謝。 1.結構體類型的概念及定義 1.1、概念&#xff1a; 結構體是一種構造類型的數據結構&#xff0c; 是一種或多種基本類型或構造類型的數…

springboot集成gzip和zip數據壓縮傳輸-滿足2k數據自動壓縮(適用大數據信息傳輸)

文章目錄 1&#xff09;、springboot的gzip壓縮-滿足2k數據自動壓縮1.1后端壓縮1.2前端解壓1.3 滿足最小響應大小&#xff08;2KB&#xff09;和指定MIME類型的響應進行GZIP壓縮yml配置自定義配置或者使用Java配置 2&#xff09;、gzip壓縮1.1接口使用-數據壓縮發送前端1.2 接口…

Java面試題系列 - 第3天

題目&#xff1a;Java集合框架詳解與高效使用策略 背景說明&#xff1a;Java集合框架是Java標準庫的重要組成部分&#xff0c;提供了一系列容器類&#xff0c;如List、Set、Map等&#xff0c;用于存儲和操作集合數據。熟練掌握集合框架的使用&#xff0c;對于編寫高效、健壯的…

機器學習之神經網絡

簡介 神經網絡(Neural Network)是一種模仿人類大腦的機器學習算法,由一系列相互連接的神經元組成。它能夠自動學習數據的特征和規律,并對新的輸入數據進行預測和分類。 神經網絡作為一種模仿生物大腦機制的機器學習算法,其產生和發展主要源于以下幾個方面的背景: 對人腦認知…

第11章 規劃過程組(二)(11.8排列活動順序)

第11章 規劃過程組&#xff08;二&#xff09;11.8排列活動順序&#xff0c;在第三版教材第390~391頁&#xff1b; 文字圖片音頻方式 第一個知識點&#xff1a;主要工具與技術&#xff08;重要知識點&#xff09; 1、箭線圖法(ADM) &#xff08;雙代號網絡圖或活動箭線圖&am…

template配置項詳情——03

<body> // vue.config是vue全局配置對象 // productionTip 屬性可能設置是否生產提示信息 //默認值是&#xff1a;true,如果是false 則表示組織生產提示信息 vue.congfig.productionTip false //指定掛載位置 //注意&#xff1a;以下代碼只有vue框架能夠看懂的代碼。…

windows USB 設備驅動開發- 不同模型下的控制傳輸

在不同的模型下&#xff0c;USB控制傳輸會有不同的特點&#xff0c;但是任何控制傳輸的目標都始終是默認端點。 接收者是設備的實體&#xff0c;其信息&#xff08;描述符、狀態等&#xff09;是主機感興趣的。請求可進一步分為&#xff1a;配置請求、功能請求和狀態請求。 發…

leetcode力扣_雙指針問題

141. 環形鏈表 思路&#xff1a;判斷鏈表中是否有環是經典的算法問題之一。常見的解決方案有多種&#xff0c;其中最經典、有效的一種方法是使用 快慢指針&#xff08;Floyd’s Cycle-Finding Algorithm&#xff09;。 初始化兩個指針&#xff1a;一個快指針&#xff08;fast&…

uni-app 使用Pinia進行全局狀態管理并持久化數據

1.引言 最近在學習移動端的開發&#xff0c;使用uni-app前端應用框架&#xff0c;通過學習B站的視頻以及找了一個開發模板&#xff0c;終于是有了一些心得體會。 B站視頻1&#xff1a;Day1-01-uni-app小兔鮮兒導學視頻_嗶哩嗶哩_bilibili B站視頻2&#xff1a;01-課程和uni的…