機器學習算法(1)——簡單線性回歸

一、說明

????????在在這篇文章中,我們將學習我們的第一個機器學習算法,稱為簡單線性回歸。這是一個重要的算法,因為當您可能正在學習第一個神經網絡(稱為人工神經網絡)時,在此算法中學習的技術也適用于深度學習我會嘗試將其分解為單獨的模塊,以便您可以更好地理解它(所以這是機器學習系列的第 1 部分)。線性回歸,顧名思義,在監督機器學習中,回歸問題陳述肯定可以借助類似的線性回歸來解決。現在簡單的線性回歸算法到底是什么,假設我有一個數據集,并且這個特定的數據集具有體重和高度等特征。

????????假設體重在74 公斤左右,我的身高可能是170 厘米,如果體重在80 公斤左右,我的身高可能是180 厘米,如果體重在75 公斤左右,我的身高可能是175.5 厘米。假設在這種數據集中,我們的主要目標是每當我們給出新的權重時訓練一個模型,該模型應該能夠預測高度,現在你看到這個特征基本上是我們的獨立特征(權重)并且這個特征特別是關于輸出或依賴特征。這就是我們計劃做的,我們將在簡單線性回歸的幫助下進行訓練。那么為什么我們把它說成簡單的線性回歸,這樣通過查看這個你就可以了解這里有多少輸入特征呢?我們有一個輸入特征和一個輸出特征。每當我們有這一輸入特征時,我們就說它是簡單線性回歸。如果我們有多個輸入特征,那么我們可以將其稱為多元線性回歸。因此,在本教程中,我們嘗試指定一個模型,并使用特定數據對其進行訓練,稍后該模型應該能夠預測高度。

????????因此,關于這個特定的數據集,讓我繪制一些點。假設有一些點是這樣繪制的,因此在回歸的幫助下,我們要做的是創建一條最佳擬合線,而這條最佳擬合線實際上有助于預測權重。因此,讓我們說一下,一旦我們獲得這條最佳擬合線,預測將如何發生,并且應該以您知道真實點之間的距離的方式創建這條最佳擬合線。

????????真實點是指我的數據的輸出,即 170 厘米、180 厘米和 175.5 厘米。這些預測點之間的距離基本上就是誤差

????????所以這些是我的真實點(藍色點),藍色線是使用這些點的預測線。我們只是創建一條預測線,每當我們獲得新的數據點時,它都是最佳擬合線,假設特定的重量為 72.5 公斤,我們如何預測我們的輸出,這意味著高度應該是多少?我們只是從 x 軸到預測線畫一條線,這是我的最佳擬合線,從最佳擬合線我將畫另一條線到我的 y 軸所以這條線符合我在 y 的高度軸是我給定輸入的輸出。

????????這就是我們在簡單線性回歸中所做的。讓我們嘗試了解該特定最佳擬合線的數學方程是什么以及最佳擬合線的具體誤差是什么。在此之前,我們需要了解我在解釋整個機器學習算法時實際上將使用的一些符號。所以我要畫另一張圖,假設這是 x 軸,我的體重x 軸上身高y 軸上,我剛剛隨機創建了一些點,這些點基本上提到了我們的數據集。

????????我將訓練我們的特定模型。我們再次計劃在這里創建一條最適合的生產線。為了創建這條最佳擬合線,我們只需要一些方程,即:

y = mx + c

????????如果您看過一些研究論文,他們也可能會使用類似的內容,

Y = β 0 + β 1 x

????????您可能還見過這樣的方程,

hθ(x)=θ0+θ1x

????????我將使用特定的符號,只不過是hθ(x)=θ0+θ1x。該方程稱為假設,用h(x)=θ0 +θ1x 的形式表示(基本上與 y = mx + c 相同),其中 θ0(或 c)和 θ1 是(或 m)參數。我們希望找到使我們的假設與數據最佳匹配的參數值。現在這里的 X 表示我的獨立特征,即重量。請嘗試理解什么是θ0和什么是θ1。首先,θ0到底是什么,我們說它是一個截距。為什么我們說它是攔截?這是通過簡單的數學計算得出的。假設我的X為零,那么會發生hθ(x)=θ0。正如您在我的圖表中看到的,最佳擬合線在某處與 y 軸相交。所以我的最佳擬合線與 y 軸相交的點并將其作為攔截。這意味著當 x 軸為零時,即θ0的值。現在我們知道θ0的含義是什么了。它只不過是一個攔截器。當我們談論斜率或系數時,它表示 x 軸上的唯一運動以及有關 y 軸的運動。

????????這由等式中的θ1表示。假設如果我有許多獨立的特征,那么這個方程就變成了

h_{\theta }(x)= \theta _0 + \theta _1 x_1 + \theta _2 x_2 + .. + \theta _n x_n

????????所以最后我們知道我們可以使用這個方程預測給定 x 值y 值。我們將此預測點表示為?。你知道 y 是我們的實際輸出值。現在我們可以使用這兩個值得到誤差方程。

Error = y - ?

????????現在我們將提出一條最佳擬合線,其中當我嘗試計算或求所有這些誤差的總和時,它應該是最小的。假設存在多條具有不同誤差總和值的最佳擬合線。您必須選擇誤差總和值最小的最佳擬合線。

二、回歸成本函數

????????在這里,我們將找到選擇最佳擬合線的優化方法。為此,我們將使用成本函數。該成本函數以符號形式給出。

????????我們必須創建最佳擬合線,以便我們可以獲得所有特定誤差的總和,并且它應該是最小的。這就是為什么我們以這種特定的方式采用這個成本函數。hθ(x)^i是我的預測點。y?^i是我的真值點/真實輸出。當我們進行減法時,我們可以在這里得到誤差值。

????????我們進行平方的原因是因為我們使用的成本函數技術是均方誤差。是否存在不同類型的成本函數?是的,有平均絕對誤差(MAE)和均方根誤差(RMSE)

????????θ0表示截距θ1表示斜率_?您只需要不斷更改 θ0 和 θ1 值,并嘗試找出誤差最小的最佳擬合線。

????????那么直線方程是什么呢

hθ(x)=θ0+θ1x

????????由此,我將在二維圖中解釋所有這些,以便更好地理解這個理論。所以我假設我的θ0 = 0。那么我的截距將為零,最佳擬合線將穿過原點。現在我可以像這樣創建我的方程。

hθ(x)= θ1x  : because my θ0 = 0

????????我將使用這個方程來獲取 hθ(x) 的值。讓我們考慮這是我的整個數據集,我正在嘗試創建一條最佳擬合線并找到該線的最小誤差。

? ? ? ? 示例數據集

????????讓我們繪制這些數據的圖表。現在我將使用上面的方程來繪制我的最佳擬合線。

? ? ? ? 與實際值的圖表

????????現在我的斜率是 θ1 ,我們假設θ1= 1。稍后,我們將改變斜率以獲得不同的最佳擬合線以最小化誤差。

hθ(x)= θ1x
Let θ1 = 1 (This is my slope value. Assumption this value equals to 1)
Now according to the x values in the data hθ(x) values should be like this,
x =  1 -> hθ(x) =  1 
x =  2->  hθ(x) =  2
x =  3->  hθ(x) =  3

現在我們可以用這些值繪制最佳擬合線,這條線將穿過原點(x = 0,y = 0)。

具有實際值和最佳擬合線的圖表

現在你可以看到我的預測點和真實點是重疊的。現在讓我們應用這個成本函數。

Here we assume like θ0 = 0 and the J(θ0, θ1) will be J(θ1) 
Now in the dataset I have 3 points. So that m will be 3. m=3
Now the summation of i =1 to 3 means the entire summation of 1,2 and 3 value.
So I will get the value by expanding this values like this,J(θ1) =  1/2*3 [All 3 dataset Sum (predicted value - actual true value)^2]
J(θ1) =  1/2*3 [ (1 -1)^2 + (2 - 2)^2 + (3 - 3)^2}
J(θ1) = 0

現在您知道 J(θ1) = 0,這意味著沒有錯誤。這是正確的,因為顯然沒有錯誤,因為最佳擬合線通過了所有真實點。

讓我們將斜率值更改為 0.5。

hθ(x)= θ1x
Let θ1 = 0.5(This is my slope value. Assumption this value equals to 0.5)
Now according to the x values in the data hθ(x) values should be like this,
x =  1 -> hθ(x) =  0.5
x =  2->  hθ(x) =  1
x =  3->  hθ(x) =  1.5

現在我們可以用這些值繪制最佳擬合線,這條線將穿過原點(x = 0,y = 0)。

所以這里紅點是我的預測點,藍點是我的實際點。現在讓我們使用 J(θ1) 計算誤差值。

Here we assume like θ0 = 0 and the J(θ0, θ1) will be J(θ1) 
Now in the dataset I have 3 points. So that m will be 3. m=3
Now the summation of i =1 to 3 means the entire summation of 1,2 and 3 value.
So I will get the value by expanding this values like this,J(θ1) =  1/2*3 [All 3 dataset Sum (predicted value - actual true value)^2]
J(θ1) =  1/2*3 [ (0.5 -1)^2 + (1 - 2)^2 + (1.5 - 3)^2}
J(θ1) = 1/2*3 [ (-0.5)^2 + (-1)^2 + (-1.5)^2}
J(θ1) = 0.58

現在我的 J(θ1) 值(誤差)是 0.58。與之前的值相比,這是一個更大的值。

讓我們將斜率值更改為0

hθ(x)= θ1x
Let θ1 = 0(This is my slope value. Assumption this value equals to 0)
Now according to the x values in the data hθ(x) values should be like this,
x =  1 -> hθ(x) =  0
x =  2->  hθ(x) =  0
x =  3->  hθ(x) =  0

現在我們可以用這些值繪制最佳擬合線,這條線將穿過原點(x = 0,y = 0)。

現在我的預測點為黃色,實際點為藍色。現在讓我們使用 J(θ1) 計算誤差值。

Here we assume like θ0 = 0 and the J(θ0, θ1) will be J(θ1) 
Now in the dataset I have 3 points. So that m will be 3. m=3
Now the summation of i =1 to 3 means the entire summation of 1,2 and 3 value.
So I will get the value by expanding this values like this,J(θ1) =  1/2*3 [All 3 dataset Sum (predicted value - actual true value)^2]
J(θ1) =  1/2*3 [ (0 -1)^2 + (0 - 2)^2 + (0 - 3)^2}
J(θ1) = 1/2*3 [ (-1)^2 + (-2)^2 + (-3)^2}
J(θ1) = 2.3

現在讓我們在圖表中繪制這些 J(θ1) 值。看起來像這樣,

????????所以這里我們使用了 3 個點,當我們使用更多的 J(θ1) 和 θ1 點來繪制時,你會得到這樣的圖。你知道,在 θ1 =1 點,我的誤差非常低。事實上,它是。所以我們可以說,當我們找到這個θ1θ1= 1時,我的誤差最小化了。我們將此值稱為全局最小值。總體目標是通過迭代不同的θ值來最小化成本函數。成本函數的最低可能值也稱為全局最小值。最終的線性回歸模型將保留產生最低成本函數的 θ 值。在全局最小值中,我現在將獲得最佳擬合線。

????????所以這整條曲線稱為梯度下降。這對于深度學習技術來說非常重要。

????????所以我希望您能更好地理解簡單線性回歸和回歸成本函數。您將在下一篇文章中了解有關收斂算法的更多信息。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/162273.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/162273.shtml
英文地址,請注明出處:http://en.pswp.cn/news/162273.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

畢業設計ASP.NET 1400動漫公司網站【程序源碼+文檔+調試運行】

摘要 本系統將實現一個動漫公司網站,包括前臺用戶模塊和后臺管理員模塊。前臺用戶模塊主要包括最新動漫、注冊登錄、公司簡介、公司新聞、動漫中心、聯系我們和會員中心等功能。后臺管理員模塊包括用戶管理、公司簡介管理、公司新聞管理、動漫類別管理、動漫管理、…

加工車間污水處理設備有哪些

在加工車間中,污水處理設備是至關重要的一部分。它們的功能是將污水進行處理,確保其達到符合環保標準的水質要求。以下是一些常見的加工車間污水處理設備: 1.初級沉淀池:初級沉淀池是最基本的污水處理設備之一。它通過重力作用將…

阿里云服務器ECS產品知識及購買和使用常見問題及答案匯總

本文總結了阿里云用戶在購買和使用阿里云服務器中的一些常見的問題,包括什么是云服務器ECS,特性與優勢,應用場景,基本概念,使用限制等眾多問題,讓您全方位了解阿里云服務器,并根據自己的需求選擇…

Qt pro常用宏

RC_ICONS IStudio.icoCONFIG no_debug_release # 不會生成debug 和 release 文件目錄 DESTDIR $$PWD/../bin # 指定編譯最終文件的生成路徑 OBJECTS_DIR $$PWD/temp/obj # obj中間文件存放路徑 MOC_DIR $$PWD/temp/moc # moc中間文件…

百戰python01-初識python_turtle繪圖

文章目錄 簡介練習1.簡易的進度條學習使用turtle在屏幕上繪制圖形注:需要對python有基本了解,可查看本作者python基礎專欄,有任何問題歡迎私信或評論(本專欄每章內容都將不定期進行內容擴充與更新) 簡介 python簡介及方向+pycharm安裝使用請轉 練習 注:嘗試練習。了解…

Windows系統中curl和wget命令下載說明

前言 當需要在命令行中發送 HTTP 請求時,常用的工具有 curl 和 wget。它們可以幫助你下載文件,發送 POST 或 GET 請求,以及檢查網頁內容等。 curl: curl 是一個功能強大的命令行工具,支持多種協議(例如 HTTP、HTTPS、…

常見樹種(貴州省):010任豆、漆樹、椿樹、伯樂樹、欒樹、楸樹、橡膠樹、鹽膚木、吳茱萸、黃柏

摘要:本專欄樹種介紹圖片來源于PPBC中國植物圖像庫(下附網址),本文整理僅做交流學習使用,同時便于查找,如有侵權請聯系刪除。 圖片網址:PPBC中國植物圖像庫——最大的植物分類圖片庫 一、任豆 …

趨勢解讀:TikTok獨創的社交語言是如何演變的

在數字時代的浪潮中,社交媒體平臺成為人們傳遞信息、表達創意和建立社交聯系的重要場所。而在這眾多社交平臺中,TikTok以其獨特的社交語言和創新的內容形式,迅速吸引了全球數以億計的用戶。本文將深入探討TikTok的社交語言是如何獨創并演變的…

中年人怎么發展?持續發展?

現在ai這么火,就像當年的xxx,如果沒有抓住,會xxx嗎? 為了ai,多學學python也是也是好的啊。 在學習之余,還是想做做自媒體的。不求馬上賺到錢。我的想法是,現在每天下班回家都是刷刷抖音&#…

win10戴爾電腦安裝操作系統遇到的問題MBR分區表只能安裝GPT磁盤

首先按F2啟動boot管理界面 調整啟動盤的啟動順序,這里啟動U盤為第一順序。 第一步 選擇安裝程序的磁盤 第二步 轉換磁盤為GPT磁盤 一般出現 磁盤0和1,說明存在兩個盤 ,這里兩個盤不是說的是C盤和D盤的問題,而是在物理上實際存在…

easyExcel實現分批導入,動態表頭分批導出,以及導出表格樣式設置

<dependency><groupId>com.alibaba</groupId><artifactId>easyexcel</artifactId><version>2.2.6</version></dependency> 一&#xff0c;分批導入 1.首先配置表格頭映射類 Getter Setter EqualsAndHashCode public class …

YOLOV5標注訓練自己的數據全流程教程

概述 yolo在目標檢測領域是非常有代表性的模型&#xff0c;它速度快識別效果也很精準&#xff0c;是實時檢測模型中應用最廣泛的。yolo的原理和代碼是很容易獲得的&#xff0c;且有各式各樣的教程&#xff0c;但是模型怎么使用的教程相對比較少。本文講解如何使用yolov5模型訓…

Linux運行jmeter報錯java.sql.SQLException:Cannot create PoolableConnectionFactory

在性能測試過程中遇見1個問題&#xff0c;終于解決了&#xff0c;具體問題如下。 問題 在windows電腦寫jmeter腳本連接數據庫連接成功 然后把該腳本放到Linux服務器上面&#xff0c;并把jmeter mysql驅動放到服務器上面&#xff0c;修改jmeter的mysql驅動路徑信息 注意&…

第十三章 : Spring Boot 日志記錄脫敏

第十三章 : Spring Boot 日志記錄脫敏 前言 本章重點:介紹secure-ext-spring-boot-starter 如何引入以及敏感數據脫敏,打印日志過程中自動脫敏,且支持手機號、郵箱、身份證號、住址、中文名、座機號、銀行卡、自定義等多種類型的脫敏。 基于Spring boot 2.3.2.RELEASE 背景…

【快速解決】實驗一:模擬實現進程的創建《操作系統上機》實驗報告

目錄 實驗要求 正文開始 ?編輯 難點講解 結語 實驗要求 實驗一&#xff1a;進程的創建 一、實驗項目類型&#xff1a;設計型 二、實驗目的和要求 加深對進程概念的理解&#xff0c;熟悉PCB的組織&#xff0c;深入了解創建進程的一般過程&#xff0c;掌握用隊列組織進程的…

數據庫系統之常用數據庫你用過幾個?

MySQL 開發廠商&#xff1a;AB公司——>Sun公司——>甲骨文公司 最新版本&#xff1a;5.7.43、8.0.34 發行方式: 社區版&#xff08;MySQL Community Server&#xff09; 免費&#xff0c;MySQL不提供任何技術支持 商業版&#xff08;MySQL Enterprise Edition&#xff0…

LLVM學習筆記(62)

4.4.3.3.2. 指令處理的設置 4.4.3.3.2.1. 目標機器相關設置 除了基類以外&#xff0c;X86TargetLowering構造函數本身也是一個龐然大物&#xff0c;我們必須要分段來看。V7.0做了不小的改動&#xff0c;改進了代碼的結構&#xff0c;修改了一些指令的設置。 100 X86Targ…

加班做報表被嘲低效!快用大數據分析工具

做數據分析報表很耗時間&#xff0c;因為不僅要解決多業務系統數據質量標準不一問題&#xff0c;還需要進行大量的公式計算、報表設計與制作。但那是以前&#xff0c;在大數據分析工具強勢崛起的當下&#xff0c;這些工作都能交給大數據分析工具來做了。以前是花90%的時間做報表…

9.Docker的虛懸鏡像-Dangling Image

1.虛懸鏡像的概念 虛懸鏡像 (Dangling Image) 指的是倉庫名 (鏡像名) 和標簽 TAG 都是 的鏡像。 2.構建本地虛懸鏡像 這里我以unbuntu為例來說明。 2.1 編寫Dockerfile文件 FROM ubuntu:22.042.2 根據Dockerfile文件構建虛懸鏡像 docker build .上面這段命令&#xff0c…

選擇ERP系統的關鍵指標

在制造業工廠中&#xff0c;選擇一個合適的ERP系統能夠顯著提升生產效率、優化資源管理、增強決策支持。然而&#xff0c;如何從眾多ERP系統中選擇一個適合自己企業的系統&#xff0c;是許多負責人在面臨的問題。本文將詳細介紹選擇ERP系統的關鍵指標&#xff0c;幫助制造業工廠…