機器學習算法之-邏輯回歸(1)

什么是回歸

????????回歸樹，隨機森林的回歸，無一例外他們都是區別于分類算法們，用來處理和預測連續型標簽的算法。然而邏輯回歸，是一種名為“回歸”的線性分類器，其本質是由線性回歸變化而來的，一種廣泛使用于分類問題中的廣義回歸算法。要理解邏輯回歸從何而來，得要先理解線性回歸。線性回歸是機器學習中最簡單的的回歸算法，它寫作一個幾乎人人熟悉的方程：

?????????0為截距，?1~?n為系數；

如上方程，構建成矩陣如下，現在的目標就是構建?T的值。

????????于是，我們就可以得到一個觀點，即：線性回歸的任務，就是構造一個預測函數來映射輸入的特征矩陣x和標簽值y的線性關系，而構造預測函數的核心就是找出模型的參數：?T和?0；

????????通過函數Z?，線性回歸使用輸入的特征矩陣X來輸出一組連續型的標簽值y_pred，以完成各種預測連續型變量的任務,那如果我們的標簽是離散型變量。

? ? ? ? 這是引申了一個概念，連續型變量和離散型變量：?連續性變量是指可以取任何數值的變量，通常以測量或計量方式獲得，例如身高、體重、溫度等。離散型變量是指只能取有限個數值或整數的變量，通常以計數方式獲得，例如家庭成員人數、投擲骰子點數等。

? ? ? ? 這時就會產生一個問題，如果是滿足0-1分布的離散型變量，我們要怎么辦呢？我們可以通過引入聯系函數(link function)。聯系函數即一種將線性預測器轉換為概率的函數。就是將線性回歸方程z變換為g(z)，并且令g(z)的值分布在(0,1)之間，且當g(z)接近0時樣本的標簽為類別0，當g(z)接近1時樣本的標簽為類別1，這樣就得到了一個分類模型。而這個聯系函數對于邏輯回歸來說，就是Sigmoid函數：

????????這時又引申了一個概念，即歸一化，歸一化是一種數據預處理技術，用于將不同規模的數據轉換為相同的比例。它通常是將數據縮放到特定的范圍，例如0到1或-1到1之間。歸一化可以消除不同變量之間的量綱影響，使得它們可以在相同的尺度下進行比較和分析。常用的歸一化方法包括MinMaxScaler,而MinMaxScaler是可以取到0和1的（最大值歸一化后就是1，最小值歸一化后就是0），但Sigmoid函數只是無限趨近于0和1。

線性回歸中Z=?T*x, 于是我們將Z帶入，就得到了二元邏輯回歸模型的一般形式：

y(x) 就是我們邏輯回歸返回的標簽值。此時，y(x)在[0,1]之間，而y(x)和1-y(x)之和必然是0，如果

就形成了幾率，在此基礎上取對數，就是：

????????我們讓線性回歸結果逼近0和1，此時y（x）和1-y（x)之和為1，因此它們可以被我們看作是一對正反例發生的概率，即y（x）是某樣本i 的標簽被預測為1的概率，而1-y（x)是i的標簽被預測為0的概率,y（x）/1-y（x）, 就是樣本 i 的標簽被預測為 1的相對概率。基于這種理解，我們使用最大似然法和概率分布函數推到出邏輯回歸的損失函數，并且把返回樣本在標簽取值上的概率當成是邏輯回歸的性質來使用，每當我們訴求概率的時候，我們都會使用邏輯回歸。 ?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/42316.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/42316.shtml
英文地址，請注明出處：http://en.pswp.cn/news/42316.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！