Sklearn 中的邏輯回歸

邏輯回歸的數學模型

基本模型

邏輯回歸主要用于處理二分類問題。二分類問題對于模型的輸出包含 0 和 1，是一個不連續的值。分類問題的結果一般不能由線性函數求出。這里就需要一個特別的函數來求解，這里引入一個新的函數 Sigmoid 函數，也成為邏輯函數。
$h_\theta(x) = g(\theta^Tx) \\ z = \theta^Tx \\ g(z) = \frac{1}{1 + e^{-z}}$
這里函數 $g (z)$ 將任何實數映射到了 $(0, 1)$ 區間中，從而將任何值函數轉換為適合分類的函數。這里我們將線性回歸模型函數插入到這個函數中形成新的邏輯回歸模型。

圖 1 Sigmoid 函數

如圖所示，轉換后可以看到在 $x = 0$ 處有一個明顯的變化，兩邊的函數值無限接近于 0 和 1，而中間的交界處則根據輸出來判斷如何分類，例如 $h_\theta(x) = 0.7$ 則表示有 70% 的概率輸出為 1。

決策邊界

決策邊界（Decision boundary）即為輸出的分界點。二分類問題的輸出是離散的零一分類，也就是說：
$h_\theta(x) \ge 0.5 \rarr y = 1 \\ h_\theta(x) < 0.5 \rarr y = 0$
那么此處由 Sigmoid 函數的性質可以得到：
$\theta^T x \ge 0 \Rightarrow y = 1 \\ \theta^T x < 0 \Rightarrow y = 0$
那么此處根據輸入 $x$ 來判斷輸出從當前值跳變到另一個值的邊界，即為決策邊界。在上面 Sigmoid 函數的實例圖中，假設輸入函數僅是簡單的 $z = x$ ，并且認為當 $h_\theta(x) \ge 0.5$ 時，輸出 $y = 1$ ，那么可以看到， $x = 0$ ? 即為其決策邊界。

在更復雜的情況下，假設

$\theta^T x = \theta_0 + \theta_1 x_1 + \theta_2 x_2$

那么通過變形可得到
$\theta_0 + \theta_1 \cdot x = - \theta_2 \cdot y \\ y = \frac{\theta_0 + \theta_1 \cdot x}{\theta_2}$

代價函數

根據模型的代價函數（Cost function）即可根據對當前參數的評估最后找到最優解，邏輯回歸的代價函數定義為：
$J(\theta) = \frac{1}{m}\sum^m_{i = 1}\mathrm{Cost}(h_\theta(x^{(i)}), y^{(i)}) \\ \begin{align} &\mathrm{Cost}(h_\theta(x), y) = -\log(h_\theta(x)) & \text{ if } y = 1 \\ &\mathrm{Cost}(h_\theta(x), y) = -\log(1 - h_\theta(x)) & \text{ if } y = 0 \\ \end{align}$

圖 2 Sigmoid 的損失函數

這里可以看出，當 $\text{ and } h_\theta(x) \rarr 0$ 時，損失函數的值會趨向于無窮，可以直觀看到損失函數對模型預測與實際值的差距評估。機器學習的主要目標就是要將損失函數降到最低，以求得最優模型。

梯度下降

通過梯度下降（Gradient descent）找到最優解，首先將代價函數轉化為如下形式。不難看出在某一情況時，另一種情況會被化為 0，這樣做的目的是方便編程：
$\mathrm{Cost}(h_\theta(x), y) = - y \log(\theta(x)) - (1 - y) \log(1 - h_\theta(x))$
那么整個代價函數如下：
$J(\theta) = -\frac{1}{m}\sum_{i = 1}^{m}[y^{(i)}\log(h_\theta(x^{(i)})) + (1 - y^{(i)}) \log(1 - h\theta(x^{(i)}))]$
則可以求出梯度下降迭代的步驟：
$\theta_j := \theta_j - \alpha\frac{\partial{J(\theta)}}{\partial{\theta_j}} \\ \text{即 } \theta_j := \theta_j - \frac{\alpha}{m}\sum^m_{i = 1}(h_\theta(x^{(i)}) - y^{(i)})x_j^{(i)}$

Sklearn 邏輯回歸模型

數據整理

假設有一份學生的成績單和大學錄取的名單，學生們通過兩門考試的兩門分數來被決定是否被錄取。這是一個兩個特征的二分類問題，首先整理一下數據。

data = pd.read_csv('ex2data1.txt', names=['exam1', 'exam2', 'is_admitted'])
print(data.head())# 將數據拆分成是否錄取的兩批，繪制散點
positive = data[data['is_admitted'] == 1]
negative = data[data['is_admitted'] == 0]fig, ax = plt.subplots(figsize=(12, 8))
ax.scatter(positive['exam1'], positive['exam2'], s=50, c='b', alpha=0.5, label='Admitted')
ax.scatter(negative['exam1'], negative['exam2'], s=50, c='r', alpha=0.5, label='Not Admitted')
ax.legend()
ax.set_xlabel('Exam 1 Score')
ax.set_ylabel('Exam 2 Score')
plt.show()

       exam1      exam2  admitted
0  34.623660  78.024693         0
1  30.286711  43.894998         0
2  35.847409  72.902198         0
3  60.182599  86.308552         1
4  79.032736  75.344376         1

圖 3 數據預覽

邏輯回歸模型

這里將從上面讀取的數據傳遞給定義的邏輯回歸的模型，并訓練得到模型參數。

X = data[['exam1', 'exam2']].values
Y = data['is_admitted'].values# 定義并訓練模型
model = LogisticRegression()
model.fit(X, Y)print("Model Coefficients:", model.coef_)
print("Intercept:", model.intercept_)

Model Coefficients: [[0.20535491 0.2005838 ]]
Intercept: [-25.05219314]

驗證

驗證模型的準確性，首先從模型中取出相關參數，即為 $\theta$ 。這里需要說明一下數學模型中與 Sklearn 邏輯回歸模型的屬性，首先求出決策邊界：
$\frac{\theta_0 + \theta_1 \cdot x}{\theta_2}$
這里 $\theta_0$ 為偏置， $\theta_1$ 和 $\theta_2$ 是每個特征的系數。兩者分別對應了兩個屬性。

coef = model.coef_[0]
intercept = model.intercept_[0]
x = np.linspace(30, 100, 1000)
y = -(coef[0] * x + intercept) / coef[1]fig, ax = plt.subplots(figsize=(12, 8))
ax.scatter(positive['exam1'], positive['exam2'], s=50, c='b', alpha=0.5, label='Admitted')
ax.scatter(negative['exam1'], negative['exam2'], s=50, c='r', alpha=0.5, label='Not Admitted')
ax.plot(x, y, label='Decision Boundary', c='grey')
ax.legend()
ax.set_xlabel('Exam 1 Score')
ax.set_ylabel('Exam 2 Score')
plt.show()

最后可以看出決策邊界較好的分割了兩類點集。

圖 4 決策邊界

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/67554.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/67554.shtml
英文地址，請注明出處：http://en.pswp.cn/web/67554.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！