用一組特征 x ( i ) { x^{(i)}} x(i)來預測或估計一個響應變量 y ( i ) y^{(i)} y(i),公式如下:
y ( i ) = θ T x ( i ) + ? ( i ) y^{(i)} = \theta^T x^{(i)} + \epsilon^{(i)} y(i)=θTx(i)+?(i)
各名詞解釋:
y ( i ) y^{(i)} y(i):這是第 i i i個觀察點的響應變量,也就是我們想要預測的目標值。
x ( i ) { x^{(i)}} x(i):這是一個特征向量,包含了與第 i i i個觀察點相關的所有特征值。例如,在房價預測模型中,這些特征可能包括房屋的大小、位置、房間數量等。
θ θ θ:這是一個參數向量,包含了每個特征對預測結果 y ( i ) y^{(i)} y(i)影響的權重。在機器學習中,這些權重通常是通過訓練數據學習得到的。
θ T θ^T θT:這表示參數向量 θ θ θ的轉置。在數學中,一個列向量的轉置變為行向量。在這個公式中,它允許我們將 θ θ θ與特征向量 x ( i ) { x^{(i)}} x(i)相乘,得到一個標量值。
? ( i ) \epsilon^{(i)} ?(i):這代表誤差項,是實際響應值 y ( i ) y^{(i)} y(i)與通過模型預測的 θ T x ( i ) \theta^T x^{(i)} θTx(i)之間的差異。在現實世界中,數據往往不會完美地落在一條直線上,誤差項就是用來捕捉這些無法通過模型解釋的變異性。
將這些組件結合起來, θ T x ( i ) \theta^T x^{(i)} θTx(i)表示給定特征向量 x ( i ) { x^{(i)}} x(i)時,模型預測的響應值。當我們把所有的特征 x ( i ) { x^{(i)}} x(i)與它們對應的權重 θ θ θ相乘并求和時,我們就得到了一個數值,這個數值是響應變量的預測值,或者說是我們期望的 y y y值。
而 y ( i ) y^{(i)} y(i)是實際觀測到的響應值。理想情況下,如果模型是完美的,那么 ? ( i ) \epsilon^{(i)} ?(i)將會是0,這意味著所有的觀測值都完全位于由參數向量 θ θ θ定義的模型預測的線上。然而,實際情況是,數據會有一些隨機性或者是由于模型無法捕捉的因素造成的變異,這就是為什么我們需要 ? ( i ) \epsilon^{(i)} ?(i)來表示這些偏差。
在進行線性回歸分析時,我們的目標是找到最佳的參數向量 θ θ θ,使得誤差項的平方和最小,這也就是最小二乘法的原理。通過這種方式,模型能夠盡可能準確地擬合訓練數據,同時也能夠對新的未見過的數據進行有效的預測。