邏輯回歸(用于分類)
用途:通過已有數據,計算出線性方程的參數w后,可以用于預測某一個物品屬于某一類的概率,[0,1];
求解思想:邏輯回歸通過最大似然估計(Maximum Likelihood Estimation, MLE)?學習參數w,核心思想是:找到一組w
,使得 “所有訓練樣本的實際類別(y=1 或 y=0)與模型預測的概率(P (y=1|x))盡可能一致”。
情形適用:標簽與屬性有 極近線性關系,樣本量需遠大于特征量否則容易過擬合,特征間不能存在強相關性(如 “身高 cm” 和 “身高 m”),否則參數估計不穩定,必須進行數據的標準化/正向化/歸一化;
隨機森林(用于分類和回歸預測)
輸出是: 特征重要性
適用范圍:數據之間存在非線性關聯,可解釋性強,可以輸出重要特征。
不適用范圍:數據維度極高且樣本量少的場景(如 100 個樣本、1000 個特征):易因 “特征隨機選擇” 導致信息利用率低。
得到主成分之后的選擇: