ReliefF 的原理

ReliefF 是一種“基于鄰居差異”的特征選擇方法，用來評估每個特征對分類任務的貢獻大小。

它的核心問題是：

“我怎么知道某個特征是不是重要？是不是有能力把不同類別的數據區分開？”

而 ReliefF 的思路是：

“我拿一個樣本，看看它和同類樣本在特征上是否接近，和異類樣本是否遠離。如果某個特征能保持‘同類接近、異類遠離’，那這個特征就重要！”

假如你想根據一堆人的特征（如身高、體重、發色、學歷等）來判斷他們是否是“運動員”，現在你想知道哪個特征最有用。

你隨機選中一個人小張，他是個運動員；
你找到一個離他最像的非運動員（比如小李），再找一個最像的運動員（小王）；
比較小張和小王、小李在每個特征上的差別：
- 如果“身高”在小張和小王之間很接近、而和小李差很多，就說明“身高”可能是個好特征；
- 如果“發色”在三人之間都差不多，那“發色”可能沒啥用。

計算每個特征 $A$ 的一個權重分數 $W [A]$ ，表示該特征的區分能力。

假設你有 $m$ 個樣本、 $d$ 個特征：

公式是這樣的（簡化寫法）：
$\text{diff}(A, x_i, \text{Hit}) + \text{diff}(A, x_i, \text{Miss})$

最終， $W [A]$ 越大的特征，越有能力幫助分類。

對于一個特征 $A$ 和兩個樣本 $x_i$ , $x_j$ ：

如果 $A$ 是連續型特征：
$\text{diff}(A, x_i, x_j) = \frac{|x_i[A] - x_j[A]|}{\text{max}(A) - \text{min}(A)}$
如果 $A$ 是離散型特征：
$\text{diff}(A, x_i, x_j) = \begin{cases} 1, & \text{若 } x_i[A] \ne x_j[A] \\ 0, & \text{若 } x_i[A] = x_j[A] \end{cases}$

ReliefF 是對原始 Relief 的擴展，它有幾個改進點：

ReliefF 本質上是用“鄰居之間的特征差異”來衡量一個特征的重要性：
如果同類越像、異類越不像，就說明這個特征越有區分能力，權重越高。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/76738.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/76738.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/76738.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！