用途:是處理成分數據的核心預處理方法,核心目標是解決成分數據的和為常數100% , 導致的維度冗余,非線性相關問題。使得數據滿足傳統的統計/建模方法;
舉例子:食品比例中 面粉(50%),糖(30%),水(20%)
原理:這類數據存在 “閉合效應(Closure Effect)”:若一個成分的比例增加,至少有一個其他成分的比例會減少(因為總和固定),導致:
- 變量間存在強線性相關性(維度冗余,n 個成分僅 n-1 個獨立信息);
- 傳統統計方法(如直接對比例做回歸)會得出錯誤結論(如誤以為 “面粉占比與食品口感正相關”,實際可能是水占比間接影響)。
使用要求:所有含量大于0,總和為1;將原來的成分值進行計算然后替換,使用替換后的新值
轉換后 將原來的比例相關性 轉換為 線性相關性;
CLR 是成分數據的 “翻譯器”:將 “總和固定、相互制約” 的比例數據,翻譯成 “無約束、可線性建模” 的新變量,讓傳統數學模型能正確分析 “各成分對目標的真實影響”;
......待續......