2024美賽備戰1--數據處理（數據預處理，異常值處理，預測模型，插值擬合 *****必看****）

1.數據預處理

所謂數據預處理，就是指在正式做題之前對數據進行的一些處理。在有些情況下，出題方提供的數據或者網上查找的數據并不能直接使用，比如缺少數據甚至是異常數據，如果直接忽略缺失值，或者沒發現異常數據，都會嚴重地影響結果的正確性。此外，帶單位的數據也需要通過無量綱處理以減少單位對計算的影響。因此正確的數據預處理是前期值得關注的任務。

2.缺失數據

(1)均值填充法

如果缺失值是數值型的，就根據該屬性在其他所有對象取值的平均值來填充該缺失的屬性值，比如年齡、距離等屬性。

如果缺失值是非數值型的，就根據統計學中的眾數原理，用該屬性在其他所有對象的取值次數最多的值(即出現頻率最高的值)來補齊該缺失的屬性值。比如

性別、類別等屬性。

(2)就近補齊法

對于一個包含缺失值的對象，就近補齊法在完整數據中找到一個與它最相似 的對象， 然后用這個相似對象的值來進行填充。不同的問題可能會選用不同的標

準來對相似進行判定。該方法的難度在于如何定義相似標準，主觀因素較多。

(3)聚類填充法

聚類是按照某個特定標準(如距離、密度等)把一個數據集分割成不同的類或簇，同一類的數據盡可能聚集到一起，不同類數據盡量分離，使得同一個簇內的數據對象的相似性盡可能大，同時不在同一個簇中的數據對象的差異性也盡可能地大。把數據分好類后可以在每個類別中處理缺失值，最經典的聚類算法是K-? 近鄰算法 (KNN) , 建議同學們在使用時根據數據屬性合理選擇距離和K(類別)

個數。

(4)回歸方程法

用不含缺失值的數據集建立回歸方程，把缺失值的點代入回歸方程即可預測缺失值，在具體使用時應該注意要留出一部分數據驗證你的回歸方程的準確性

(建議測試數據比例20%)。

3.異常值處理

異常值是指樣本中的個別值，其數值明顯異于其他觀測值，異常值也叫離群點。在比賽中，出題方可能會故意提供異常數據，考察參賽選手的數據分析和處理能力。

(1)檢測方法

√? 基于實際問題

在一些實際問題中，一方面可以用物理模型剔除一些異常值，比如用圓周運動的臨界條件篩選速度異常值；另一方面，可以根據生活常識剔除異常值，比如車速有上限。

√? 基于統計學原理

若數據服從正態分布，根據正態分布的定義可知，在默認情況下我們可以認定，距離超過平均值3δ的樣本是不存在的。因此，當樣本距離平均值大于3δ,

認為該樣本為異常值。

√? 箱線圖法

分位數：把數據分布劃成4個相等的部分，每個部分表示數據分布的四分之一，稱為四分位數，100-分位數通常稱為百分位數，即劃為100個大小相等的部

分。中位數、四分位數和百分位數是使用最廣泛的分位數。

四分位極差：第1個和第3個四分位數之間的距離稱為四分位數極差，定義

為：

IQR=Q?-Q?

五數概括由中位數(圖片圖片)、四分位數圖片圖片，最大值和最小值組成。

異常值識別的通常規則：挑選落在第3個四分位數之上或第1個四分位數之下至少1.5×IQR的值。箱線圖的斷點一般在四分位數上，盒的長度是四分位數極差IQR,?? 中位數用盒內的線標記，盒外的兩條線(胡須)延申到最小和最大觀測值。僅當最大和最小觀測值超過四分位數不到1.5×IQR 時，胡須擴展，否則胡須再出現在四分位數的1.5×IQR之內的最極端觀測值處終止，剩下的情況個

別列出。

該方法的優點在于既能對數據進行統計學描述，了解數據的整體特征，又能

可視化展示結果，簡潔清晰。