2024美賽備戰1--數據處理(數據預處理,異常值處理,預測模型,插值擬合 *****必看****)

1.數據預處理

所謂數據預處理,就是指在正式做題之前對數據進行的一些處理。在有些情 況下,出題方提供的數據或者網上查找的數據并不能直接使用,比如缺少數據甚 至是異常數據,如果直接忽略缺失值,或者沒發現異常數據,都會嚴重地影響結 果的正確性。此外,帶單位的數據也需要通過無量綱處理以減少單位對計算的影響。因此正確的數據預處理是前期值得關注的任務。

2.缺失數據

(1)均值填充法

如果缺失值是數值型的,就根據該屬性在其他所有對象取值的平均值來填充該缺失的屬性值,比如年齡、距離等屬性

如果缺失值是非數值型的,就根據統計學中的眾數原理,用該屬性在其他所 有對象的取值次數最多的值(即出現頻率最高的值)來補齊該缺失的屬性值。比如

性別、類別等屬性。

(2)就近補齊法

對于一個包含缺失值的對象,就近補齊法在完整數據中找到一個與它最相似 的對象, 然后用這個相似對象的值來進行填充。不同的問題可能會選用不同的標

準來對相似進行判定。該方法的難度在于如何定義相似標準,主觀因素較多。

(3)聚類填充法

聚類是按照某個特定標準(如距離、密度等)把一個數據集分割成不同的類或 簇,同一類的數據盡可能聚集到一起,不同類數據盡量分離,使得同一個簇內的 數據對象的相似性盡可能大,同時不在同一個簇中的數據對象的差異性也盡可能 地大。把數據分好類后可以在每個類別中處理缺失值,最經典的聚類算法是K-? 近鄰算法 (KNN) , 建議同學們在使用時根據數據屬性合理選擇距離和K(類別)

個數

(4)回歸方程法

用不含缺失值的數據集建立回歸方程,把缺失值的點代入回歸方程即可預測 缺失值,在具體使用時應該注意要留出一部分數據驗證你的回歸方程的準確性

(建議測試數據比例20%)。

3.異常值處理

異常值是指樣本中的個別值,其數值明顯異于其他觀測值,異常值也叫離群 點。在比賽中,出題方可能會故意提供異常數據,考察參賽選手的數據分析和處理能力。

(1)檢測方法

? 基于實際問題

在一些實際問題中, 一方面可以用物理模型剔除一些異常值,比如用圓周運 動的臨界條件篩選速度異常值;另一方面,可以根據生活常識剔除異常值,比如車速有上限。

? 基于統計學原理

若數據服從正態分布,根據正態分布的定義可知,在默認情況下我們可以認 定,距離超過平均值3δ的樣本是不存在的。因此,當樣本距離平均值大于3δ,

認為該樣本為異常值。

? 箱線圖法

分位數:把數據分布劃成4個相等的部分,每個部分表示數據分布的四分之 一,稱為四分位數,100-分位數通常稱為百分位數,即劃為100個大小相等的部

分。中位數、四分位數和百分位數是使用最廣泛的分位數。

四分位極差:第1個和第3個四分位數之間的距離稱為四分位數極差,定義

為 :

IQR=Q?-Q?

五數概括由中位數(圖片圖片)、四分位數圖片圖片,最大值和最小值組成。

異常值識別的通常規則:挑選落在第3個四分位數之上或第1個四分位數之 下至少1.5×IQR的值。箱線圖的斷點一般在四分位數上,盒的長度是四分位數 極差IQR,?? 中位數用盒內的線標記,盒外的兩條線(胡須)延申到最小和最大觀 測值。僅當最大和最小觀測值超過四分位數不到1.5×IQR 時,胡須擴展,否則 胡須再出現在四分位數的1.5×IQR之內的最極端觀測值處終止,剩下的情況個

別列出。

該方法的優點在于既能對數據進行統計學描述,了解數據的整體特征,又能

可視化展示結果,簡潔清晰。

(2)處理方法

a). 為了避免異常值影響結果的正確性,直接刪除。

b).?在總體樣本量較少的情況下,不能簡單地刪除異常值,因為樣本量也很

影響結果,因此可以將異常值視為缺失值,使用缺失值處理方法來處理異常值。

4.無量綱化處理

無量綱化,也稱為數據的規范化,是指不同指標之間由于存在量綱不同致其

不具可比性,故首先需將指標進行無量綱化,消除量綱影響后再進行接下來的分

析。

常見的無量綱化處理方法主要有標準化(各指標均值為0,標準差為1)、 均值化(各指標數據構成協方差矩陣)和歸一化(將一列數據“拍扁”到某個固

定區間(常為[0,1]),和最大/小值有關),如歸一化公式:

5.數據量問題

數據樣本量不夠或者查不到數據,可以在一定約束條件下用隨機數生成,模 型適用即可。但切記要對模型做靈敏性分析和誤差分析,來證明隨機生成的數據

對模型的影響非常小。

數據不夠確實令人做題時無從下手,但物極必反,數據太多也不是什么好事, 如果某個賽題提供了很多數據,需要對多維數據做降維處理,減少數據冗余,常

見的方法有主成分分析法 (PCA) 、 線性判別分析等。

6.預測模型

預測模型要根據題目所給數據樣本量的大小,選擇合適的方法:

(1)灰色預測模型(樣本量<15)

數據樣本點個數少, 一般建議為6-15個,或者數據呈現指數或曲線的形式。

(2)微分方程預測(樣本量<100)

無法直接找到原始數據之間的關系,但可以建立微分方程,利用推導出的公

式預測數據。

(3)回歸預測(100<樣本量<1000)

回歸預測就是把預測的相關性原則作為基礎,把影響預測目標的各因素找出 來,然后找出這些因素和預測目標之間的函數關系的近似表達,并且用數學的方 法找出來。依據相關關系中自變量的個數不同分類,可分為一元回歸分析預測法

和多元回歸分析預測法。

7.插值與擬合

擬合與插值在數學建模競賽中非常常見,但有以下幾點需要留意:

(1)擬合與插值區別: 插值是離散函數逼近的重要方法,利用它可通過函 數在有限個點處的取值狀況,估算出函數在其他點處的近似值;擬合是指將平面

上的一系列點與光滑曲線連接起來。

(2)靈活掌握不同插值方法的適用條件:拉格朗日插值(?一?維)、分段線

性插值(多條件)、三次樣條插值(空間中的點)。

(3)靈活選擇擬合函數: 比如一道經典的數模國賽車流量預測問題,對于 車流量,每個點代表每一小時的平均值,而且車流量可以看作是以天為周期的周

期函數,再聯系不規則的函數曲線,可以考慮用傅里葉級數擬合。

8.推薦工具

(1)Excel:?????? 越簡單,越強大。你可能忽略了這個最常見的軟件,但在數據處理方面,它毫不遜色專業軟件,在數據可視化方面也方便操作。

(2)SPSS:?? 用于統計分析,圍繞統計學知識的一些基本應用,包括描述統 計,方差分析,因子分析,主成分分析,基本的回歸,分布的檢驗等等,我們前邊提到的箱線圖就可以用 SPSS一 鍵生成!

(3)Python:??????? 熟練掌握Numpy,Pandas,Matplotlib????? 庫 ,python??? 的強大無需多言,綜合且高效!

(4)Tableau:??????? 主要用于數據可視化展示,操作簡單,可以直接用鼠標來選 擇行、列標簽來生成各種不同的圖形圖表,而且Tableau?? 的設計、色彩及操作界

面簡單清新,做出來的圖更美觀。

(5)數據查找網站:

聯合國數據中心:https://www.un.org/zh/databases/

聯合國糧食及農業組織: FAOSTAT

谷歌學術: 思謀學術_谷歌學術搜索和文獻資源

?

美國運輸統計局: Bureau of Transportation Statistics

美國勞工統計局: https://stats.bls.gov/

美國農業部: USDA

美國人口統計局: http://www.census.gov/

美?????????? 國??????????? 普?????????? 查?????????? 局

http://2010.census.gov/2010census/language/chinese-simplified.php

中國國家統計局: http://www.stats.gov.cn/tjsj/

世界衛生組織: www.who.int/data/gh?? o

?

美國商務部經濟分析局: www.bea.gov/data

?Free GIS Data:freegisdata.rtwilson.com

?歡迎點擊下方名片加入通過下方名片加入美賽備戰 交流群

或者關注GZH :建模忠哥 ,建模期間提供免費的chatgpt3.5? ? ??

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/214795.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/214795.shtml
英文地址,請注明出處:http://en.pswp.cn/news/214795.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

angular material mat-error 失效不展示

1.你命名了控制mat-error顯示與否的變量&#xff0c;卻沒有在html里使用 2.mat-error是放在mat-form-field里才生效的&#xff0c;如果 <input matInput required formControlName"phoneNumber" /> 中的phoneNumber其實是valid&#xff0c;通過驗證的&#x…

【KALI】設置靜態IP地址

ip: 192.168.1.10/24 網關&#xff1a;192.168.1.1 DNS&#xff1a;192.168.1.254/etc/network/interfaces原始文件內容為&#xff1a; # This file describes the network interfaces available on your system # and how to activate them. For more information, see inter…

數字圖像處理(實踐篇)二十一 人臉識別

目錄 1 安裝face_recognition 2 涉及的函數 3 人臉識別方案 4 實踐 使用face_recognition進行人臉識別。 1 安裝face_recognition pip install face_recognition 或者 pip --default-timeout100 install face_recognition -i http://pypi.douban.com/simple --trusted-…

川崎ZX-6R確定引進,636它真的來了,3C認證已過。

最新消息&#xff0c;兄弟們&#xff0c;你們期待已久的川崎ZX6R&#xff08;636&#xff09;基本已經確定引進了&#xff0c;官方的3C認證已經通過&#xff0c;那么從3C里面我們可以看到哪幾個信息&#xff1f;產品代號ZX636J就是心心念念的ZX-6R了。 有些小伙伴不太清楚3C認…

t-SNE完整筆記 (附Python代碼)

t-SNE(t-distributed stochastic neighbor embedding)是用于降維的一種機器學習算法&#xff0c;是由 Laurens van der Maaten 和 Geoffrey Hinton在08年提出來。此外&#xff0c;t-SNE 是一種非線性降維算法&#xff0c;非常適用于高維數據降維到2維或者3維&#xff0c;進行可…

laravel定時任務配置手冊

任務調度在 app/Console/Kernel.php 的 schedule 方法中進行定義&#xff1b; 分配多種調度計劃&#xff1a;結合其他一些特定條件&#xff0c;我們可以生成在一周中特定時間運行的任務。舉個例子&#xff0c;在每周一執行命令&#xff1a; 方法 描述 ->cron(* * * * *); …

分配棧空間的三種方式(基于適配qemu的FreeRTOS分析)

1、定義全局的數組 定義的全局數組屬于bss段&#xff0c;相當于把bss段的一部分作為棧空間&#xff0c;棧空間的大小就是數組的大小如果把棧空間放在bss段&#xff0c;則在bss段清零時會多清零一段地址空間 2、在鏈接腳本中指定 用鏈接腳本在所有段的后面增加stack段&#xff…

15:00面試,15:06就出來了,問的問題真變態。。。

剛從小廠出來&#xff0c;沒想到在另一家公司我又寄了。 在這家公司上班&#xff0c;每天都要加班&#xff0c;但看在錢給的比較多的份上&#xff0c;也就不太計較了。但萬萬沒想到5月一紙通知&#xff0c;所有人不準加班了&#xff0c;不僅加班費沒有了&#xff0c;薪資還要降…

基于springboot的大學生兼職信息管理系統(源碼+數據庫+文檔)

摘要 基于Spring Boot的大學生兼職信息管理系統是一個為大學生和兼職公司提供服務的平臺。通過該系統&#xff0c;大學生可以方便地尋找兼職工作機會&#xff0c;而兼職公司可以發布、管理和篩選合適的兼職信息。首先&#xff0c;系統采用了Spring Boot作為開發框架&#xff0…

Ubuntu22.04使能root用戶

一、背景 安裝Ubuntu22.04系統的時候&#xff0c;會要求創建一個用戶&#xff0c;并設置密碼。為方便后續行文&#xff0c;將此用戶稱為user_normal&#xff0c;此密碼稱為normal_pd 安裝Ubuntu22.04系統的時候&#xff0c;沒有出現任何和root有關的設置 Ubuntu22.04安裝完成…

[隴劍杯 2021]日志分析

[隴劍杯 2021]日志分析 題目做法及思路解析&#xff08;個人分享&#xff09; 問一&#xff1a;單位某應用程序被攻擊&#xff0c;請分析日志&#xff0c;進行作答&#xff1a; 網絡存在源碼泄漏&#xff0c;源碼文件名是_____________。(請提交帶有文件后綴的文件名&…

前端mp3文件轉wav文件的實現

一、音頻文件格式轉換 1&#xff09;安裝fluent-ffmpeg和ffmpeg插件 npm install fluent-ffmpeg; npm install ffmpeg;2&#xff09;mp3轉wav test.js文件&#xff1a; const ffmpeg require(fluent-ffmpeg);ffmpeg(./test.mp3) .format(wav) .audioBitrate(16k) .audioFre…

(純原創) 基于SSM 的商城購物系統(完整源代碼以及開發文檔)

摘要 本網上商城系統以SSM架構、使用Mybatis&#xff0c;數據庫使用MySQL&#xff0c;這些技術目前相對比較成熟&#xff0c;方便系統的維護與擴展。網上商城系統前臺包括了用戶注冊、用戶登錄、商品查詢、商品添加到購物車、刪除商品等幾大功能&#xff1b;后臺管理功能則包…

Android VpnService 使用(一)

Android VpnService 使用(一) 本篇算是VpnService 使用的第一篇文章,主要講述service創建,intent調用. 1: 申請權限 <service android:name".MyVpnService" android:permission"android.permission.BIND_VPN_SERVICE"><intent-filter><ac…

Android 7.1 默認自拍鏡像

Android 7.1 默認自拍鏡像 近來收到客戶需求反饋需要將相機前攝成像默認為鏡像顯示&#xff0c;大致思路我們可以在保存數據前將前攝拍的照片轉為鏡像&#xff0c;保存數據是通過PhotoMode.java文件中的saveData方法實現&#xff0c;具體修改參照如下&#xff1a; 首先添加將圖…

LeetCode力扣每日一題(Java):27、移除元素

一、題目 二、解題思路 1、我的思路 因為題目中說“元素的順序可以改變。你不需要考慮數組中超出新長度后面的元素。”也就是說&#xff1a; 輸入&#xff1a;nums [3,2,2,3], val 3 輸出&#xff1a;2, nums [2,2] 解釋&#xff1a;函數應該返回新的長度 2并且 nums 中的…

JVM性能調優

遇到以下情況&#xff0c;就需要考慮進行JVM調優了&#xff1a; Heap內存&#xff08;老年代&#xff09;持續上漲達到設置的最大內存值&#xff1b; Full GC 次數頻繁&#xff1b; GC 停頓時間過長&#xff08;超過1秒&#xff09;&#xff1b; 應用出現OutOfMemory 等內存異常…

xtts和ogg不選擇?

不選擇ogg的理由&#xff1a; 1.需要在源端創建用戶賦權&#xff0c;啟用數據庫最小日志&#xff0c;附加日志等操作--對生產影響較大 2.外鍵約束過多&#xff0c;割接啟用可能很慢https://www.modb.pro/db/201126--割接停機時間影響 3.初始化配置expdp導出可能快照過舊&#x…

H3C網絡設備交換機風扇亮黃燈故障處理

H3C出現如下報錯信息: [H3C]fan prefer-direction slot 1 power%Jan 1 04:30:13:401 2013 H3C DEV/1/FAN_DIRECTION_NOT_PREFERRED: Fan 1 airflow direction is not preferred on slot 1, please check it. %Jan 1 04:30:13:404 2013 H3C DEV/1/FAN_DIRECTION_NOT_PREFERRED…

代碼隨想錄算法訓練營第四十八天 _ 動態規劃_198.打家劫舍、213.打家劫舍II、337.打家劫舍 III。

學習目標&#xff1a; 動態規劃五部曲&#xff1a; ① 確定dp[i]的含義 ② 求遞推公式 ③ dp數組如何初始化 ④ 確定遍歷順序 ⑤ 打印遞歸數組 ---- 調試 引用自代碼隨想錄&#xff01; 60天訓練營打卡計劃&#xff01; 學習內容&#xff1a; 198.打家劫舍 動態規劃五步曲&a…