2025年全國大學生數學建模競賽將于9月4日正式舉行!
有些第一次參加數學競賽的同學可能覺得自己還沒準備好,臨近比賽感到緊張很正常,但需調整心態——數學建模比賽本就是學習過程,遇到不會的知識及時搜索、現學現用即可,直接參賽就是最好的學習方式。
無論題目是怎樣的,掌握核心的模型及數據處理方法都是關鍵的。今天將按流程分別介紹數學建模過程中可能用到的處理方法及模型算法。
數學建模常用方法大致可分為四大部分:數據處理、描述性統計、模型算法、模型評價,如下圖:
接下來將分別進行介紹說明。
一、數據處理
國賽的數據處理是指進行數據的清洗和變換,預處理的質量會直接影響到后續建模和預測的準確性。數據清洗也就是我們常說的缺失值處理和異常值處理,數據變換是指對數據進行標準化、歸一化等無量綱化處理,常見的數據預處理方式見下圖:
1、異常值處理
異常值是指顯著偏離主體數據的觀測值,可能引發模型偏差、統計效力下降及分布假設失效。
(1)檢測異常值
檢測異常值的常用方法主要包括以下兩類:統計方法(如Z-score法、IQR箱線圖法)、可視化方法(如散點圖、箱線圖)。Z-score通過標準差識別偏離均值過遠的點;IQR箱線圖則基于四分位距劃定正常范圍,之外的點視為異常。
(2)處理異常值的方法
異常值處理通常有以下4種方式:
異常值處理 | 說明 |
---|---|
刪除 | 如果異常值是隨機錯誤導致的,或者異常值的數量非常少,以考慮直接刪除這些異常值。 |
替換 | 用均值、中位數或眾數替換異常值。 |
轉換 | 對數據進行對數轉換、Box-Cox轉換等,減少異常值的影響。 |
保留 | 如果異常值是重要的數據點,這時可以選擇保留。 |
2、缺失值處理
對缺失值進行處理方法通常有刪除、填充、插值3類方法,說明如下表:
方法名稱 | 描述 |
---|---|
刪除行 | 從數據集中刪除含有缺失值的整行數據。 |
刪除列 | 如果某一列缺失值過多,考慮刪除整列。 |
均值/中位數/眾數填充 | 使用特征的均值、中位數(適用于數值型變量)或眾數(適用于分類變量)來填充缺失值。 |
固定值填充 | 用一個固定的值(如0、-1或特定標記)填充缺失值。 |
線性插值 | 在時間序列數據中使用通過相鄰數據點進行線性內插。 |
該點線性趨勢插值 | 利用缺失點前后的數據來估計缺失值,假設數據在短期內呈線性變化。 |
對于異常值和缺失值的處理,可以使用【數據處理】模塊的【異常值】方法進行處理,操作如下:
3、量綱處理
數學建模很多算法在使用前均需要進行數據處理。例如熵值法計算權重前需要對正向指標進行正向化處理,負向指標進行逆向化處理。這里提供17種數據無量綱化處理方法,常用的如標準化、中心化、歸一化、均值化、正向化、逆向化等,說明如下:
類型 | 意義 |
---|---|
標準化(S) | 讓數據變成平均值為0,標準差為1 |
中心化(C) | 讓數據變成平均值為0 |
歸一化(MMS) | 讓數據壓縮在【0,1】范圍內 |
均值化(MC) | 以平均值作為標準進行對比 |
正向化(MMS) | 讓數據壓縮在【0,1】范圍內 |
逆向化(NMMS) | 讓數據壓縮在【0,1】范圍內,且數據方向顛倒 |
適度化(M) | 讓數據進行適度化處理 |
區間化(Interval) | 讓數據壓縮在自己希望的范圍內 |
初值化(Init) | 數據除以第1個數字 |
最小值化(MinS) | 以最小值作為標準進行對比 |
最大值化(MaxS) | 以最大值作為標準進行對比 |
求和歸一化(SN) | 數據表達總和的比例 |
平方和歸一化(SSN) | 數據表達平方和的比例 |
固定值化(CloseFixedValue) | 固定值化時離FixedValue越近越好 |
偏固定值化(OffFixedValue) | 偏固定值化時離FixedValue越遠越好 |
近區間化(CloseInterval) | 近區間化時離(p,q)區間越近越好 |
偏區間化(OffInterval) | 偏區間化時離(p,q)區間越遠越好 |
在【數據處理】模塊選擇【生成變量】可對數據進行處理,操作如下圖:
在研究時具體應該使用哪一種處理方式呢,其實并沒有固定的要求,而是結合建模實際情況進行選擇,
二、描述性統計
描述性統計是數學建模的關鍵預處理步驟,通過量化分析(均值/方差)和可視化工具(箱線圖/直方圖)等快速把握數據分布特征與變量關聯性,為后續建模提供數據質量評估與策略依據。
描述性統計分析方法整理表格如下:
描述性統計分析基本步驟:
-
計算基本統計量:均值、中位數、標準差等
-
繪制可視化圖表:直方圖、箱線圖等
-
分析數據分布:是否正態分布,是否有偏態
-
檢查相關性:查看變量間的關系
三、模型算法
數學建模關鍵的步驟就在于模型的選擇與構建,根據問題的性質選擇合適的模型類型,如數學建模中常見的三大模型評價模型、預測模型、分類模型。
1、評價模型
評價模型是數學建模中用于量化分析、比較和優選方案的工具,通過系統化的指標體系和算法對復雜問題進行客觀評估。常用的方法如層次分析法、熵值法、TOPSIS法等,說明如下表:
方法名稱 | 簡要介紹 |
---|---|
AHP層次分析法 | 通過構建層次結構模型,對指標進行兩兩比較,確定權重,最終得出評價對象的綜合得分。適用于多準則決策問題。 |
熵值法 | 根據指標數據的離散程度(信息熵)計算權重,信息熵越小,權重越大,是一種客觀賦權方法。 |
TOPSIS法 | 通過計算評價對象與理想解和負理想解的距離,進行排序,選擇最優方案。適用于多屬性決策分析。 |
模糊綜合評價 | 利用模糊數學理論,將定性指標轉化為定量評價,適用于處理評價過程中存在的不確定性和模糊性問題。 |
灰色關聯法 | 通過分析評價對象與參考序列之間的關聯度,判斷其接近程度,適用于數據量少或信息不完全的情況。 |
數據包絡分析(DEA) | 利用線性規劃方法,評價具有相同類型多投入、多產出的決策單元之間的相對效率。 |
秩和比法(RSR) | 將指標排序后轉化為秩次,計算秩和比,綜合評價對象的優劣,適用于多指標綜合評價。 |
2、分類模型
分類模型是基于數學算法的數據劃分工具,通過分析歷史數據的特征規律,構建預測規則以實現新數據的自動歸類。其核心是通過學習已知樣本的分布模式,推斷未知樣本的類別歸屬。典型的方法包括聚類分析、判別分析、logistic回歸、機器學習。
(1)聚類分析
聚類分析是一種無監督學習方法,通過將數據集中相似的對象自動分組,從而發現數據內在的結構與模式。常用的聚類分析分為K-means聚類、K-modes聚類、K-prototype聚類以及分層聚類。其中前三種聚類方法是按行聚類(R型聚類),分層聚類是按列聚類(Q型),最常用的為K-means聚類,各自適用場景說明如下表:
聚類方法 | 適用場景 |
---|---|
K-means聚類 | 數據為定量數據時使用 |
K-modes聚類 | 數據為定類數據時使用 |
K-prototype聚類 | 數據既有定量數據又有定類數據時使用 |
分層聚類 | 對定量數據進行按列聚類時使用 |
(2)判別分析
判別分析是一種基于已知分類樣本建立判別函數,用于對新樣本進行分類的統計方法,廣泛應用于模式識別、機器學習和生物統計學等領域。判別分析有很多種,比如Fisher判別、距離判別、Beyes判別等,其中Fisher判別使用頻率最高。
判別分析 | 說明 |
---|---|
Fisher判別 | 通過計算樣本點與各個類別之間的距離,來確定樣本點所屬類別 |
距離判別 | 通過計算歐式距離,確定樣本點所屬類別 |
Bayes判別 | 通過計算樣本點各個特征的概率分布,來確定每個樣本點所屬類別 |
(3)logistic回歸
logistic回歸可以用于分類,它的核心思想是利用邏輯函數將線性回歸的結果轉化成一個概率值,這個概率值可以用來進行分類。logistic回歸分析可細分為二元logistic回歸、多分類logistic回歸、有序logistic回歸、條件logistic回歸。各自適用場景說明如下表:
logistic回歸 | 適用場景 |
---|---|
二元logistic回歸 | Y值僅兩個選項,分別是有和無之類的二分類數據 |
多分類logistic回歸 | Y值的選項有多個,并且選項之間沒有大小對比關系 |
有序logistic回歸 | Y值的選項有多個,并且選項之間可以對比大小關系,選項具有對比意義 |
條件logistic回歸 | Y值為二分類數據,通常用于處理配對數據,如成對取樣、雙胞胎、案例 ? - 對照研究等 |
(4)機器學習
機器學習算法中常用于分類的模型包括決策樹、隨機森林、KNN、神經網絡、樸素貝葉斯、支持向量機等等。具體說明如下:
機器學習 | 說明 |
---|---|
決策樹 | 是一種基于樹結構的分類模型,它通過訓練數據集劃分為若干個子集,從而實現對新數據的分類。 |
隨機森林 | 是一種集成學習模型,通過構建多個決策樹并將它們的預測結果進行投票,從而得到最終的分類結果。 |
KNN | 是一種基于實例的學習算法,它將訓練數據集中的最近鄰樣本作為新樣本的預測依據 |
神經網絡 | 是一種模擬人腦神經元結構的計算模型,通過多層神經元的組合和連接來實現對數據的分類。 |
樸素貝葉斯 | 是一種基于貝葉斯定理的分類模型,它假設特征之間相互獨立。 |
支持向量機 | 是一種基于間隔最大化的分類模型,它通過在特征空間中找到一個最優超平面將不同類別的樣本分隔開來。 |
logistic回歸 | 是一種廣義線性回歸模型,常用于二分類問題,通過Sigmoid函數將線性回歸結果映射到0-1之間以得到分類概率。 |
apriori關聯分析 | 是一種用于數據挖掘的經典算法,其作用是找出數據中頻繁出現的集合,進而輔助進行有效決策。 |
XGBoost | 是高效的梯度提升樹算法,模型加入正則化項、支持并行計算等,能有效處理過擬合,提升模型性能。 |
GBDT | 梯度提升決策樹,通過構建一系列弱決策樹,利用梯度下降思想迭代,將各樹預測結果累加得到強預測模型。 |
Adaboost | 自適應增強算法,根據前一輪模型預測誤差調整樣本權重,使錯誤分類樣本在后續訓練中受更多關注,組合多個弱分類器形成強分類器。 |
極端隨機樹 | 與隨機森林類似的集成學習方法,構建決策樹時隨機選擇特征子集和分裂點,增加隨機性以防止過擬合。 |
CatBoost | 基于梯度提升的算法,針對類別型特征優化,能自動處理類別特征,通過排序提升和防止過擬合機制提高模型效果。 |
3、預測模型
數學建模預測模型是一種利用數學模型和統計方法來預測未來可能發生的結果的模型。它通常基于歷史數據和已知信息,通過建立數學模型來分析問題,并預測未來的發展趨勢。預測類常見的方法有時間序列類預測、回歸分析進行預測、機器學習進行預測等。
(1)時間序列預測
時間序列數據預測是利用按時間順序排列的歷史數據,分析其變化規律并推測未來發展趨勢的方法,廣泛應用于金融、氣象、經濟等領域。比較常用的時間序列數據預測方法有ARIMA預測、指數平滑法、灰色預測模型、VAR模型、季節Sarima模型,說明如下:
方法 | 說明 |
---|---|
ARIMA預測 | 自回歸積分滑動平均模型,適用于非平穩時間序列數據的預測。 |
指數平滑法 | 簡單的時間序列預測方法,通過指數衰減歷史數據的權重來預測未來值。 |
灰色預測模型 | 基于灰色系統理論的預測方法,通過構建灰色模型GM(1,1)來預測時間序列數據。 |
VAR模型 | 向量自回歸模型,用于分析多個時間序列變量之間的動態關系。 |
季節Sarima模型 | 季節性自回歸積分滑動平均模型,適用于具有季節性的時間序列數據的預測。 |
回歸分析是一種常用的統計方法,用于建立變量間的關系模型,并通過該模型對未知數據進行預測。常用方法如多元線性回歸、logistic回歸、多項式回歸等,說明如下:
方法 | 說明 |
---|---|
多元線性回歸 | 當自變量與因變量之間存在線性關系時,適用于連續性因變量,用于預測數值型數據 |
Logistic回歸 | 當因變量為定類數據時,用于預測概率 |
多項式回歸 | 當自變量與因變量存在非線性關系時,用于預測非線性關系的數值型數據 |
(3)機器學習預測
機器學習用于從數據中學習模式和規律,并利用這些知識進行預測。通過訓練算法來自動發現數據中的模式,并根據這些模式進行未知樣本的預測。常用方法及說明如下:
方法名稱 | 描述 |
---|---|
決策樹 | 基于樹結構劃分數據,通過特征選擇實現分類或回歸預測。 |
隨機森林 | 集成多棵決策樹,通過投票或平均結果提升預測魯棒性。 |
KNN | 根據鄰近樣本的多數類別或均值進行預測,適用于局部模式識別。 |
樸素貝葉斯 | 基于貝葉斯定理與特征獨立性假設,計算概率實現分類。 |
支持向量機 | 通過尋找最優超平面最大化分類間隔,適用于高維數據。 |
神經網絡 | 模擬人腦神經元連接,通過多層非線性變換學習復雜模式。 |
logistic回歸 | 利用Sigmoid函數將線性輸出映射為概率,解決二分類問題。 |
apriori關聯分析 | 挖掘數據項集間的關聯規則,用于發現頻繁共現模式(如購物籃分析)。 |
XGBoost | 優化梯度提升樹,引入正則化與并行計算,提升預測精度與效率。 |
GBDT | 迭代訓練弱決策樹,通過梯度下降逐步修正殘差,實現強預測模型。 |
Adaboost | 動態調整樣本權重,組合弱分類器為強分類器,側重糾正錯誤樣本。 |
極端隨機樹 | 隨機選擇特征與分裂點構建決策樹,增強模型泛化能力。 |
CatBoost | 自動處理類別特征,通過排序提升減少過擬合,優化梯度提升效果。 |
LightGBM | 基于直方圖的梯度提升框架,采用Leaf-wise生長策略加速訓練,適合大規模數據。 |
四、模型評估
在模型構建與分析過程中,模型評價是不可或缺的環節。選用恰當的評價指標,有助于客觀衡量模型性能,并指導后續的優化與改進。不過,評價指標的選擇需結合具體模型和應用場景而定。
1、回歸模型評價指標
回歸模型常用的評價指標可分為以下三大類:
- 第1類:
回歸模型擬合優度的評價指標,包括R方與調整后R方值;
- 第2類:
回歸模型擬合值與真實值的差異程度的評價指標,常用的包括MSE、RMSE、MAE、MAPE;
- 第3類:
極大似然法的估計準則,包括AIC值和BIC值。
指標說明如下:
指標名稱 | 說明 |
---|---|
R方 | 衡量模型擬合度,表示自變量對因變量變化的解釋比例。范圍 [0, ? 1],越接近1越好。 |
調整后R方 | 對R方進行修正,引入了模型復雜度懲罰項(自變量個數p)。 |
MSE | 均方誤差,預測值與真實值之差的平方的平均值。 |
RMSE | 均方根誤差,MSE的平方根。 |
MAE | 平均絕對誤差,預測值與真實值之差的絕對值的平均值。 |
MAPE | 平均絕對百分比誤差,將每個誤差表示為百分比的形式。 |
AIC | 赤池信息準則,衡量統計模型的相對擬合優度,引入了模型復雜度的懲罰。 |
BIC | 貝葉斯信息準則,與AIC類似,但對模型復雜度的懲罰更重(尤其當樣本量n較大時)。 |
【提示】:綜合使用不要只依賴一個指標。應結合RMSE/MAE看誤差大小,結合R2看解釋度,再結合AIC/BIC來權衡復雜度和擬合效果。
2、分類模型評價指標
分類模型常用評價指標說明如下:
指標名稱 | 說明 |
---|---|
準確率 ? (Accuracy) | 分類正確的樣本數占總樣本數的比例 |
精確率 ? (Precision) | 正確預測為正類的樣本數占預測為正類的樣本總數的比例 |
召回率 ? (Recall) | 正確預測為正類的樣本數占實際正類樣本總數的比例 |
F1-score | 精確率和召回率的調和平均數 |
ROC曲線 | 接收者操作特征曲線,展示不同閾值下真正率(TPR)和假正率(FPR)的關系 |
AUC值 | ROC曲線下面積,值越大表示模型分類性能越好 |
【提示】:選擇指標時需根據具體業務需求和對不同類型錯誤的容忍度來決定。例如,在醫療診斷中,可能更關注召回率以減少漏診;而在垃圾郵件檢測中,可能更關注精確率以減少誤判。決策樹模型輸出部分評價指標結果如下:
2025年高教社杯全國大學生數學建模競賽將于北京時間,9月4日(周四)18時至9月7日(周日)20時舉行。
賽題的發布
1.賽題發布時間:9月4日(周四)18時在國賽官網、中國大學生在線等網站發布,由此可能會造成網絡擁堵,為了便于同學們拿到原版賽題及數據,將于國賽開賽后第一時間發布賽題。
A題:偏工程/物理應用,傳統硬核建模
特點:專業性強,賽題有標準答案。根據物理定理使用微分方程和偏微分方程建模。題目往往涉及物理、力學、工程優化等,需要較強的數學推導能力。同時,需要從多個方案中選擇最優解,涉及線性/非線性規劃、整數規劃等模型,需編程實現算法(如梯度下降、智能優化算法)。
挑戰:需精準定義目標函數與約束條件,對編程能力和數學建模深度要求高。
典型例子:衛星軌道計算、機械結構優化、傳熱問題等。
適合隊伍:數學功底扎實,擅長微分方程、優化算法、數值計算的隊伍。
B題:一般為優化類題目,綜合性較強的問題,主要涉及優化問題和決策模型的構建。
C題:一般為經管/運籌/統計/數據分析類問題,這類題目一般背景比較貼近生活,理解起來較為容易。相對于AB題來說會簡單一點,選擇人數最多,所以想要用C題拿獎需要論文非常出彩。
賽題選擇技巧
難度分析
A題比較重視模型結果,與B題C題不同,并且A題每年都會給一個參考結果,這也是一個評判標準,所以有物理或數學知識過硬的同學適合選擇A題。
19年的B題涉及物理學知識,20年則涉及運籌學圖論問題,由于近兩年改革,題型不定,所以還是要看具體賽題。
C題的賽題開放易讀懂,但是數據可能沒有給出,需要自己查找,一般沒有最優解,結果合理即可,需要嚴謹的研究方法和論文寫作水平,所以C題獲獎會更容易,但是很難做到出彩。
選題建議:
A題建議,一般來說專業性較強,更適合偏物理學和工程學的同學,對于工科同學比較有優勢。第一次參加的同學不建議選擇A題,因為會花費很多時間在理解題目上,得不償失。同時A題不適用于啟發式算法(啟發式求的是較優解,不是最優解建議),建議拿到A題時先建立簡單模型,之后在根據題目不斷改進模型
B題:B題比較偏優化和運籌類,所以計算機或自動化專業的同學可能更適合。
C題:題目簡單易讀懂,適合大部分同學選擇,但相對來說人數也會比其他兩題人數多一些。使用優化分析便可,C題題目也更加易懂,對于數模小白來說適用,C題型無最優解,結果合理即可。
拿到賽題之后,組內先把各個題目都討論一遍,結合指導老師的意見確定選題。進行文獻的初查,通過各類題型文獻調研的情況進行選題。隊伍里成員更擅長哪一類題型,就選哪一類題型。開始時謹慎選題,選完題型之后要堅定。
選題技巧要牢記!
排出復雜選易懂
少數服從多數
先查文獻,資料多的優先選擇
什么都不會就選c
時間開賽后6小時內定題,不要中途更換賽題
解不出來硬著頭皮寫下去,這是一次完成論文的機會
國賽選題情況分布
我們通過官方平臺對2024年國賽選題情況做了統計分析,如下圖:
通過數據發現本科組中,選擇C題的人是最多的,占到了百分之40.9%,其次是B題,占39.5%,選A題是最少的,A題上邊已經說到,屬于偏物理類題目,相對比較難,所以只占到了19.5%。
通過上邊分析今年賽題的難度及選題比例得出結論,數據分析類的題目依然是屬于大家比較受歡迎的,也是相對比較簡單的。所以選題技巧第一方面往往是自己最擅長或者是本專業熟悉的。
第二方面就是題目當中覺得最簡單好入手的,今年注定選擇C題的人還是最多的,我們拭目以待。由于選擇C題的人最多,意味著競爭會很激烈,也很難做出采,因此,相對于其他兩道本科組題目,選擇C題要慎重。
賽前準備
1.提前制作國賽論文模板,資料群里百度網盤鏈接打包好了,并熟悉論文格式,根據往年經驗,國賽賽題發布后,對應論文格式要求也會在賽題包里,屆時可以下載。
下面總結了數學建模常用的算法和模型,可以收藏此篇,教你如何進行操作!通過總結分成兩大處理、四大模型、六大算法,如下:
1、優化模型
一般可以利用優化模型得到最優目標,比如在經濟問題、生產問題、投入產出等等,人們總希望用最小的投入得到最大的產出,一般分析的流程如下:
其中決策變量一般有0-1規劃或者整數規劃,通過目標函數和約束條件,確定優化模型的類型,一般有動態規劃,線性規劃,非線性規劃以及多目標規劃。
- 動態規劃
以時間劃分階段的動態優化模型。可以解決最小路徑問題、生產規劃問題、資源配置問題。雖然動態規劃用于求解以時間劃分階段的動態過程的優化問題,但是如果對于線性規劃、非線性規劃引入時間因素,也可以把他視為多階段決策過程。最小路徑模型圖類似如下:
- 線性規劃
目標函數和約束條件均為線性。線性規劃的目標函數可以是求最大值,也可以是求最小值,約束條件的不等號可以是小于號也可以是大于號。其標準形式如下:
其中c和x為n維列向量,A、Aeq為適當維數的矩陣,b、beq為適當維數的列向量。
- 非線性規劃
目標函數和約束條件均不是線性,非線性規劃比線性規劃偏難,線性規劃與非線性規劃的區別為:如果線性規劃的最優解存在,其最優解只能在其可行域的邊界上達到(特別是可行域的頂點上達到);而非線性規劃的最優解(如果最優解存在)則可能在其可行域的任意一點達到。
- 多目標規劃
目標函數不唯一,此種算法主要是解決線性規劃的局限性,線性規劃只能解決最大值、最小值問題,有些問題需要衡量多目標規劃,一般需要將此種需要轉化為單目標模型,所以需要有加權系數,表述不同目標之間的重要程度對比。
- 整數規劃
決策變量取值為整數。整數規劃最優解一般不能按照實數最優解簡單取整而獲得,所以一般求解方法有分枝定界法、割平面法、隱枚舉法(一般解決0-1整數規劃問題)、蒙特卡羅法(可以求解各類型規劃)。
2、六大算法
一般常用的算法有現代優化算法、蒙特卡羅算法、規劃算法、圖與網絡、排隊論以及差分和微分等。
現代優化算法
現代優化算法一般包括遺傳算法、模擬退火法、禁忌搜索法、蟻群算法等。一般遺傳算法通常解決決策變量為離散變量時,跳出局部最優解的能力較強,模擬退火法跳出局部最優解能力最強,緊急搜索法是組合優化算法的一種,可以記錄已經打到過的局部最優點。
蒙特卡羅算法
蒙特卡羅算法主要手段是隨機抽樣和統計實驗,利用計算機實現統計模擬或抽樣,得到問題的近似解,可以進行微分方程求解,可以將微分方程轉化為概率模型,然后通過模擬隨機過程得到方程近似解同事也可以解決積分方程非線性方程組等等。
規劃算法
規劃算法一般用于解決優化模型,常用的動態規劃、線性規劃、非線性規劃、多目標規劃、整數規劃等。
圖與網絡
圖與網絡算法可以解決最小路徑問題,最優著色問題,最大流問題,以及最小生成樹等問題,但是其計算復雜度較高,并且消耗大量資源和儲存空間。
排隊論
排隊論研究的內容包括性態問題、最優化問題以及排隊系統的統計推斷,排隊論主要是解決服務系統的排隊問題,通過分析排隊系統的概率規律性和優化問題,提出最優的排隊策略,同時也可以提供精確的數學模型,對排隊系統的性能進行定量分析和預測,如平均等待時間、平均隊列長度、平均服務時間等。但是使用該算法需要很多參數,需要保證參數的精確性。
差分和微分
差分算法可以解決連續型問題,能夠用迭代的方式求解方程,避免了微分方程中的導數,更便于計算。例如商品銷售量的預測等,微分算法適用于基于相關原理的因果預測模型,大多是物理或幾何方面的典型問題,可以通過數學符號表示規律,列出方程,求解的結果就是問題的答案,可以處理連續型問題,假設條件清晰,規律性強。但是涉及求導所以計算更復雜。
3、兩大處理
無論是賽題給你數據還是自己搜集數據,一般都需要數據的清洗和數據的變換,尤其是C題,具體說明如下:
數據清洗一般包括缺失值處理和異常值處理,如果數據中有缺失值,可以進行刪除處理,或者平均值、中位數、眾數等填充,其中眾數一般適用于分類數據,除此之外,還可以使用線性插值、牛頓插值、拉格朗日插值法進行插值可以參考下方資料。
數據變換:有些數據在分析前還需要進行變換,處理量綱問題等,比如因子分析或者主成分分析前需要將數據標準化,一些綜合評價法也需要將數據進行處理,比如指標為正向(越大越好),則可以進行正向化處理,有些指標為負向(越小越好),則可以進行逆向化處理等等,可以參考下方資料。
標準化:此種處理方式會讓數據呈現出一種特征,即數據的平均值一定為0,標準差一定是1。針對數據進行了壓縮大小處理,同時還讓數據具有特殊特征(平均值為0標準差為1)。在很多研究算法中均有使用此種處理,比如聚類分析前一般需要進行標準化處理,也或者因子分析時默認會對數據標準化處理。
歸一化:當某數據剛好為最小值時,則歸一化后為0;如果數據剛好為最大值時,則歸一化后為1。歸一化也是一種常見的量綱處理方式,可以讓所有的數據均壓縮在【0,1】范圍內,讓數據之間的數理單位保持一致。
中心化:此種處理方式會讓數據呈現出一種特征,即數據的平均值一定為0。針對數據進行了壓縮大小處理,同時還讓數據具有特殊特征(平均值為0)。
正向化:適用于當指標中有正向指標,又有負向指標時;此時使用正向化讓正向指標全部量綱化;也或者指標全部都是正向指標,讓所有正向指標都量綱化處理。
逆向化:一般多應用于評價模型中,逆向的指標逆向化,這種方法適用于指標值越小越好的情況,比如工廠的污染情況等。
適度化:這種方法適用于指標值差異較大的情況,比如消費者對某產品的滿意度等。
區間化:目的是讓數據壓縮在【a,b】范圍內,a和b是自己希望的區間值,如果a=0,b=1,那么其實就是一種特殊情況即歸一化;其計算公式為a + (b - a) * (X - Min)/(Max - Min)。
4、評價模型
評價類模型一般包括權重計算和進行綜合評價對比,分析前搜集原始數據,然后對數據進行預處理,比如標準化,正向化逆向化等等,一般評價類模型,需要將計算權重的模型和進行綜合評價的模型相結合分析,比如熵權topsis法等,計算權重包括主觀方法和客觀方法,各自有各自的優缺點,但在分析中往往二者相結合進行分析對比更為準確,一般最終目的得到綜合評價結果。具體如下:
評價模型的方法說明如下:
一般在分析評價類模型是通常采用組合賦權法,即通過主觀賦權法和客觀賦權法綜合得到權重,然后結合綜合評價方法得到結論。
5、預測模型
預測模型一般包括回歸預測模型、時間序列預測模型,灰色預測法、馬爾科夫預測、機器學習(神經網絡、決策樹)等。一般預測模型的流程如下:
時間序列模型
時間序列模型是一種根據系統觀測得到的時間序列數據,通過曲線擬合和參數估計來建立數學模型的理論和方法。它一般采用曲線擬合和參數估計方法,如非線性最小二乘法,來對時間序列數據進行擬合,從而建立相應的數學模型。適合中長期預測。
灰色預測法
灰色預測模型為小樣本預測模型,適合短期預測,其利用微分方程來充分挖掘數據的本質,建模所需信息少,精度較高,運算簡便,易于檢驗,也不用考慮分布規律或變化趨勢等。
馬爾科夫預測
馬爾科夫預測是一種基于馬爾科夫鏈的預測方法,主要用于預測隨機過程未來的狀態。這種方法假設一個系統的下一個狀態只與前一個狀態有關,而與之前的狀態無關。
其它:
建議選擇預測模型時也建立分析流程,比如進行時間序列預測:
6、分類模型
分類模型一般可以解決國賽數學建模的小問,一般常用的方法有聚類分析、判別分析以及機器學習(決策樹、神經網絡等)等。聚類分析前提不明確數據對象應該分為幾類,常用的計算有歐式距離、pearson相關系數、夾角余弦法等,判別分析一般是分析前就明確觀察對象應該分為幾類,一般在分析中可以將二者結合進行分析以及還有機器學習可以進行分類。
7、建模六個步驟
建模的六個步驟一般如下:
8、比賽技巧
1、多畫圖
可以在論文中多畫圖進行描述問題,更加直觀,可以使用python、以及R和MATLAB等等。
2、排版
可以使用LaTeX或者Markdown文檔,LaTeX數學符號和命令很方便,還可以處理復雜的數學公式和圖表。Markdown與LaTeX相比,Markdown語法簡單,易于上手。它可以將Markdown文本輕松轉換為HTML、PDF等格式的文檔。還有其他的軟件,比如Office、WPS等,但它們可以根據個人習慣和需求,選擇適合自己的排版軟件即可。
3、摘要
一定要重視摘要,因為評委可能看你的論文的速度特別特別快,如果沒有亮點很大可能不能拿獎,一定要寫明自己分析什么問題,如何解決,用了哪些方法,得到了什么結論,并且整篇論文的格式也需要規規整整,可以多讀幾篇優秀論文然后在進行書寫。
祝大家取得好成績!!