B題?洪水災害的數據分析與預測
問題? 1.?請分析附件 train.csv 中的數據,分析并可視化上述 20 個指標中,哪 些指標與洪水的發生有著密切的關聯?哪些指標與洪水發生的相關性不大?并 分析可能的原因,然后針對洪水的提前預防,提出你們合理的建議和措施。
簡單版:斯皮爾曼相關系數
1.?計算斯皮爾曼相關系數:
a. 計算各指標與洪水發生的斯皮爾曼相關系數和 P 值。
b. 將結果以表格形式展示,包括相關系數和 P 值。
2.?可視化:
a. 使用條形圖或點圖展示各指標與洪水發生的斯皮爾曼相關系數。
b. 在圖中標出顯著性水平(如 P 值<0.05)。
進階版:OLS線性回歸
1.?建立OLS線性回歸模型:
a. 使用 statsmodels 庫,建立以洪水發生為因變量,各指標為自變量的 OLS 線性回歸模型。
b. 提取回歸系數、標準誤差、P 值等結果。
2.?分析結果:
a. 根據標準系數和 P 值,判斷哪些指標對洪水發生有顯著影響。
b. 繪制回歸系數的條形圖,標出顯著性水平。
高階版:機器學習回歸模型
1.?構建機器學習模型:
a. 選擇適當的回歸模型,如隨機森林回歸(Random Forest Regressor)、梯度提升回歸(Gradient Boosting Regressor)等。
b. 使用訓練集進行模型訓練,使用交叉驗證評估模型性能。
2.?特征重要度:
a. 提取特征重要度,使用條形圖展示各指標的重要度。
b. 結合模型的解釋力,分析哪些指標對洪水發生預測貢獻最大。
超階版:可解釋機器學習模型
1.?SHAP模型:
a. 使用 SHAP 庫,計算特征對模型預測的貢獻。
b. 繪制 SHAP 值圖,包括 Summary Plot 和 Dependence Plot,深入分析各特征對洪水發生的影響。
2.?分析結果:
a. 根據 SHAP 分析結果,提供每個特征對預測結果的詳細解釋。
b. 將 SHAP 分析與前述的特征重要度結果進行對比,驗證一致性。
問題? 2.?將附件 train.csv 中 洪水發生的概率聚類成不同類別,分析具有高、 中、低風險的洪水事件的指標特征。然后,選取合適的指標,計算不同指標的權重,建立發生洪水不同風險的預警評價模型,最后進行模型的靈敏度分析。
● 選擇適合的聚類算法對洪水發生的概率進行聚類。常用的方法包括K-means和層次聚類,通過這些算法可以將數據分為高、中、低風險三類。聚類效果的驗證可使用輪廓系數、Calinski-Harabasz指數等指標,確保分類的合理性和準確性。
● 構建預警評價模型時,首先根據特征重要度分析的結果選取關鍵指標,并使用決策樹模型的特征重要度計算每個指標的權重。然后,通過訓練決策樹模型,并使用網格搜索或隨機搜索進行超參數優化,最終建立具有良好泛化能力的預警模型。
● 通過分析不同超參數對模型性能的影響,以及逐一修改指標值觀察模型輸出的變化,可以評估各個指標對預警模型的敏感度。此外,對模型進行魯棒性測試,確保其在不同數據集下的穩定性和可靠性。
問題? 3.?基于問題 1 中指標分析的結果,請建立洪水發生概率的預測模型, 從 20 個指標中選取合適指標,預測洪水發生的概率,并驗證你們預測模型的準 確性。如果僅用 5 個關鍵指標,如何調整改進你們的洪水發生概率的預測模型?
在基于問題1的指標分析結果后,我們首先需要從20個指標中選擇合適的指標來預測洪水發生的概率。通過數據預處理、特征選擇等步驟,我們可以篩選出最相關的特征,避免多重共線性問題。接著,構建多個預測模型如邏輯回歸、支持向量機、隨機森林等,利用R2、mape方法評估模型性能,最終選出最佳模型。
在僅用5個關鍵指標進行模型調整和改進時,我們需要從前面的特征選擇結果中挑選出最重要的5個指標。然后,重新訓練模型,并通過特征工程和模型集成方法(如堆疊和集成學習)提升模型的預測能力。進一步進行超參數調優,確保模型在使用少量特征的情況下依然具備較高的預測準確性和魯棒性。
問題? 4.?基于問題 2 中建立的洪水發生概率的預測模型,預測附件 test.csv 中 所有事件發生洪水的概率,并將預測結果填入附件 submit.csv 中。然后繪制這 74 多萬件發生洪水的概率的直方圖和折線圖,分析此結果的分布是否服從正態分布。
這個直接基于問題3第一小問的模型進行預測,然后分析預測結果是否服從正態分布,可以通過繪制正態性檢驗直方圖或者Kolmogorov–Smirnov檢驗
完整思路講解視頻請大家先看B站:不知名數學家小P
2024亞太杯中文賽B題超詳細思路及手把手教程建模+數據+結果_嗶哩嗶哩_bilibili?www.bilibili.com/video/BV1rm421g7RG/?spm_id_from=333.999.0.0?編輯