目錄
- 【2025年認證杯數學建模挑戰賽】C題
- 數據預處理與問題一求解
- 三、數據預處理及分析
- 3.1 數據可視化
- 3.2 滑動窗口相關系數統計與動態置信區間耦合分析模型
- 3.3 耦合關系分析結果
- 四、問題一
- 代碼
- 數據預處理
- 問題一
【2025年認證杯數學建模挑戰賽】C題
數據預處理與問題一求解
三、數據預處理及分析
3.1 數據可視化
首先對題目所給數據進行可視化,如下圖所示:
- 圖1 多參數可視化圖
由上圖可知,數據并無明顯的異常值。且輸入氣體2和氣體4的數據分布一致性較高,氣體1和氣體3的數據分布一致性較高。對這兩組數據進一步進行進一步的耦合分析。
3.2 滑動窗口相關系數統計與動態置信區間耦合分析模型
本文基于滑動窗口相關系數統計與動態置信區間估計結合分析兩組氣體的耦合關系。通過局部時域特征提取和統計推斷,分析氣體濃度序列間關聯性的時變規律及突變特征。
首先,對于給定的兩列氣體濃度時間序列和 X ( t ) = { x 1 , x 2 , … , x N } X(t) = \{x_1, x_2, \ldots, x_N\} X(t)={x1?,x2?,…,xN?},滑動窗口算法將其劃分為若干重疊的子序列段。設窗口寬度為w,滑動步長為s,則第個窗口k對應的子序列為:
W k ( X ) = { x k , x k + 1 , … , x k + w ? 1 } W k ( Y ) = { y k , y k + 1 , … , y k + w ? 1 } \begin{aligned} W_k(X) &= \{x_k, x_{k+1}, \ldots, x_{k+w-1}\} \\ W_k(Y) &= \{y_k, y_{k+1}, \ldots, y_{k+w-1}\} \end{aligned} Wk?(X)Wk?(Y)?={xk?,xk+1?,…,xk+w?1?}={yk?,yk+1?,…,yk+w?1?}?
其中 k k k的取值為 1 , s + 1 , 2 s + 1 , … , N ? w + 1 1, s+1, 2s+1, \ldots, N-w+1 1,s+1,2s+1,…,N?w+1,確保窗口在時間軸上連續覆蓋。窗口中心點時間 t k t_k tk?取窗口中間位置的時間戳,即 t k = k + ? w 2 ? t_k = k + \left\lfloor\frac{w}{2}\right\rfloor tk?=k+?2w??,以反映窗口內數據的代表性時刻。
在每個窗口內,采用Pearson相關系數量化氣體濃度間的線性關聯強度。對于第 k k k個窗口,相關系數 ρ k \rho_k ρk?的計算公式為:
ρ k = ∑ i = k k + w ? 1 ( x i ? x ˉ ) ( y i ? y ˉ ) ∑ i = k k + w ? 1 ( x i ? x ˉ ) 2 ∑ i = k k + w ? 1 ( y i ? y ˉ ) 2 \rho_k = \frac{\sum_{i=k}^{k+w-1}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=k}^{k+w-1}(x_i - \bar{x})^2 \sum_{i=k}^{k+w-1}(y_i - \bar{y})^2}} ρk?=∑i=kk+w?1?(xi??xˉ)2∑i=kk+w?1?(yi??yˉ?)2?∑i=kk+w?1?(xi??xˉ)(yi??yˉ?)?
其中 x  ̄ k \overline{x}_k xk?和 y  ̄ k \overline{y}_k y?k?分別為窗口內 X X X和 Y Y Y的值。 ρ k \rho_k ρk?的取值范圍為 [ ? 1 , 1 ] [-1,1] [?1,1],其絕對值越大表明窗口內兩氣體的濃度變化趨勢越一致。
為評估相關系數的統計顯著性,引入t檢驗。構造t統計量:
t k = ρ k w ? 2 1 ? ρ k 2 t_k = \rho_k \sqrt{\frac{w - 2}{1 - \rho_k^2}} tk?=ρk?1?ρk2?w?2??
該統計量服從自由度為 ν = w ? 2 \nu=w-2 ν=w?2的t分布。通過計算p值 p k = P ( T > ∣ t k ∣ ) p_k = P(T > |t_k|) pk?=P(T>∣tk?∣),并與顯著性水平 α = 0.05 \alpha=0.05 α=0.05比較,可判斷窗口內相關性是否顯著。
動態置信區間的構建進一步量化了相關系數的不確定性。基于t分布的 100 ( 1 ? α ) % 100(1-\alpha)\% 100(1?α)%置信區間為:
C I k = [ ρ k ? t α / 2 , w ? 2 ? S E k , ρ k + t α / 2 , w ? 2 ? S E k ] CI_k = [\rho_k - t_{\alpha/2,w-2} \cdot SE_k, \rho_k + t_{\alpha/2,w-2} \cdot SE_k] CIk?=[ρk??tα/2,w?2??SEk?,ρk?+tα/2,w?2??SEk?]
其中標準誤 S E k = ( 1 ? ρ k 2 ) ( w ? 2 ) SE_k = \sqrt{\frac{(1 - \rho_k^2)}{(w - 2)}} SEk?=(w?2)(1?ρk2?)??, t α / 2 , w ? 2 t_{\alpha/2,w-2} tα/2,w?2?為t分布的雙側臨界值。置信區間不包含零時,表明該窗口內的相關性具有統計意義。
針對關聯性突變的檢測,采用滑動方差法。定義滑動窗口方差序列:
σ m 2 = 1 m ∑ i = k k + m ? 1 ( ρ i ? ρ ˉ m ) 2 \sigma_m^2 = \frac{1}{m} \sum_{i=k}^{k+m-1} (\rho_i - \bar{\rho}_m)^2 σm2?=m1?i=k∑k+m?1?(ρi??ρˉ?m?)2
其中 m m m為方差計算窗口大小 m m m, ρ ˉ m \bar{\rho}_m ρˉ?m?為局部均值。通過設定閾值 θ = η ? std ( σ 2 ) \theta = \eta \cdot \text{std}(\sigma^2) θ=η?std(σ2),當 σ m 2 > θ \sigma_m^2 > \theta σm2?>θ時判定為關聯性突變點。
多尺度分析則通過改變窗口寬度 w w w實現不同時間分辨率的特征捕捉。短窗口( w = 100 w=100 w=100)側重瞬態波動,長窗口( w = 400 w=400 w=400)反映穩態關聯,多尺度相關系數序列KaTeX parse error: Expected 'EOF', got '}' at position 15: \{\rho_k^{(w)}}?的對比可揭示氣體相互作用機制的尺度依賴性。
3.3 耦合關系分析結果
- 圖2 氣體組間動態相關系數演化
- 圖3 Gas1-Gas3
四、問題一
代碼
數據預處理
問題一
國獎學姐的認證杯C題完整論文與代碼,今天下午寫完全部的~