🔍 什么是模型訓練中的“特征提取”
-
定義:特征提取是從原始數據中提煉出對預測或分類最有用的信息的過程。它的目標是去掉冗余和噪聲,保留能最好反映數據規律的特征。
-
作用:
-
降低數據維度,減少計算量
-
提高模型的泛化能力
-
讓模型更容易捕捉數據的內在模式
-
-
方法類型:
-
人工特征工程:基于領域知識手動構造特征(如天氣數據中的日照時長、溫差等)
-
自動特征提取:用算法(如PCA、CNN、AutoEncoder)自動學習特征
-
? 光伏發電預測中的特征提取思路
光伏發電功率受氣象條件 + 設備狀態 + 時間因素等多種變量影響,因此特征提取要覆蓋這幾類信息。
1. 氣象類特征
-
太陽輻照度(水平面、傾斜面)
-
溫度(環境溫度、組件背板溫度)
-
風速、風向
-
濕度、氣壓
-
云量、能見度
這些特征可直接來自氣象站或數值天氣預報(NWP)數據。
2. 時間類特征
-
年、月、日、小時、分鐘
-
一天中的太陽高度角、方位角
-
季節性周期(如夏季日照長、冬季短)
3. 歷史功率特征
-
過去一段時間的發電功率序列(如過去 15 分鐘、1 小時、1 天)
-
滑動窗口統計值(均值、最大值、最小值、變化率)
4. 設備狀態特征
-
組件效率衰減系數
-
逆變器效率
-
維護/故障標記
🛠 常用特征提取方法(光伏預測場景)
方法 | 適用場景 | 優點 | 示例 |
---|---|---|---|
PCA(主成分分析) | 高維氣象數據降維 | 去冗余、保留主要信息 | 將多種輻照度指標壓縮成1-2個主成分 |
CNN 卷積神經網絡 | 提取空間特征 | 自動學習局部模式 | 從多通道氣象數據中提取空間相關性 |
LSTM / BiLSTM | 提取時間依賴特征 | 適合時序預測 | 捕捉功率隨時間變化的趨勢 |
多特征融合 | 綜合多種特征 | 提高預測精度 | 傾斜面輻照度 + 溫度特征 + 時序特征 |
特征選擇算法 | 去掉無關特征 | 提高效率 | 互信息、遞歸特征消除(RFE) |
📌 光伏預測特征提取的一個典型流程
-
數據收集:歷史功率 + 氣象數據 + 設備參數
-
數據清洗:去除缺失值、異常值
-
特征構造:
-
計算傾斜面輻照度(基于太陽位置模型)
-
生成時間周期特征(正弦/余弦編碼)
-
計算歷史功率的滑動窗口統計值
-
-
特征選擇/降維:用PCA、相關系數、特征重要性排序等方法
-
輸入模型:CNN-LSTM、XGBoost-LSTM等混合模型常用于光伏預測
參考:
1? blog.csdn.nethttps://blog.csdn.net/2301_77509548/article/details/140928584? 2 www.hanspub.org
https://www.hanspub.org/journal/paperinformation?paperid=101379
3? www.opticsjournal.nethttps://www.opticsjournal.net/Articles/OJd9203fa4910a8b9e/Abstract