論文詞條選擇 —— 知網 【SCI】【數據分析】
題目:基于主成分分析的空間外差干涉數據校正研究
原文摘要:
? ? 空間外差光譜技術(SHS)是一種新型的高光譜遙感探測技術,被廣泛應用于大氣觀測、天文遙感、物質識別等領域。通過空間外差光譜儀獲取的二維實測干涉數據會受到多種影響因素干擾,其中高頻噪聲、不規則暗斑、干涉圖非均勻性是其中最常見的影響。這些影響會降低復原光譜的精度,因此需要對這些影響發展有效的數據校正方法,提高反演光譜準確度。采用鉀燈和氙燈兩種光源產生準單色和連續光信號,以它們形成的干涉數據作為研究對象。針對這兩種實測干涉圖中的多種噪聲影響,提出了一種基于主成分分析的空間外差干涉數據校正方法。首先采用一階差分法對實測干涉圖的所有行數據進行預處理,去除基線影響,將處理后的行數據進行傅里葉變換獲得光譜數據。然后對所有行光譜數據進行主成分分析,計算出多個相互正交的主成分及每個主成分的貢獻率,將貢獻率小于2%的主成分當作噪聲并加以扣除,保留其他主成分作為有效光譜信號進行光譜重建,重建光譜經過傅里葉逆變換得到校正后的干涉圖。最后從干涉圖和光譜兩個維度對校正方法的有效性進行對比分析。結果表明,單色、連續兩種光源實測干涉圖中的暗斑得到有效扣除,非均勻性影響得到極大改善。針對暗斑影響明顯的干涉圖第536、 600、 982行數據,對比其光譜校正前后效果,結果顯示:校正方法有效抑制了光譜中的高頻噪聲,使光譜變得平滑、清楚,特征峰等細節獲得凸顯,信噪比得到改善,三行光譜的均方誤差分別由校正前的0.037 77、 0.027 33、 0.030 99降低到校正后的0.013 31、 0.012 20、 0.012 34,定量說明了方法的有效性。 、
關鍵詞:
空間外差光譜儀 ;?噪聲 ;?主成分分析 ;?校正 ;??
論文助覽?——
原文:
? ? 空間外差光譜儀具有體積小、高光通量和高分辨率的特點,對研究大氣環境和天文遙感,等領域具有重要意義。在實際測量中,空間外差光譜儀獲取的原始數據為二維干涉圖,CCD響應的非線性,光學系統各器件表面或鏡頭沾染污漬等會使實測干涉圖存在不規則的暗斑或者盲元,直接對實測干涉圖進行傅里葉變換會導致復原光譜失真,需采用適當的算法進行校正處理。Tarumi等提出了基于傅里葉變換干涉圖直接分析的目標識別處理方法,通過高斯帶通濾波器對干涉圖進行濾波消除背景以及噪聲干擾,該方法僅對單一吸收特征光譜有效,不能處理多個連續吸收光譜。葉松等提出一種基于經驗模態分解與回歸分析的空間干涉譜目標提取方法,可以從混合信號中提取出目標信號,保留了鐘共振雙線特征峰,抑制了旁峰的干擾,但嚴重削弱了目標信號的強度。
? ? 主成分分析是一種數據降維技術,可以將線性相關的高維變量分解為線性無關的低維變量,每個低維變量可以體現原始數據的某個特征。通過提取部分低維變量,可以從數據中獲得所需的重要信息。含噪聲的干涉圖中包含的信息可分為干涉條紋和噪聲,需要保留的信息為干涉條紋,因此可以通過主成分分析算法,提取代表干涉條紋的變量實現噪聲去除。
關鍵名詞解釋:
名詞 | 定義/作用 |
---|---|
空間外差光譜技術(SHS) | 高分辨率光譜探測技術,通過干涉圖反演光譜,用于大氣觀測、天文遙感等領域。 |
主成分分析(PCA) | 數據降維算法,將高維光譜分解為線性無關的主成分,分離信號與噪聲。 |
不規則暗斑/盲元 | 干涉圖中的局部強度異常(如CCD響應非線性、光學波紋導致),破壞光譜準確性。 |
均方誤差(MSE) | 量化光譜校正效果的指標,值越小表示噪聲抑制效果越好。 |
—— —— —— —— ——
研究核心目標:
原文:
? ? 本文根據空間外差光譜技術(spatial heterodyne spectroscopy,SHS)的基本原理,針對單色光和連續光的實測干涉圖中的不規則暗斑噪聲和盲元,提出了基于主成分分析法的校正算法,從干涉圖和光譜圖兩個角度分析算法的校正效果,結果表明該算法對空間外差干涉數據有良好的校正效果。
解決SHS干涉數據受噪聲干擾的問題:
? 消除高頻噪聲、暗斑及非均勻性影響,提升復原光譜的精度與信噪比。
—— —— —— —— ——
研究創新點:
原文 ——
? ? 原始光譜數據中包含隨機噪聲與目標光譜,其中隨機噪聲對原始數據的貢獻較小,可以通過將原始光譜分解為對原始光譜貢獻不同的成分,然后去除貢獻較小的成分(隨機噪聲)實現光譜校正。
? ? 主成分分析可以利用坐標變換將原始數據分解為貢獻率不同的主成分,本文根據主成分的累積貢獻率,選擇相應的主成分進行數據重構,從而提取光譜的有效信息。因此,可以利用主成分分析算法,通過合理設置累積貢獻率的閾值,將含噪光譜中的光譜成分與噪聲成分進行有效的分離。
? ? 張成的線性空間的特征值及特征向量,以及每個光譜在特征向量上的投影值。其中,特征向量代表一組新的正交坐標系,投影值代表原始數據在新坐標系下的各分量值,即主成分。特征值 λ_i 可以衡量第 i 個主成分包含的信息量,特征值越大,包含的信息越多。對于含噪光譜數據而言,某一主成分對應的特征值越大,該主成分可以代表目標光譜信息越多。為了直觀表示每一個主成分包含的信息量,需計算每個主成分的貢獻率 η_i。第 i 個主成分的貢獻率可表示為
? ? 式 (2) 中,L 為主成分的個數。將所有主成分和特征值對應的特征向量按貢獻率大小進行排序,貢獻率越大,排名越靠前。與噪聲信號相比,目標光譜信號的貢獻率較大,因此將貢獻率大于閾值的主成分設為目標光譜信號,通過提取貢獻率大于閾值的前 j 個主成分,得到目標光譜信號 ?。提取前 j 個特征向量,表示為 V?,通過前 j 個主成分值和特征向量重建光譜,重建光譜表示為
? ? 式 (3) 中,V?^T 為 V? 的轉置矩陣。對重建光譜 B? 進行傅里葉逆變換,得到降噪后的干涉圖。
傳統方法局限 | 本文創新方案 |
---|---|
傅里葉濾波法僅適用單一吸收光譜 | PCA全局分解:不依賴特定光譜類型,適用于單色光/連續光。 |
經驗模態分解法削弱目標信號強度 | 貢獻率閾值去噪:保留高貢獻主成分(>2%)作為有效信號,避免有效信息損失。 |
需預設噪聲模型 | 數據驅動校正:直接從光譜數據中分離噪聲,無需先驗噪聲假設。 |
—— —— —— —— ——
研究流程:
原文 ——
(1) 數據采集
? ? 本文使用的建模數據分別來自 0.5-2.1 GHz GaN 功率放大器在 - 40 o C、25 o C 和 125 o C 下的輸出功率 (Pout)(在 1.8 GHz 下測量,輸入功率 (Pin) 測量范圍為 8 至 32 dBm)。
(2) 數據劃分
? 獲得的實驗數據分為訓練數據和驗證數據。 模型的輸入變量為輸入功率(Pin)和溫度,模型的輸出變量為輸出功率(Pout)。
(3) 建立 GWO-GA-XGBoost 模型
(4) 訓練模型并計算訓練誤差
? ? MSE表示訓練誤差。如果訓練誤差小于預期,則模型完成訓練,進入步驟 (5)。假設訓練誤差大于預期誤差。在這種情況下,表明模型擬合不足,有必要調整參數并返回步驟(3),重新建立和訓練模型。
(5) 模型驗證并計算驗證誤差
? ? ?MSE 表示驗證誤差。假設驗證誤差大于預期誤差。在這種情況下,說明模型擬合不足,需要調整參數并返回步驟 (3),再次重建、訓練和驗證模型。假設驗證誤差小于預期,但訓練誤差和驗證誤差之間的差異超過一個數量級。在這種情況下,模型就是過度擬合。還需要調整參數,并返回步驟(3)重建、訓練和驗證模型。 假設驗證誤差小于預期誤差,且訓練誤差與驗證誤差之差小于一個數量級。在這種情況下,模型表現良好,建模完成。
原文 ————
? ? 為了驗證本文提出的 GWO-GA-XGBoost 建模方法的有效性,本文使用 GWO-GA-XGBoost 對 0.5 ~ 2.1 GHz GaN AB 類功率放大器在 1.8 GHz 三種不同環境溫度(- 40 ? C、25 ? C 和 125 ? C)下的輸入輸出數據進行了建模。
? ? 功率放大器的工作溫度范圍通常為 - 40 ? C 至 125 ? C。為了更好地展示模型的特性,我們選擇了低溫點(- 40 ? C)、室溫點(25 ? C)和高溫點(125 ? C)作為典型溫度點,以代表功率放大器的工作溫度范圍,以便在建模過程中進行驗證。溫度點的選擇不會影響模型對其他未測試溫度范圍的通用性。 為其他溫度點建模只需修改模型輸入變量中的溫度點和相應的模型參數。?
研究方法設計執行流程
數據采集與預處理
數據來源:實測0.5–2.1 GHz GaN功放在?-40°C、25°C、125°C?下的輸入功率(Pin)和輸出功率(Pout)數據(頻率1.8 GHz,Pin范圍8–32 dBm)。
變量定義:
輸入變量:
Pin
(輸入功率)和溫度
。輸出變量:
Pout
(輸出功率)。數據劃分:劃分為訓練集(構建模型)和驗證集(評估泛化能力)。
GWO-GA混合優化器設計
目標:優化XGBoost的3個關鍵超參數:
max_depth
(樹深度)、learning_rate
(學習率)、n_estimators
(樹數量)。執行步驟:
初始化:設置灰狼種群數量?NN、迭代次數?Max_iterMax_iter、解空間維度?DD(對應3個參數)、參數范圍?[lb,ub][lb,ub]。
適應度計算:以均方誤差(MSE)?作為適應度函數(文中式4),MSE越小表明模型越精確。
精英保留與淘汰:
按適應度排序灰狼(α、β、δ為精英個體)。
用輪盤賭選擇淘汰低適應度個體。
交叉與變異:
交叉:α/β/δ狼作為父代,通過加權重組生成新個體(式5-6):
xnew1=ω?x1+(1?ω)?x2,ω∈[0,1]xnew1?=ω?x1?+(1?ω)?x2?,ω∈[0,1]變異:在參數范圍內隨機擾動(式7):
xnew=x+ω?(xmax??xmin?)xnew?=x+ω?(xmax??xmin?)早停機制:當驗證誤差滿足閾值(如MSE <?10?410?4)時終止迭代,平衡精度與效率。
XGBoost模型訓練與驗證
模型構建:用GWO-GA優化的超參數訓練XGBoost。
誤差監控:
訓練誤差 > 預期?→?欠擬合?→ 調整參數重新訓練。
驗證誤差 > 預期?或?|訓練誤差 - 驗證誤差| > 1個數量級?→?過擬合?→ 調整參數重新訓練。
終止條件:驗證誤差 < 預期且誤差差 < 1個數量級。
對比實驗設計
基準模型:
XGBoost(原生)、GA-XGBoost、GWO-XGBoost。
經典算法:梯度提升(Gradient Boosting)、隨機森林(Random Forest)、AdaBoost(使用網格搜索調參)。
評估指標:
精度:訓練集和驗證集的?MSE(表1-2)。
速度:建模時間(秒)。
—— —— —— —— ——
研究結果:
原文? ————
? ? 與(Dikmese 等人,2019 年)的結論一致。梯度提升的建模精度略高于隨機森林和 AdaBoost。不過,它在一些獨特的數據點(如線性和非線性轉折點)上仍表現出擬合偏差。相比之下,GWO-GA-XGBoost 與原始數據的擬合性能非常出色。根據表 2 中的數據,與梯度提升、隨機森林和 AdaBoost 相比,GWO-GA-XGBoost 可以將建模精度提高兩個數量級或更多,同時將建模速度提高一個數量級或更多,這反映了 GWO-GA-XGBoost 優秀的建模效果。
? ? 如前所述,梯度提升、隨機森林和 AdaBoost 這三種經典的機器學習算法都采用了網格搜索法。網格搜索法耗時耗力,且不易保證模型的準確性。本文提出的 GWO-GA-XGBoost 模型的搜索方法采用了元啟發式算法 GWO 和 GA。GA的交叉算子被集成到GWO中,充分發揮了GA強大的全局搜索能力,使改進后的GWO-GA能夠實現精英群體的局部搜索。同時,它還能較好地解決群體發現階段多樣性不足的問題,在提高搜索精度的同時加快收斂速度。因此,與梯度提升、隨機森林和 AdaBoost 相比,本文提出的 GWO-GA-XGBoost 模型具有精度高、速度快的特點。
? ? 由于該模型只采用了不同的搜索方法,與具體的數據集或應用場景沒有直接關系,因此只需針對不同的數據集或應用場景調整模型的輸入和輸出變量以及相應的模型參數即可。還應注意的是,目前的模型僅針對輸出功率、效率等標量數據提出,由于缺乏相關測試數據,模型對波形等矢量數據的適用性尚未得到驗證。因此,本文提出的 GWO-GA- XGBoost 模型可用于功率放大器或其他電路或器件的標量規格建模。
定性效果
干涉圖:暗斑顯著減少,條紋清晰度與光強均勻性提升。
光譜圖:高頻噪聲抑制,特征峰(如氙燈765nm)凸顯,基線更平滑。
定量驗證
-
精度提升(表1):
-
相比XGBoost,GWO-GA-XGBoost的驗證MSE?降低1個數量級(如25°C時從1.28×10?21.28×10?2降至2.86×10?42.86×10?4)。
-
相比經典算法(表2),MSE?降低2個數量級(如25°C時隨機森林MSE為6.35×10?16.35×10?1,GWO-GA-XGBoost為2.86×10?42.86×10?4)。
-
-
速度提升(表1):
-
建模時間縮短至0.3–0.4秒(XGBoost約12–15秒,GA-XGBoost約5–6秒)。
-
-
溫度通用性:
-
在-40°C至125°C范圍均保持高精度,證明模型對溫度變化的魯棒性(圖7-8)。
-
氙燈數據行號 | 校正前MSE | 校正后MSE | 降幅 |
---|---|---|---|
536行 | 0.03777 | 0.01331 | 64.8% |
600行 | 0.02733 | 0.01220 | 55.4% |
982行 | 0.03099 | 0.01234 | 60.2% |
原文 ————
? ? 本文提出了一種名為 GWO-GA-XGBoost 的建模方法,并首次將其應用于不同溫度下射頻功率放大器的建模。實驗結果表明,與 XGBoost、GA-XGBoost 和 GWO-XGBoost 相比,GWO-GA-XGBoost 能將建模精度提高一個量級或更多。與 XGBoost、GA-XGBoost 和 GWO-XGBoost 相比,GWO-GA-XGBoost 的建模速度也提高了一個數量級或更多。 此外,與經典的機器學習算法梯度提升、隨機森林和 AdaBoost 相比,所提出的 GWO-GA-XGBoost 可以將建模精度提高兩個數量級或更多,同時將建模速度提高一個數量級或更多。基于 GWO-GA-XGBoost 的建模方法有望引入射頻/微波領域其他電路和器件的標量技術規范建模中。
Temperature?(℃) | Model | Training?MSE | Validation?MSE | Modeling Time?(s) |
?40 | Gradient Boosting Random | 7.48?×?10-2 2.86?×?10-1 | 7.33?×?10-2 3.52?×?10-1 | 12.20 14.36 |
25 | Forest AdaBoost GWO-GA- XGBoost Gradient Boosting?Random | 3.75?×?10-1 2.90?×?10-4 7.93?×?10-2 4.23?×?10-1 | 2.43?×?10-1 3.11?×?10-4 7.20?×?10-2 6.35?×?10-1 | 13.91 0.439 11.58 12.76 |
125 | Forest AdaBoost GWO-GA- XGBoost Gradient Boosting?Random Forest AdaBoost GWO-GA- XGBoost | 4.00?×?10-1 3.45?×?10-4 7.14?×?10-2 3.81?×?10-1 1.98?×?10-1 3.45?×?10-4 | 2.10?×?10-1 2.86?×?10-4 7.21?×?10-2 5.67?×?10-1 2.16?×?10-1 2.86?×?10-4 | 12.87 0.319 12.49 13.72 13.88 0.319 |
表 2? ?梯度提升、隨機森林、AdaBoost 和 GWO-GA-XGBoost 的訓練和驗證 MSE 以及建模時間
——— —— —— —— ——
往期研究理論支撐:
理論/技術 | 支撐作用 | 引用文獻 |
---|---|---|
SHS基本原理 | 干涉圖-光譜的傅里葉變換關系(公式1) | [10] Qiu et al. |
PCA數學框架 | 主成分貢獻率公式 η?=λ?/∑λ?(公式2)及信號重建方法 | [11-13] |
噪聲分離思想 | 目標光譜集中于高貢獻主成分,噪聲分散于低貢獻成分 | [5] Cao Qian |
—— —— —— —— ——
文獻主要價值:
-
方法論價值:
首次將PCA引入SHS干涉圖校正,提供無需噪聲模型的通用解決方案。 -
應用價值:
顯著提升連續光譜(如氙燈)的信噪比與特征識別能力,對復雜環境遙感具有重要意義。 -
局限性展望:
貢獻率閾值可能損失弱信號(如微量成分光譜),需優化主成分篩選策略(原文第4節)。