目錄
ChebyKAN0
Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation
參考文獻
文章內容
文章詳細結構
5. Experiments and Results
5.1 Digit Classification on MNIST
5.2 Function Approximation
6. Test on Fractal Function
6.1 Experimental Setup
6.2 Results
6.3?Ablation Studies
總結
?沒有確指出具體的網絡層數和神經元數量,而是強調了 Chebyshev KAN 的靈活性和可擴展性。
這段代碼定義了一個名為?MNISTCheby2KAN?的神經網絡類,用于 MNIST 數字分類任務。它使用了 Chebyshev KAN 層和層歸一化 (Layer Normalization) 來構建網絡結構。
?layer norm
第七章
?消融實驗
6.3 Ablation Studies
6.3.1 Initialization Methods
6.3.2 Degree of Chebyshev Polynomials
6.3.3 Input Normalization
6.3.4 Chebyshev Polynomial Types
總結
ChebyKAN1
文章中涉及偏微分方程 (PDE) 的實驗主要包括以下三個案例:
3.3.1
3.4
3.5
3.6
3.7
3.8
ChebyKAN0
Chebyshev Polynomial-Based Kolmogorov-Arnold Networks: An Efficient Architecture for Nonlinear Function Approximation
參考文獻
[1] Rossi, F., & Conan-Guez, B. (2005). 功能多層感知機:用于功能性數據分析的非線性工具。
[2] Liu, Z., Wang, Y., Vaidya, S., Ruehle, F., Halverson, J., Solja?i?, M., Hou, T. Y., & Tegmark, M. (2024). KAN:科爾莫戈羅夫-阿諾德網絡。
[3] Rivlin, T. J. (1974). 第二章,極值性質。在《切比雪夫多項式》一書中。純粹與應用數學(第一版)。紐約-倫敦-悉尼:約翰威利父子出版社。
[4] Schmidt-Hieber, J. (2021). 重新審視科爾莫戈羅夫-阿諾德表示定理。
[5] Goldman, R. (2002). B-樣條逼近與德布爾算法。
[6] Braun, J., Griebel, M. (2009). 關于科爾莫戈羅夫超位置定理的構造性證明。
[7] 切比雪夫,P. L. (1854). “被稱為平行四邊形的機構的理論”。
[8] Glimm, J. (1960). “C*-代數的斯通-外爾斯特拉斯定理”。
[9] Dragomir, S. S. (2003). “關于柯西-布尼亞科夫斯基-施瓦茨型離散不等式的綜述”。
[10] Cesarano, C., and Ricci, P. E. (2019). 偽切比雪夫函數的正交性質(切比雪夫主題的變奏)。
[11] Karageorghis, A. (1987). 關于無限可微函數的一般階導數的切比雪夫系數的注記。
[12] Dubey, S. R., Singh, S. K., Chaudhuri, B. B. (2021). 深度學習中的激活函數:綜述與基準測試。
[13] Riechers, P. M. (2024). LayerNorm的幾何學與動態學。
[14] Hochreiter, S.; Bengio, Y.; Frasconi, P.; Schmidhuber, J. (2001). “循環網絡中的梯度流:學習長期依賴關系的困難”。
[15] Deng, L. (2012). MNIST手寫數字圖像數據庫:機器學習研究的最佳網絡資源。
[16] Goodfellow, I.; Bengio, Y.; Courville, A. (2016). 深度學習。麻省理工學院出版社。
[17] SynodicMonth. ChebyKAN. GitHub倉庫。
[18] Jeng, Jin-Tsong & Lee, Tsu-Tian. “基于切比雪夫多項式的統一模型(CPBUM)神經網絡,用于非線性H∞問題的識別與控制”。
[19] Shukla, Khemraj et al. “在微分方程和算子網絡表示中,MLP與KAN的全面和公平比較”。
[20] Narkhede, Meenal V., Bartakke, Prashant P., Sutaone, Mukul S. “神經網絡權重初始化策略的綜述”。
文章內容
這篇文章介紹了一種名為 Chebyshev Kolmogorov-Arnold Network (Chebyshev KAN) 的新型神經網絡架構,旨在更有效地逼近復雜非線性函數。
Chebyshev KAN 的核心思想:
-
Kolmogorov-Arnold 定理: 該定理表明任何連續的多變量函數都可以表示為有限數量的單變量函數的疊加(組合)以及一組線性運算。Chebyshev KAN 利用這個定理,將復雜的多變量函數分解為更簡單的單變量函數,從而更容易進行近似。P2
-
Chebyshev 多項式: 這些多項式以其優異的逼近特性而聞名,特別是其快速收斂和數值穩定性。Chebyshev KAN 使用 Chebyshev 多項式來參數化網絡邊緣上的可學習函數,從而提高函數逼近的精度和效率。P4
Chebyshev KAN 的架構:
-
輸入數據轉換: 首先,輸入數據被轉換為一組 Chebyshev 多項式,這些多項式作為函數逼近的基礎。P4
-
可學習 Chebyshev 系數: 網絡使用可學習的 Chebyshev 系數來調整函數逼近的形狀和復雜度。P4
-
網絡計算: 通過 Einstein 求和運算,將 Chebyshev 多項式和 Chebyshev 系數結合起來,產生最終的輸出。P4
Chebyshev KAN 的優勢:
-
參數效率: 相比于傳統的多層感知機 (MLP),Chebyshev KAN 使用更少的參數就能達到更高的精度。P5
-
動態激活函數: 可學習的激活函數能夠根據輸入數據動態調整,從而更好地捕捉復雜的非線性關系。P5
-
增強可解釋性: 可視化邊緣上的可學習函數,可以更好地理解網絡如何處理和轉換輸入數據。P5
-
改進的數值穩定性和逼近精度: Chebyshev 多項式的正交性和遞歸性質確保了網絡的穩定性和效率。P5
實驗結果:
-
MNIST 數字分類: Chebyshev KAN 在 MNIST 數據集上實現了 98% 的測試精度,優于傳統的 MLP。P6
-
函數逼近: Chebyshev KAN 在逼近各種合成函數方面表現出色,包括多項式函數、三角函數和具有不連續性的函數。P6
-
分形函數逼近: Chebyshev KAN 成功地逼近了復雜的分形函數,證明了其處理復雜、高維數據的能力。P6P7
消融研究:
-
初始化方法: Xavier 初始化方法取得了最佳的整體性能。P8
-
Chebyshev 多項式的度數: 三次多項式在 MNIST 數據集上取得了最佳平衡。P8
-
輸入歸一化: 標準化方法略微優于 tanh 歸一化和 Min-Max 縮放。P8
-
Chebyshev 多項式的類型: 第二類 Chebyshev 多項式在 MNIST 和函數逼近任務上表現更好。P8
結論:
Chebyshev KAN 是一種很有前途的神經網絡架構,它結合了近似理論和 Chebyshev 多項式的優點,為非線性函數逼近提供了更有效、更靈活的解決方案。它在各種任務中都表現出色,并具有更好的可解釋性。Chebyshev KAN 有望在各種科學和工程領域中找到廣泛的應用。
文章詳細結構
1. 引言
-
介紹非線性函數逼近的重要性以及傳統 MLP 的局限性。P1
-
提出 Chebyshev KAN 作為一種新的解決方案,并概述其優勢。P1
2. Kolmogorov-Arnold 定理
-
解釋 Kolmogorov-Arnold 定理的內容和意義。P2
-
說明該定理如何將復雜函數分解為簡單的單變量函數。P2
3. Chebyshev 多項式
-
定義和解釋 Chebyshev 多項式的類型(第一類和第二類)。P3
-
介紹 Chebyshev 多項式的性質,包括遞歸關系和正交性。P3
-
討論 Chebyshev 多項式的應用,特別是其在函數逼近中的作用。P2P3
4. The Chebyshev Kolmogorov-Arnold Network
-
詳細介紹 Chebyshev KAN 的架構和工作原理。P4P5
-
解釋 Chebyshev 多項式如何用于表示輸入數據和參數化可學習函數。P4
-
闡述網絡計算的過程。P4
-
強調 Chebyshev KAN 相比于傳統 MLP 的優勢,包括參數效率、動態激活函數、可解釋性和數值穩定性。P5
5. Experiments and Results
-
介紹實驗設置,包括 MNIST 數字分類和函數逼近任務。P6
-
展示實驗結果,證明 Chebyshev KAN 的有效性。P6P7
-
分析 Chebyshev KAN 在不同任務上的性能表現。P6P7
6. Test on Fractal Function
-
介紹分形函數的特點以及逼近分形函數的挑戰。P6
-
展示 Chebyshev KAN 在逼近分形函數方面的能力。P6P7
7. Ablation Studies
-
通過消融研究,分析不同初始化方法、歸一化方法、Chebyshev 多項式的度數和類型對網絡性能的影響。P8
-
討論實驗結果,并總結不同參數對網絡性能的影響。P7P8
8. 結論
-
總結 Chebyshev KAN 的優勢和貢獻。P8P9
-
展望未來的研究方向和應用前景。P9
9. 參考文獻
- 列出文章中引用的參考文獻。P9
5. Experiments and Results
這一章通過實驗驗證 Chebyshev KAN 在不同任務上的有效性和優越性。
5.1 Digit Classification on MNIST
-
數據集: MNIST 數據集是一個包含手寫數字圖像的標準數據集,用于評估圖像分類算法的性能。P6
-
實驗設置:
- 使用 Chebyshev KAN 模型進行數字分類,模型包含多個 Chebyshev KAN 層和全連接層。P6
- 輸入圖像被展平并使用雙曲正切函數歸一化到 [-1, 1] 范圍。P6
- 使用不同的初始化方法進行實驗,包括 Xavier 初始化、He 初始化、LeCun 初始化、均勻隨機初始化和正交初始化。P8
-
結果:
- Chebyshev KAN 模型在 MNIST 數據集上實現了 98% 的測試精度,優于傳統的 MLP。P6
- 不同初始化方法對模型性能的影響較大,其中 Xavier 初始化方法取得了最佳的整體性能。P7P8
5.2 Function Approximation
-
目標: 評估 Chebyshev KAN 在逼近各種合成函數方面的能力。
-
實驗設置:
- 生成合成數據,包括多項式函數、三角函數和具有不連續性的函數。P6
- 使用 Chebyshev KAN 模型進行訓練,以最小化預測輸出和實際輸出之間的均方誤差 (MSE)。P6
-
結果:
- Chebyshev KAN 模型在逼近各種合成函數方面表現出色,MSE 較低。P6
- 與傳統的 MLP 相比,Chebyshev KAN 能夠更好地捕捉目標函數中的非線性關系。P6
6. Test on Fractal Function
這一章探討 Chebyshev KAN 在逼近復雜分形函數方面的能力。
6.1 Experimental Setup
-
分形函數: 定義一個種子函數,并應用分形變換來生成復雜的分形函數。P7
-
數據生成: 在二維網格上均勻采樣輸入數據,并使用分形函數計算相應的輸出數據。P7
-
模型訓練: 使用 Chebyshev KAN 模型進行訓練,以最小化預測輸出和實際輸出之間的均方誤差 (MSE)。P6
6.2 Results
-
Chebyshev KAN 模型成功地逼近了分形函數,證明了其處理復雜、高維數據的能力。P7
-
訓練過程中,模型損失顯著降低,表明模型能夠有效地學習分形函數的復雜模式。P7
6.3?Ablation Studies
-
初始化方法: 比較不同初始化方法對模型性能的影響,包括 Xavier 初始化、He 初始化、LeCun 初始化、均勻隨機初始化和正交初始化。P8
-
Chebyshev 多項式的度數: 研究不同 Chebyshev 多項式的度數對模型精度的影響,并分析模型復雜度和泛化能力之間的平衡。P8
-
輸入歸一化: 比較不同輸入歸一化方法對模型性能的影響,包括 tanh 歸一化、Min-Max 縮放和標準化。P8
-
Chebyshev 多項式的類型: 比較使用第一類和第二類 Chebyshev 多項式對模型性能的影響。P8
-
結果:
- 初始化方法對模型性能的影響較大,其中 Xavier 初始化方法取得了最佳的整體性能。P7P8
- 三次 Chebyshev 多項式在 MNIST 數據集上取得了最佳平衡。P8
- 標準化方法略微優于 tanh 歸一化和 Min-Max 縮放。P8
- 第二類 Chebyshev 多項式在 MNIST 和函數逼近任務上表現更好。P8
總結
第 5 章和第 6 章通過實驗和消融研究,驗證了 Chebyshev KAN 在數字分類、函數逼近和分形函數逼近方面的有效性。結果表明,Chebyshev KAN 能夠有效地逼近復雜非線性函數,并具有優于傳統 MLP 的性能。
?沒有確指出具體的網絡層數和神經元數量,而是強調了 Chebyshev KAN 的靈活性和可擴展性。
Chebyshev KAN 的核心結構:
-
Chebyshev KAN 層: 由輸入層、Chebyshev 多項式計算層和輸出層組成。
-
Chebyshev 多項式計算層: 對每個輸入特征計算 Chebyshev 多項式,并將其作為新的特征表示。P4
-
輸出層: 使用可學習的 Chebyshev 系數對 Chebyshev 多項式進行加權求和,得到最終的輸出。P4
網絡層數和神經元數量的選擇:
-
輸入層: 輸入層神經元數量取決于輸入數據的維度。
-
Chebyshev KAN 層數: 可以根據任務復雜度和數據規模進行調整。更多的層數可以提供更高的模型復雜度,但也可能增加計算量和過擬合的風險。
-
Chebyshev 多項式的度數: 度數的選擇取決于輸入數據的范圍和函數的復雜度。較高的度數可以提供更高的逼近精度,但也可能導致過擬合和計算量增加。P8
-
輸出層: 輸出層神經元數量取決于輸出數據的維度。
文章中的示例:
-
MNIST 數字分類: 使用多個 Chebyshev KAN 層和全連接層。P6
-
函數逼近: 使用單個 Chebyshev KAN 層。
總結:
Chebyshev KAN 的網絡結構可以根據具體任務進行調整。選擇合適的層數、神經元數量和 Chebyshev 多項式的度數,可以平衡模型復雜度、計算量和逼近精度。
# Construct a Cheby2KAN for MNIST class MNISTCheby2KAN(nn.Module): def __init__(self): super(MNISTCheby2KAN, self).__init__() self.cheby2kan1 = Cheby2KANLayer(28*28, 32, 4) self.ln1 = nn.LayerNorm(32) # To avoid gradient vanishing caused by tanh self.cheby2kan2 = Cheby2KANLayer(32, 16, 4) self.ln2 = nn.LayerNorm(16) self.cheby2kan3 = Cheby2KANLayer(16, 10, 4) def forward(self, x): x = x.view(-1, 28*28) # Flatten the images x = self.cheby2kan1(x) x = self.ln1(x) x = self.cheby2kan2(x) x = self.ln2(x) x = self.cheby2kan3(x) return x這是這篇文章的mnist數據集代碼。詳細解釋
這段代碼定義了一個名為?MNISTCheby2KAN
?的神經網絡類,用于 MNIST 數字分類任務。它使用了 Chebyshev KAN 層和層歸一化 (Layer Normalization) 來構建網絡結構。
類定義:
python
復制
class MNISTCheby2KAN(nn.Module):
這段代碼繼承自?nn.Module
?類,這是 PyTorch 中所有神經網絡的基類。
網絡結構:
-
輸入層: 網絡的輸入是 MNIST 數據集中的圖像,每個圖像被展平成 28x28 = 784 維的向量。
-
Cheby2KAN 層: 網絡包含三個 Cheby2KAN 層,每個層使用第二類 Chebyshev 多項式 (Cheby2) 來參數化可學習函數。
-
cheby2kan1
: 第一個 Cheby2KAN 層,將輸入維度從 784 降低到 32。 -
cheby2kan2
: 第二個 Cheby2KAN 層,將輸入維度從 32 降低到 16。 -
cheby2kan3
: 第三個 Cheby2KAN 層,將輸入維度從 16 降低到 10,對應于 10 個數字類別。
-
-
層歸一化: 每個 Cheby2KAN 層后面都使用了層歸一化,以避免梯度消失問題,并提高模型的訓練穩定性。
前向傳播函數:
python
復制
def forward(self, x):
這個函數定義了網絡的前向傳播過程。
-
輸入展平:?
x = x.view(-1, 28*28)
?將輸入圖像展平成 784 維的向量。 -
Cheby2KAN 層: 輸入向量依次通過三個 Cheby2KAN 層進行計算。
-
層歸一化: 每個 Cheby2KAN 層的輸出都經過層歸一化處理。
-
輸出: 網絡的最終輸出是第三個 Cheby2KAN 層的輸出,它包含 10 個數字類別的預測概率。
總結:
這段代碼展示了如何使用 Chebyshev KAN 層構建一個簡單的 MNIST 數字分類模型。該模型使用了三個 Cheby2KAN 層和層歸一化來提高模型的性能和訓練穩定性。
?layer norm
self.ln1 = nn.LayerNorm(32) # To avoid gradient vanishing caused by tanh到底是什么意思
這段代碼中的?self.ln1 = nn.LayerNorm(32)
?定義了一個層歸一化 (Layer Normalization) 層,其輸入維度為 32。注釋?To avoid gradient vanishing caused by tanh
?解釋了使用層歸一化的目的,即避免由于雙曲正切函數 (tanh) 導致的梯度消失問題。
梯度消失問題:
在深度神經網絡中,梯度消失問題是指隨著網絡層數的增加,梯度在反向傳播過程中逐漸減小,最終趨近于零。這會導致網絡無法有效地學習參數,從而影響模型的訓練和收斂。
tanh 函數與梯度消失:
雙曲正切函數 (tanh) 是一種常用的激活函數,其輸出范圍在 [-1, 1] 之間。然而,tanh 函數的導數在輸入值接近 0 時接近 1,而在輸入值接近 -1 或 1 時接近 0。這導致當輸入值較大時,梯度傳遞到前面的層時會被顯著縮小,從而引發梯度消失問題。
層歸一化的作用:
層歸一化通過對每個神經元輸入進行歸一化處理,使其具有相同的均值和方差,從而避免梯度消失問題。具體來說,層歸一化首先計算每個神經元輸入的均值和方差,然后將其標準化為均值為 0,方差為 1 的分布。最后,層歸一化使用可學習的參數對標準化后的數據進行縮放和平移,以恢復其原始的表示能力。
總結:
在這段代碼中,使用層歸一化的目的是為了防止由于 tanh 函數導致的梯度消失問題,從而提高模型的訓練穩定性和收斂速度。
第七章
總結了 Chebyshev KAN 的優勢和貢獻,并展望了未來的研究方向和應用前景。
Chebyshev KAN 的優勢:
-
參數效率: Chebyshev KAN 使用更少的參數就能達到與傳統 MLP 相當甚至更高的精度,這使其更適合處理大規模數據集和復雜函數。P5
-
動態激活函數: 可學習的激活函數能夠根據輸入數據動態調整,從而更好地捕捉復雜的非線性關系,提高模型的適應性和泛化能力。P5
-
增強可解釋性: 可視化邊緣上的可學習函數,可以更好地理解網絡如何處理和轉換輸入數據,這對于科學和工程應用至關重要。P5
-
改進的數值穩定性和逼近精度: Chebyshev 多項式的正交性和遞歸性質確保了網絡的穩定性和效率,使其能夠有效地逼近復雜非線性函數。P5
Chebyshev KAN 的貢獻:
-
推進非線性函數逼近: Chebyshev KAN 為非線性函數逼近提供了一種新的、更有效的方法,克服了傳統 MLP 的局限性。P8
-
增強模型可解釋性: Chebyshev KAN 的可解釋性使其更適合科學和工程應用,有助于理解模型的行為并進行改進。P5
-
促進神經網絡設計: Chebyshev KAN 的成功為未來神經網絡設計提供了新的思路,例如結合其他類型的正交函數或優化方法。
未來研究方向:
-
更復雜的數據集: 將 Chebyshev KAN 應用于更復雜和多樣化的數據集,例如圖像識別、語音識別和自然語言處理等。
-
更復雜的模型結構: 探索將 Chebyshev KAN 與其他神經網絡架構相結合,例如卷積神經網絡 (CNN) 或循環神經網絡 (RNN),以處理更復雜的任務。
-
更廣泛的機器學習框架: 將 Chebyshev KAN 集成到更廣泛的機器學習框架中,例如強化學習和遷移學習,以擴展其應用范圍。
應用前景:
Chebyshev KAN 有望在各種科學和工程領域中找到廣泛的應用,例如:
-
物理學: 模擬物理現象,例如流體動力學和量子力學。
-
工程: 設計和控制復雜系統,例如機器人、飛機和汽車。
-
數據科學: 分析和預測復雜數據,例如金融市場數據和醫療數據。
總結:
Chebyshev KAN 是一種很有前途的神經網絡架構,它結合了近似理論和 Chebyshev 多項式的優點,為非線性函數逼近提供了更有效、更靈活的解決方案。它在各種任務中都表現出色,并具有更好的可解釋性。Chebyshev KAN 有望在各種科學和工程領域中找到廣泛的應用,并推動神經網絡設計的發展。
?消融實驗
Ablation Studies(消融研究)是一種用于評估模型不同組件對整體性能影響的方法。通過系統地移除或修改模型的某個部分,可以了解該部分對模型性能的貢獻程度。
6.3 Ablation Studies
這一節通過消融研究,分析了不同初始化方法、歸一化方法、Chebyshev 多項式的度數和類型對 Chebyshev KAN 模型性能的影響。
6.3.1 Initialization Methods
-
目的: 比較不同初始化方法對模型性能的影響。
-
方法: 使用不同的初始化方法初始化 Chebyshev KAN 模型的可學習參數,包括 Xavier 初始化、He 初始化、LeCun 初始化、均勻隨機初始化和正交初始化。P8
-
結果:
-
Xavier 初始化方法取得了最佳的整體性能,包括訓練損失、測試損失和測試精度。P8
-
LeCun 和均勻隨機初始化在訓練階段表現較好,但測試性能略低于 Xavier 初始化。P8
-
正交初始化和標準初始化表現略差。P8
-
6.3.2 Degree of Chebyshev Polynomials
-
目的: 研究不同 Chebyshev 多項式的度數對模型精度的影響,并分析模型復雜度和泛化能力之間的平衡。
-
方法: 使用不同度數的 Chebyshev 多項式構建 Chebyshev KAN 模型,并評估其在 MNIST 數據集上的測試精度。P8
-
結果:
-
將 Chebyshev 多項式的度數從 2 增加到 3,模型的測試精度略有提高。P8
-
將度數增加到 4,模型的測試精度顯著下降,表明模型過度復雜,導致過擬合。P8
-
將度數增加到 5,模型的測試精度略有提高,但仍低于度數為 3 的模型。P8
-
6.3.3 Input Normalization
-
目的: 比較不同輸入歸一化方法對模型性能的影響。
-
方法: 使用不同的輸入歸一化方法預處理 MNIST 數據集,包括 tanh 歸一化、Min-Max 縮放和標準化。P8
-
結果:
-
tanh 歸一化和 Min-Max 縮放取得了相似的測試精度。P8
-
標準化方法的測試精度略高于 tanh 歸一化和 Min-Max 縮放。P8
-
6.3.4 Chebyshev Polynomial Types
-
目的: 比較使用第一類和第二類 Chebyshev 多項式對模型性能的影響。
-
方法: 使用第一類 Chebyshev 多項式和第二類 Chebyshev 多項式分別構建 Chebyshev KAN 模型,并評估其在 MNIST 數據集和函數逼近任務上的性能。P8
-
結果:
-
使用第二類 Chebyshev 多項式的模型在 MNIST 數據集上取得了更高的測試精度,在函數逼近任務上取得了更低的均方誤差 (MSE)。P8
-
第一類 Chebyshev 多項式的正交性提供了更穩定和高效的逼近,但需要更多的參數才能達到類似的精度。P8
-
總結
通過消融研究,我們了解到不同初始化方法、歸一化方法、Chebyshev 多項式的度數和類型對 Chebyshev KAN 模型性能的影響。這些結果有助于我們更好地理解模型的行為,并選擇合適的參數配置來提高模型的性能。
ChebyKAN1
布朗大學GE Karniadakis院士:探討MLP與KAN網絡在微分方程和算子的全面、公平比較(含code鏈接)這篇名為《布朗大學GE Karniadakis院士:探討MLP與KAN網絡在微分方程和算子的全面、公平比較(含code鏈接)》的文章探討了Kolmogorov-Arnold網絡 (KAN) 與傳統的多層感知器 (MLP) 在解決科學機器學習 (SciML) 問題上的比較。文章重點分析了?KAN 在逼近不連續和振蕩函數、結構保持動力系統、偏微分方程 (PDE) 解逼近、不確定性量化和算子學習等方面的性能。
主要內容包括:
-
KAN 的優勢: 與 MLP 相比,KAN 具有參數效率高、動態激活函數、可解釋性強和數值穩定等優點。P2
-
PIKAN 和 DeepOKAN: 文章介紹了將 KAN 與物理信息神經網絡 (PINN) 和深度算子網絡 (DeepONet) 結合的模型,分別稱為 PIKAN 和 DeepOKAN。P2P3
-
基準測試: 文章通過一系列基準測試,比較了基于 MLP 和 KAN 的模型在不同 SciML 問題上的性能,包括不連續函數逼近、結構保持哈密頓動力系統、PDE 解逼近、不確定性量化和算子學習等。P4
-
敏感性分析: 文章分析了 KAN 的穩定性,并探討了隱藏層數和多項式階數對模型性能的影響。P2
-
信息瓶頸理論: 文章使用信息瓶頸理論分析了 PIKAN 的學習動態,并與其他基于 MLP 的模型進行了比較。P4
-
未來研究方向: 文章提出了將 KAN 應用于更廣泛的 SciML 問題,例如大規模 PDEs、與時間相關的 PDEs 和工業復雜問題等。P32
文章的主要結論:
-
KAN 在逼近函數和算子學習方面具有與 MLP 相當甚至更高的精度。P31P32
-
KAN 的穩定性需要進一步研究,例如使用遞歸公式或基于殘差的注意力機制。P2
-
KAN 可以與 PINN 和 DeepONet 結合,用于解決更復雜的 SciML 問題。P2P3
-
信息瓶頸理論可以有效地分析 KAN 的學習動態。P4
文章的意義:
-
推動了 SciML 領域的發展,為解決復雜科學問題提供了新的工具。
-
深入分析了 KAN 的性能和局限性,為未來的研究提供了指導。
-
遵循 FAIR 原則,公開數據和代碼,促進了學術交流和合作。P2
總而言之,這篇文章為 KAN 在 SciML 領域的應用提供了全面的評估,并為未來的研究方向提供了有價值的見解。
文章中涉及偏微分方程 (PDE) 的實驗主要包括以下三個案例:
1. 亥姆霍茲方程
-
目的: 比較基于 MLP 和 KAN 的模型在逼近亥姆霍茲方程解方面的性能,并分析模型復雜度、計算時間和穩定性。P31P32
-
方法:
-
使用 PINN 和 PIKAN 模型逼近二維亥姆霍茲方程的解。P31
-
比較不同模型(PINN、PIKAN、PIKAN 多重網格、cPIKAN、cPIKAN + RBA)的精度和效率。P31
-
分析模型對隱藏層數和多項式階數的敏感性。P31
-
可視化模型損失景觀,分析其凸性和收斂行為。P31
-
-
結果:
-
cPIKAN 模型在精度和效率方面優于 PINN,且參數數量更少。P31P32
-
增加隱藏層數或多項式階數會降低模型性能,并可能導致不穩定。P31
-
cPIKAN(𝑅) 模型恢復了 PINN 的穩定性,并具有理想的損失景觀。P31
-
2. 納維-斯托克斯方程
-
目的: 比較基于 MLP 和 KAN 的模型在模擬不同雷諾數下頂蓋驅動腔流方面的性能,并分析模型對噪聲數據的魯棒性。
-
方法:
-
使用 PINN 和 PIKAN 模型模擬二維穩態不可壓縮納維-斯托克斯方程。P31
-
比較不同模型(PINN、cPIKAN、cPIKAN + RBA)在低雷諾數和高雷諾數下的模擬結果。P31P32
-
分析模型對噪聲數據的魯棒性。P32
-
-
結果:
-
基于 雅可比 多項式的 PIKAN 模型在高雷諾數流動模擬中表現出良好的性能。P32
-
cPIKAN 模型在準確性和訓練時間方面優于 PINN,但每次迭代的訓練時間更長。P32
-
RBA 技術可以提高 PINN 和 PIKAN 的精度。P32
-
EVM 技術可以解決 PIKAN 模型在高雷諾數流動訓練中的不穩定問題。P32
-
3. 艾倫-卡恩方程
-
目的: 比較基于 MLP 和 KAN 的模型在求解二維非線性艾倫-卡恩方程方面的性能。
-
方法:
-
使用 PINN、cPIKAN、cPIKAN + RBA 和 PINN + RBA 模型求解艾倫-卡恩方程。P21
-
比較不同模型的精度和效率。P23
-
-
結果:
-
PINN + RBA 模型在精度和效率方面優于其他模型。P23
-
cPIKAN 和 cPIKAN + RBA 模型的精度相似。P23
-
總結:
文章通過實驗結果表明,基于 KAN 的模型在求解 PDE 方面具有與基于 MLP 的模型相當甚至更高的精度,并且參數效率更高。然而,KAN 模型的穩定性需要進一步研究,例如使用遞歸公式或基于殘差的注意力機制。KAN 模型可以與 PINN 和 DeepONet 結合,用于解決更復雜的 SciML 問題。信息瓶頸理論可以有效地分析 KAN 的學習動態。
3.3.1
3.3.1 節分析了 cPIKAN 模型對隱藏層數量(L)和多項式階數(p)的敏感性,并探討了這些因素如何影響模型的性能和穩定性。
實驗設置:
-
問題: 求解二維亥姆霍茲方程,其中波數較大 (k = 20)。P15
-
模型: 使用 PINN 和 cPIKAN 模型,分別設置不同的 L 和 p 值。P15P17
-
訓練: 使用 Adam 優化器,學習率設置為 1e-3。P15
-
評估: 使用相對誤差評估模型的精度。
主要發現:
-
增加 L 或 p 會降低模型性能: 隨著隱藏層數量或多項式階數的增加,模型的相對誤差(即泛化誤差)會先降低,然后隨著 L 或 p 的繼續增加而升高。這說明模型出現了過擬合現象,即模型過度擬合了訓練數據,導致泛化能力下降。P17
-
cPIKAN 模型對參數敏感: 與 PINN 模型相比,cPIKAN 模型更容易受到參數變化的影響,導致模型性能不穩定。當 L 或 p 增加到一定程度時,cPIKAN 模型的損失函數甚至會出現發散,無法進行訓練。P17
-
cPIKAN(𝑅) 模型更穩定: 通過將切比雪夫多項式重新定義為遞歸形式,cPIKAN(𝑅) 模型有效地解決了 cPIKAN 模型的穩定性問題。即使 L 或 p 增加到較大值,cPIKAN(𝑅) 模型也能保持穩定的訓練過程,并取得較好的泛化性能。P31
原因分析:
-
過擬合: 當模型參數過多時,模型能夠更好地擬合訓練數據,但同時也更容易過擬合,導致泛化能力下降。
-
數值不穩定性: 原始的 cPIKAN 公式使用反三角函數計算角度,當輸入值接近定義域邊界時,會導致數值不穩定性,進而影響模型的訓練過程。P7P8P31
-
cPIKAN(𝑅) 的改進: 通過使用遞歸公式計算切比雪夫多項式,cPIKAN(𝑅) 模型避免了反三角函數的計算,從而提高了模型的數值穩定性。P8P31
結論:
-
cPIKAN 模型對 L 和 p 的選擇比較敏感,需要仔細調整參數才能取得較好的性能。P17
-
cPIKAN(𝑅) 模型更穩定,可以容忍更大的 L 和 p 值,且泛化性能較好。P31
-
在選擇 cPIKAN 模型的參數時,需要權衡模型的精度和穩定性。P17
總而言之,3.3.1 節通過實驗驗證了 cPIKAN 模型對參數的敏感性,并提出了 cPIKAN(𝑅) 模型來提高模型的穩定性。
3.3 節主要探討了使用 PINN 和 cPIKAN 模型逼近二維亥姆霍茲方程解的性能,并分析了模型復雜度、計算時間和穩定性
3.4
3.4 節探討了使用 PINN 和 cPIKAN 模型模擬不同雷諾數下頂蓋驅動腔流的能力,并分析了模型對噪聲數據的魯棒性。
實驗設置:
-
問題: 模擬二維穩態不可壓縮納維-斯托克斯方程,并分析不同雷諾數 (Re) 下頂蓋驅動腔流。P20
-
模型: 使用 PINN 和 cPIKAN 模型,并分別設置不同的網絡架構和 Re 值。P20P21
-
訓練: 使用 Adam 優化器,學習率設置為 0.001。
-
評估: 使用相對誤差評估模型的精度。
主要發現:
-
低雷諾數 (Re = 100):
-
HNN 和 HcKAN 模型都能夠有效地預測狀態空間,并顯示出良好的外推能力。P12
-
HNN 模型的訓練和測試損失曲線收斂良好,表明模型能夠有效地學習數據中的模式。P12
-
HcKAN 模型的訓練過程不穩定,損失函數發散,需要修改網絡架構和使用更淺的網絡才能實現穩定訓練。P12
-
HNN 和 HcKAN 模型的執行時間相近。
-
HNN 指的是?哈密頓神經網絡 (Hamiltonian Neural Network)。它是一種特殊的神經網絡,專門用于模擬和預測哈密頓動力系統的行為。
HNN 的工作原理:
-
哈密頓量: HNN 將哈密頓量(描述系統總能量的函數)作為輸入,并學習預測系統狀態隨時間的變化。P10
-
狀態空間: HNN 的輸出是系統的狀態空間,包括位置和動量等信息。P10P11
-
結構保持: HNN 旨在學習結構保持的動力系統,這意味著它能夠有效地模擬系統的長期行為,并保持系統的物理特性,例如能量守恒。P10
-
HNN 的優勢:
-
預測能力: HNN 能夠有效地預測動力系統的未來狀態,即使是在高維和復雜的情況下。P10P11P12
-
結構保持: HNN 能夠學習結構保持的動力系統,這意味著它能夠有效地模擬系統的長期行為,并保持系統的物理特性。P10
-
泛化能力: HNN 具有良好的泛化能力,能夠將學習到的知識應用于未見過的數據。P12
-
物理系統模擬: HNN 可以用于模擬各種物理系統,例如機械系統、流體動力學系統、量子力學系統等。
-
天氣預報: HNN 可以用于預測天氣變化,例如溫度、濕度、風速等。
-
金融市場預測: HNN 可以用于預測金融市場變化,例如股票價格、匯率等。
-
HNN 與其他神經網絡模型相比:
-
傳統神經網絡: 傳統神經網絡通常無法有效地模擬結構保持的動力系統,并且容易出現過擬合問題。
-
PINNs: PINNs 可以用于解決偏微分方程 (PDEs),但它們通常需要大量的訓練數據和計算資源。
-
總而言之,HNN 是一種強大的神經網絡模型,能夠有效地模擬和預測結構保持的動力系統的行為。它在各種領域具有廣泛的應用潛力。
HNN 的應用:
-
-
-
HNN 模型能夠準確地預測狀態空間,并顯示出良好的外推能力。P12
-
HNN 模型的訓練和測試損失曲線收斂良好,表明模型能夠有效地學習數據中的模式。P12
-
HcKAN 模型的訓練過程不穩定,損失函數發散,即使減少參數數量也無法緩解問題。P12
-
使用更多訓練數據可以顯著降低 HcKAN 模型的泛化誤差。P12
-
HNN 和 HcKAN 模型的執行時間相近。
-
高雷諾數 (Re = 10,000):
-
-
RBA 技術的影響:
- RBA 技術可以加速 HNN 和 HcKAN 模型的收斂速度,并提高模型的精度。P15
-
EVM 技術的影響:
- EVM 技術可以解決 HcKAN 模型在高雷諾數流動訓練中的不穩定問題,并恢復正確的訓練軌跡。P21
原因分析:
-
HNN 的優勢: HNN 模型通過將哈密頓量納入訓練過程,能夠有效地學習結構保持動力系統,并具有良好的外推能力。P10P12
-
HcKAN 的劣勢: HcKAN 模型的訓練過程不穩定,可能是由于切比雪夫多項式的計算涉及反三角函數,當輸入值接近定義域邊界時,會導致數值不穩定性。P12
-
RBA 的優勢: RBA 技術可以動態地調整損失函數的權重,使模型能夠更有效地學習數據中的模式。P15
-
EVM 的優勢: EVM 技術可以增加數值穩定性,并幫助模型學習更復雜的流場結構。P21
結論:
-
HNN 模型在模擬不同雷諾數下頂蓋驅動腔流方面表現出良好的性能,并具有良好的魯棒性。P12P21
-
HcKAN 模型在高雷諾數流動模擬中容易出現不穩定問題,需要使用更淺的網絡架構和 EVM 技術來提高穩定性。P12P21
-
RBA 技術可以加速 HNN 和 HcKAN 模型的收斂速度,并提高模型的精度。P15P21
-
EVM 技術可以解決 HcKAN 模型在高雷諾數流動訓練中的不穩定問題,并恢復正確的訓練軌跡。P21
總而言之,3.4 節通過實驗驗證了 HNN 和 HcKAN 模型在模擬不同雷諾數下頂蓋驅動腔流方面的性能,并分析了 RBA 和 EVM 技術對模型性能的影響。
3.5
3.5 節研究了使用 PIKAN、cPIKAN、帶有 RBA 的 cPIKAN 以及帶有 RBA 的 PINN 求解二維非線性艾倫-卡恩方程的有效性。
艾倫-卡恩方程:
-
方程描述了具有非線性反應項和擴散項的偏微分方程。
-
目標是在給定初始條件和邊界條件的情況下,找到方程的解。
實驗設置:
-
模型: 使用 PINN、cPIKAN、帶有 RBA 的 cPIKAN 以及帶有 RBA 的 PINN 模型求解方程。
-
網絡架構:
-
PINN 和 cPIKAN 使用相同的網絡架構,包含 2 個隱藏層,每層 64 個神經元。
-
RBA 權重用于平衡每個損失項內的局部貢獻,并動態地調整損失函數的權重。
-
-
訓練: 使用 Adam 優化器,學習率設置為 1e-4。
-
評估: 使用相對誤差評估模型的精度。
主要發現:
-
PINN 性能: PINN 方法得到的解沒有收斂到參考解,相對誤差較大 (15.93%)。
-
cPIKAN 和帶有 RBA 的 cPIKAN 性能: cPIKAN 和帶有 RBA 的 cPIKAN 得到的解精度相當,相對誤差分別為 3.69% 和 3.68%。
-
RBA 的影響: RBA 技術可以加速 cPIKAN 的收斂速度,并提高模型的精度。
-
訓練時間: cPIKAN 和帶有 RBA 的 cPIKAN 的訓練時間相近,比 PINN 稍長。
原因分析:
-
PINN 的局限性: PINN 方法可能無法有效地學習艾倫-卡恩方程中的非線性關系,導致模型精度較低。
-
cPIKAN 的優勢: cPIKAN 模型使用切比雪夫多項式作為激活函數,可以更好地逼近非線性函數,從而提高模型的精度。
-
RBA 的優勢: RBA 技術可以動態地調整損失函數的權重,使模型能夠更有效地學習數據中的模式,從而提高模型的精度。
結論:
-
cPIKAN 和帶有 RBA 的 cPIKAN 在求解二維非線性艾倫-卡恩方程方面表現出比 PINN 更好的性能。
-
RBA 技術可以有效地提高 cPIKAN 的精度和收斂速度。
-
cPIKAN 和帶有 RBA 的 cPIKAN 是求解二維非線性艾倫-卡恩方程的有效工具。
總而言之,3.5 節通過實驗驗證了 cPIKAN 和帶有 RBA 的 cPIKAN 在求解二維非線性艾倫-卡恩方程方面的有效性,并分析了 RBA 技術對模型性能的影響
3.6
3.6 節探討了將貝葉斯框架與 cPIKAN 結合,構建貝葉斯 cPIKAN (B-cPIKAN) 來解決含噪聲數據的 PDE 反問題,并進行不確定性量化 (UQ)。
實驗設置:
-
問題: 求解具有噪聲數據的一維穩態反應-擴散方程,并推斷擴散率和反應率,同時給出不確定性。P24P25
-
方程:
-
穩態反應-擴散方程:
-
邊界條件:
-
初始條件:
-
-
方法:
-
使用 B-cPIKAN 和 B-PINN 方法求解反問題。P25
-
使用哈密頓蒙特卡羅 (HMC) 方法估計模型參數的后驗分布。P24
-
-
數據:
-
通過解析方法生成精確解,并添加高斯噪聲。P24P25
-
從解和源項中分別采樣測量值,并添加噪聲。P24
-
-
模型:
-
B-cPIKAN: 網絡架構為 3-32-32-1,切比雪夫多項式階數為 3。P25
-
B-PINN: 網絡架構為 4-64-64-2,使用 MLP 作為網絡模型。P25
-
兩種方法的參數數量大致相同。P25
-
-
訓練:
-
使用自適應 HMC 進行訓練。P25
-
預熱樣本數設置為 2000,后驗樣本數設置為 1000。P25
-
主要發現:
-
B-cPIKAN 和 B-PINN 都能夠有效地推斷擴散率和反應率,并給出不確定性。P25
-
由于測量數據的缺乏,兩種方法對反應率的預測不確定性在 x = 1 附近增大。P25
-
B-cPIKAN 方法在推斷時能夠提供稍好的結果,誤差更小,并且不確定性能夠界定誤差。P25
-
然而,B-cPIKAN 的計算成本更高。P25
原因分析:
-
貝葉斯框架的優勢: 貝葉斯框架能夠考慮模型參數的不確定性,并給出更全面的推斷結果。
-
cPIKAN 的優勢: cPIKAN 模型使用切比雪夫多項式作為激活函數,可以更好地逼近非線性函數,從而提高模型的精度。
-
計算成本: B-cPIKAN 的計算成本更高,主要是因為 HMC 方法需要進行大量的采樣計算。
結論:
主要發現:
原因分析:
結論:
總而言之,3.6 節通過實驗驗證了 B-cPIKAN 在解決含噪聲數據 PDE 反問題并進行不確定性量化方面的有效性,并分析了其優缺點
-
B-cPIKAN 和 B-PINN 都是解決含噪聲數據 PDE 反問題并進行不確定性量化的有效方法。P25
-
B-cPIKAN 方法在精度和不確定性量化方面稍占優勢,但計算成本更高。P25
-
未來需要進一步研究,以降低 B-cPIKAN 的計算成本,并探索其在更復雜的 PDE 問題中的應用。
-
3.6 節研究了使用貝葉斯框架與 cPIKAN 結合構建的貝葉斯 cPIKAN (B-cPIKAN) 模型,在解決含噪聲數據的 PDE 反問題并進行不確定性量化 (UQ) 方面的有效性。
實驗設置:
-
問題: 求解具有噪聲數據的一維穩態反應-擴散方程,并推斷擴散率和反應率,同時給出不確定性。P24
-
方程:
-
穩態反應-擴散方程:P24
-
邊界條件:
-
初始條件:
-
-
方法:
-
使用 B-cPIKAN 和 B-PINN 方法求解反問題。P24
-
使用哈密頓蒙特卡羅 (HMC) 方法估計模型參數的后驗分布。P24
-
-
數據:
-
通過解析方法生成精確解,并添加高斯噪聲。P24
-
從解和源項中分別采樣測量值,并添加噪聲。P24
-
-
模型:
-
B-cPIKAN: 網絡架構為 3-32-32-1,切比雪夫多項式階數為 3。P25
-
B-PINN: 網絡架構為 4-64-64-2,使用 MLP 作為網絡模型。P25
-
兩種方法的參數數量大致相同。P25
-
-
訓練:
-
使用自適應 HMC 進行訓練。P24
-
預熱樣本數設置為 2000,后驗樣本數設置為 1000。P25
-
-
B-cPIKAN 和 B-PINN 都能夠有效地推斷擴散率和反應率,并給出不確定性。P25
-
貝葉斯框架的優勢: 貝葉斯框架能夠考慮模型參數的不確定性,并給出更全面的推斷結果。
-
cPIKAN 的優勢: cPIKAN 模型使用切比雪夫多項式作為激活函數,可以更好地逼近非線性函數,從而提高模型的精度。
-
計算成本: B-cPIKAN 的計算成本更高,主要是因為 HMC 方法需要進行大量的采樣計算。
-
B-cPIKAN 和 B-PINN 都是解決含噪聲數據 PDE 反問題并進行不確定性量化的有效方法。P25
-
B-cPIKAN 方法在精度和不確定性量化方面稍占優勢,但計算成本更高。P25
-
未來需要進一步研究,以降低 B-cPIKAN 的計算成本,并探索其在更復雜的 PDE 問題中的應用。
-
由于測量數據的缺乏,兩種方法對反應率的預測不確定性在 x = 1 附近增大。P25
-
B-cPIKAN 方法在推斷時能夠提供稍好的結果,誤差更小,并且不確定性能夠界定誤差。P25
-
然而,B-cPIKAN 的計算成本更高。P25
-
3.7
-
3.7 節探討了使用算子網絡學習一維伯格斯方程解算子的能力,并比較了深度算子網絡 (DeepONet) 和兩種 DeepOKAN 模型的性能。
實驗設置:
-
問題: 學習將初始條件映射到方程解的代理算子。P27
-
方程:
-
一維伯格斯方程:P27
-
周期邊界條件。P27
-
-
方法:
- 使用 DeepONet 和兩種 DeepOKAN 模型學習解算子。P27
-
數據:
-
訓練數據:1000 個初始條件,從定義為 的高斯過程中采樣,并嵌入周期邊界條件。P27
-
測試數據:200 個初始條件。P27
-
-
模型:
-
DeepONet:
-
分支網絡架構:4 層,每層 16 個神經元,使用 tanh 激活函數。P27
-
主干網絡架構:4 層,每層 16 個神經元,使用 tanh 激活函數。P27
-
-
DeepOKAN 1:
-
分支網絡架構:3 層,每層 8 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P27
-
主干網絡架構:3 層,每層 8 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P27
-
-
DeepOKAN 2:
-
分支網絡架構:4 層,每層 16 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P27
-
主干網絡架構:4 層,每層 16 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P27
-
-
-
訓練:
-
使用 Adam 優化器。P27
-
DeepONet 的學習率:
-
前 100,000 次迭代:1e-3P27P28
-
后 100,000 次迭代:1e-4P27P28
-
-
DeepOKAN 的學習率:
-
前 100,000 次迭代:1e-3P28
-
后 100,000 次迭代:1e-4P28
-
-
避免過擬合:
-
DeepONet 和 DeepOKAN 1:權重系數為 0.001 的 L2 正則化器。P28
-
DeepOKAN 2:權重系數為 0.001 的 L2 正則化器。
-
-
3.7 節探討了使用算子網絡學習一維伯格斯方程解算子的能力,并比較了深度算子網絡 (DeepONet) 和兩種 DeepOKAN 模型的性能。
實驗設置:
問題: 學習將初始條件映射到方程解的代理算子。P27
方程:
-
一維伯格斯方程:P27
-
周期邊界條件。P27
方法:
- 使用 DeepONet 和兩種 DeepOKAN 模型學習解算子。P27
數據:
-
訓練數據:1000 個初始條件,從定義為 的高斯過程中采樣,并嵌入周期邊界條件。P27
-
測試數據:200 個初始條件。P27
模型:
-
DeepONet:
-
分支網絡架構:4 層,每層 16 個神經元,使用 tanh 激活函數。P27
-
主干網絡架構:4 層,每層 16 個神經元,使用 tanh 激活函數。P27
-
-
DeepOKAN 1:
-
分支網絡架構:3 層,每層 8 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P27
-
主干網絡架構:3 層,每層 8 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P27
-
-
DeepOKAN 2:
-
分支網絡架構:4 層,每層 16 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P27
-
主干網絡架構:4 層,每層 16 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P27
-
訓練:
-
使用 Adam 優化器。P27
-
DeepONet 的學習率:
-
前 100,000 次迭代:1e-3P27P28
-
后 100,000 次迭代:1e-4P27P28
-
-
DeepOKAN 的學習率:
-
前 100,000 次迭代:1e-3P28
-
后 100,000 次迭代:1e-4P28
-
-
避免過擬合:
-
DeepONet 和 DeepOKAN 1:權重系數為 0.001 的 L2 正則化器。P28
-
DeepOKAN 2:權重系數為 0.001 的 L2 正則化器。
-
主要發現:
-
總而言之,3.7 節通過實驗驗證了 DeepOKANs 在學習一維伯格斯方程解算子方面的有效性,并分析了其優勢和應用潛力。
結論:
-
DeepOKANs 是學習一維伯格斯方程解算子的有效工具,并具有良好的魯棒性。P28
-
DeepOKANs 的計算成本高于 DeepONet,但可以提供更高的精度和魯棒性。P28
-
DeepOKANs 可以應用于更復雜的算子學習問題,例如高維 PDEs 和非線性算子。
-
原因分析:
-
DeepOKANs 的優勢: DeepOKANs 使用切比雪夫 KAN 作為網絡模型,可以更好地逼近非線性函數,從而提高模型的精度和魯棒性。P28
-
DeepONet 的局限性: DeepONet 使用 MLP 作為網絡模型,可能無法有效地學習伯格斯方程解算子中的非線性關系,導致模型精度較低。
-
DeepOKANs 的魯棒性: DeepOKANs 對噪聲輸入函數的魯棒性明顯優于 DeepONet。P28
-
DeepOKANs 的性能: DeepOKANs 在學習伯格斯方程解算子方面表現出比 DeepONet 更高的精度,但計算成本也更高。P28
3.8
3.8 節探討了使用算子網絡學習二維穩態滲流問題解算子的能力,并比較了深度算子網絡 (DeepONet) 和 DeepOKAN 模型的性能。
實驗設置:
-
問題: 學習將水力傳導率場映射到水頭分布的代理算子。P28
-
方程:
-
穩態達西方程:P28
-
邊界條件:P28
-
-
方法:
- 使用 DeepONet 和 DeepOKAN 模型學習解算子。P28
-
數據:
-
訓練數據:10,000 個水力傳導率場和水頭分布配對數據,從截斷 Karhunen-Loève 展開中采樣。P28
-
測試數據:1000 個水力傳導率場和水頭分布配對數據。P28
-
-
模型:
-
DeepONet:
-
分支網絡架構:4 層,每層 32 個神經元,使用 tanh 激活函數。P28
-
主干網絡架構:4 層,每層 32 個神經元,使用 tanh 激活函數。P28
-
-
DeepOKAN:
-
分支網絡架構:4 層,每層 32 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P28
-
主干網絡架構:4 層,每層 32 個神經元,基于切比雪夫 KAN,切比雪夫多項式階數為 3。P28
-
-
-
訓練:
-
使用 Adam 優化器。P28
-
DeepONet 的學習率:
-
前 100,000 次迭代:1e-3P28
-
后 100,000 次迭代:1e-4P28
-
-
DeepOKAN 的學習率:
-
前 100,000 次迭代:1e-3P28
-
后 100,000 次迭代:1e-4P28
-
-
DeepOKAN 使用權重系數為 0.001 的 L2 正則化器以避免過擬合。P28
-
主要發現:
-
DeepONet 的性能: DeepONet 在學習二維穩態滲流問題解算子方面表現出比 DeepOKAN 更高的精度,并且計算成本更低。P28
-
DeepOKAN 的魯棒性: DeepOKAN 對噪聲輸入函數的魯棒性明顯優于 DeepONet,并且隨著噪聲水平的增加,DeepOKAN 的準確性變得更好。P29
原因分析:
-
DeepONet 的優勢: DeepONet 使用 MLP 作為網絡模型,能夠有效地學習數據中的非線性關系,并且在訓練過程中表現出更高的穩定性。
-
DeepOKAN 的優勢: DeepOKAN 使用切比雪夫 KAN 作為網絡模型,可以更好地逼近非線性函數,并且對噪聲輸入函數更具魯棒性。
結論:
-
DeepONet 和 DeepOKAN 都是學習二維穩態滲流問題解算子的有效工具,但 DeepONet 在精度和計算效率方面更優,而 DeepOKAN 在魯棒性方面更優。
-
DeepOKAN 可以應用于更復雜的算子學習問題,例如高維 PDEs 和非線性算子,尤其是在需要處理噪聲數據的情況下。
總而言之,3.8 節通過實驗驗證了 DeepOKAN 在學習二維穩態滲流問題解算子方面的有效性,并分析了其優勢和應用潛力。