神經網絡是一種模擬生物神經系統的計算模型,具有廣泛的應用和重要的研究價值。以下將從不同方面詳細介紹神經網絡。
一、神經網絡的發展歷程
- 20 世紀 60 年代,Hubel 和 Wiesel 在研究貓腦皮層中發現了用于局部敏感和方向選擇的神經元結構,卷積神經網絡就是在此生物學的基礎上發展而來的8。
- 隨著互聯網和計算機信息技術的不斷發展,圖神經網絡已成為人工智能和大數據處理領域的重要研究方向。圖神經網絡可對相鄰節點間的信息進行有效傳播和聚合,并將深度學習理念應用于非歐幾里德空間的數據處理中1。
- 深度神經網絡在過去幾年中一直是機器學習領域的熱門研究課題。圖形處理單元(GPU)的引入和硬件的進步使得深度神經網絡的訓練成為可能。以前由于所需的訓練樣本數量巨大,訓練過程是不可能的。新的訓練引入的架構在不同的分類和回歸問題中已經超越了經典方法4。
二、神經網絡的類型
- 圖神經網絡:圖神經網絡可對相鄰節點間的信息進行有效傳播和聚合,并將深度學習理念應用于非歐幾里德空間的數據處理中。簡述圖計算、圖數據庫、知識圖譜、圖神經網絡等圖結構的相關研究進展,從頻域和空間域角度分析與比較基于不同信息聚合方式的圖神經網絡結構,重點討論圖神經網絡與深度學習技術相結合的研究領域,總結歸納圖神經網絡在動作檢測、圖系統、文本和圖像處理任務中的具體應用1。
- 卷積神經網絡:卷積神經網絡是一種前饋神經網絡,作為一種深度學習算法,它可以對特定范圍內的其他單元做出反應,并且能夠很好地處理巨大的圖像。卷積神經網絡是傳達視覺信息的非常方便的工具,并且可以很好地提高識別精度。然而,體積神經網絡也增加了網絡的復雜性,使其更難以優化并且更容易過擬合。近年來,對卷積神經網絡的改進主要在六個主要部分:卷積層、池化層、激活函數、損失函數、正則化和優化,這減少了卷積神經網絡的冗余,并使其能夠更快、更準確地處理10。
- 量子神經網絡:量子計算與人工神經網絡相結合的量子神經網絡有可能成為未來信息處理的重要手段。分析了人工神經網絡向量子神經網絡演變的動因及形式、量子神經網絡的優勢及可能的物理實現方法。著重討論了幾種量子神經網絡模型的結構、學習方法及特性,并闡述了量子神經網絡在模式識別、糾纏計算、函數近似等方面的初步應用7。
三、神經網絡與生物大腦的關系
- 神經網絡與人類大腦有一定的相似性。人類大腦由 100000 億條神經組成,這些神經由神經元組成,神經元具有一定的權重并接收信號,這些信號被處理并轉換為所需的輸出。類似地,神經網絡作為一種并行設備產生,可以比常規系統更快地執行計算任務。神經網絡的基本任務是根據估計、改進和信息聚類來感知示例和分組能力,因此被稱為人工神經網絡(ANN)。這個網絡充當人類大腦的角色,努力解決復雜的問題。ANN 是并行分布式處理系統或連接系統3。
- 第 1 章介紹了生物大腦的功能組織。首先描述了神經元,它們是大腦的基本單位。這些結構能夠收集信號、處理它們并將它們傳遞給后續單元。同時,它們是動態的,可以根據環境條件而變化。本章的第二部分致力于描述突觸:神經元之間連接的動態實際上是學習和記憶過程的基礎。兩者都與信號強度和迭代的概念有關。因此,提出了關于信息如何存儲的詳細描述。本章以對使神經環境成為高度互連組織的一些特性的描述性概述結束9。
四、神經網絡的訓練方法
- 最近的機器學習大部分都集中在深度學習上,其中神經網絡權重通過隨機梯度下降的變體訓練。另一種方法來自神經進化領域,該領域利用了進化算法來優化神經網絡,這是受自然大腦本身是進化過程的產物的啟發。神經進化可以實現基于梯度的方法通常不可用的重要功能,包括學習神經網絡構建塊(例如激活功能),超參數,體系結構,甚至是學習自己的算法。神經進化也通過在搜索過程中維持大量解決方案,實現極端探索和大規模平行化,這也與深度學習(和深度增強學習)不同5。
- 自尺寸估計前饋網絡(SSFN)是一種前饋多層網絡,在訓練過程中具有低復雜性,因為其權重中使用了隨機矩陣實例。其權重矩陣通過逐層凸優化方法(監督訓練)與隨機矩陣實例(無監督訓練)相結合進行訓練。探索使用確定性變換來替換 SSFN 權重矩陣中的隨機矩陣實例。使用確定性變換自動降低計算復雜性,因為其結構允許通過快速算法進行計算。研究了幾種確定性變換,如離散余弦變換、哈達瑪變換和小波變換等。為此,開發了兩種基于特征統計參數的方法。所提出的方法在每一層上實現,以決定使用的確定性變換。通過 SSFN 在對象分類任務中使用幾個基準數據集說明了所提出方法的有效性。結果顯示出與原始 SSFN 相似的適當性能,并且在不同數據集上也具有一致性。因此,證明了在機器學習研究中引入確定性變換的可能性4。
五、神經網絡的應用
- 圖神經網絡在動作檢測、圖系統、文本和圖像處理任務中有具體應用1。
- 卷積神經網絡主要用于圖像分類、文本處理、視頻處理等10。
- 量子神經網絡在模式識別、糾纏計算、函數近似等方面有初步應用7。
- 深度神經網絡在許多圖像分析任務中實現人類水平性能,但 DNN 大多部署到消耗相當數量的電力的 GPU 平臺。新硬件平臺采用較低精度算術實現功耗的急劇減少。最近,腦激發的尖峰神經芯片已經實現了毫無武力的耗材甚至較低的功耗,同時仍提供實時處理6。
1
圖神經網絡綜述王健宗3
Neural Networks and Their ApplicationsShivani Joshi4
Development of Neural Networks Using Deterministic TransformsGrau Jurado, Pol5
通過神經進化設計神經網絡Kenneth O. Stanley6
提高尖端神經網絡饋電神經網絡的分類精度Antonio Jimeno Yepes展開
神經網絡的發展歷程中有哪些關鍵節點和重要技術突破?
神經網絡的發展歷程漫長而曲折,經歷了多個關鍵節點和重要技術突破。以下是對神經網絡發展歷程中的關鍵節點和重要技術突破的詳細闡述:
一、早期探索階段
20 世紀 40 年代至 60 年代,神經網絡開始了早期的探索。
- 麥卡洛克 - 皮茨神經元模型:1943 年,神經生理學家沃倫?麥卡洛克(Warren McCulloch)和數學家沃爾特?皮茨(Walter Pitts)提出了麥卡洛克 - 皮茨神經元模型,這是第一個人工神經元模型,為后來神經網絡的發展奠定了基礎2。該模型將神經元的活動描述為一個二進制的閾值邏輯單元,能夠對輸入進行加權求和,并根據閾值進行輸出決策。這個模型雖然簡單,但它首次將神經元的活動進行了數學建模,為理解大腦的信息處理機制提供了一個初步的框架。
- 感知機模型:1957 年,弗蘭克?羅森布拉特(Frank Rosenblatt)提出了感知機模型,這是第一個具有學習能力的神經網絡模型3。感知機是一種簡單的線性分類器,它可以通過調整權重來學習輸入數據的模式,從而實現對不同類別的分類。感知機的出現引起了廣泛的關注,它為神經網絡的學習算法提供了一個重要的范例。然而,由于感知機只能處理線性可分的問題,對于復雜的非線性問題無能為力,這也導致了后來神經網絡發展的一段停滯期。
二、低潮期
20 世紀 60 年代末至 80 年代,神經網絡的發展進入了低潮期。
- 明斯基和佩珀特的批評:1969 年,馬文?明斯基(Marvin Minsky)和西摩?佩珀特(Seymour Papert)出版了《感知機》一書,對感知機的局限性進行了深入的分析和批評4。他們指出,感知機只能處理線性可分的問題,對于復雜的非線性問題無能為力,而且感知機的學習算法也存在一些問題。這本書的出版對神經網絡的發展產生了重大的影響,使得神經網絡的研究陷入了一段長時間的停滯期。
三、復興階段
20 世紀 80 年代至 90 年代,神經網絡的發展迎來了復興。
- 反向傳播算法:1986 年,大衛?魯梅爾哈特(David Rumelhart)、杰弗里?辛頓(Geoffrey Hinton)和羅納德?威廉姆斯(Ronald Williams)提出了反向傳播算法,這是一種用于訓練多層神經網絡的有效算法5。反向傳播算法通過計算網絡輸出與期望輸出之間的誤差,并將誤差反向傳播到網絡的各個層,從而調整網絡的權重,使得網絡的輸出逐漸逼近期望輸出。反向傳播算法的出現使得多層神經網絡的訓練成為可能,極大地推動了神經網絡的發展。
- 卷積神經網絡:20 世紀 80 年代末至 90 年代初,卷積神經網絡開始出現6。卷積神經網絡是一種專門用于處理圖像等二維數據的神經網絡,它通過卷積層和池化層的組合,能夠有效地提取圖像的特征,從而實現對圖像的分類和識別。卷積神經網絡的出現使得計算機視覺領域取得了重大的突破,成為了神經網絡發展的一個重要里程碑。
四、蓬勃發展階段
21 世紀以來,神經網絡的發展進入了蓬勃發展階段。
- 深度學習的興起:2006 年,杰弗里?辛頓等人提出了深度信念網絡(Deep Belief Network,DBN),并通過無監督學習的方法對其進行預訓練,然后再用有監督學習的方法對其進行微調,從而有效地解決了深度神經網絡的訓練問題7。這一突破引發了深度學習的熱潮,使得深度神經網絡在圖像識別、語音識別、自然語言處理等領域取得了巨大的成功。
- 循環神經網絡和長短時記憶網絡:20 世紀 80 年代末至 90 年代初,循環神經網絡(Recurrent Neural Network,RNN)開始出現8。循環神經網絡是一種專門用于處理序列數據的神經網絡,它通過循環結構能夠有效地捕捉序列數據中的時間依賴關系。然而,傳統的循環神經網絡存在長期依賴問題,即難以有效地處理長序列數據中的長期依賴關系。為了解決這個問題,1997 年,塞普?霍奇里特(Sepp Hochreiter)和尤爾根?施密德胡伯(Jürgen Schmidhuber)提出了長短時記憶網絡(Long Short-Term Memory,LSTM)9。長短時記憶網絡通過引入門控機制,能夠有效地控制信息的流動,從而解決了傳統循環神經網絡的長期依賴問題。長短時記憶網絡的出現使得循環神經網絡在自然語言處理等領域取得了重大的突破。
- 圖神經網絡:近幾年來,將深度學習應用到處理和圖結構數據相關的任務中越來越受到人們的關注。圖神經網絡的出現使其在上述任務中取得了重大突破,比如在社交網絡、自然語言處理、計算機視覺甚至生命科學等領域得到了非常廣泛的應用10。圖神經網絡可以把實際問題看作圖中節點之間的連接和消息傳播問題,對節點之間的依賴關系進行建模,從而能夠很好地處理圖結構數據。
- 量子深度學習神經網絡:2019 年,有研究對量子深度學習神經網絡的現狀進行了調查。發現幾個公司增加了量子計算機的庫存,新算法解決了量子網絡的訓練問題,新量子感知機解決了神經網絡的非線性函數問題。這些成果可能會帶來真正的量子深度學習神經網絡11。
綜上所述,神經網絡的發展歷程中經歷了多個關鍵節點和重要技術突破,這些突破不斷推動著神經網絡的發展,使其在各個領域得到了廣泛的應用。隨著技術的不斷進步,相信神經網絡在未來還會取得更多的突破和創新。
2
Introduction to Neural NetworksGrégoire Montavon
3
Neural Networks and Their ApplicationsShivani Joshi
4
Development of Neural Networks Using Deterministic TransformsGrau Jurado, Pol
5
通過神經進化設計神經網絡Kenneth O. Stanley
6
提高尖端神經網絡饋電神經網絡的分類精度Antonio Jimeno Yepes
展開
不同類型的神經網絡在應用中有哪些優勢和局限性?
神經網絡在近年來得到了廣泛的應用,不同類型的神經網絡具有各自獨特的優勢和局限性。以下將詳細介紹幾種常見類型神經網絡的特點。
一、深度神經網絡(DNN)
深度神經網絡在角度到達估計問題中具有顯著優勢。Oded Bialer、Noa Garnett 和 Tom Tirer 在 2019 年發表的 “Performance Advantages of Deep Neural Networks for Angle of Arrival Estimation” 中指出,當信號源數量較大時,最大似然估計器由于復雜度極高而難以處理,而深度神經網絡方法可以在具有可行復雜度的情況下達到最大似然性能,并且在各種信噪比和陣列響應不準確的情況下優于其他可行的信號處理估計方法20。
然而,深度神經網絡也存在一些局限性。例如,訓練深度神經網絡需要大量的數據和計算資源,并且容易出現過擬合問題。此外,深度神經網絡的解釋性較差,難以理解其決策過程。
二、寬神經網絡
從 “The Limitations of Large Width in Neural Networks: A Deep Gaussian Process Perspective” 這一研究來看,作者 Geoff Pleiss 和 J. Cunningham 在 2021 年指出,大寬度的神經網絡在一定條件下可能存在局限性。常規網絡隨著寬度增加會獲得更強的表示能力,但這可能掩蓋了一些負面效應。理論和實證結果表明,大寬度可能對層次模型不利,非參數深度高斯過程會收斂到高斯過程,變得更淺且表示能力沒有增加。在特定寬度(如寬度為 1 或 2)時可能達到最佳測試性能,超過這個寬度后性能可能會下降21。
三、神經網絡集成
王正群、陳世福和陳兆乾在 2005 年發表的 “優化分類型神經網絡線性集成” 中,提出了一種構造多神經網絡集成系統的方法。該系統的輸出由個體神經網絡的輸出線性加權產生,并提出了一種判別函數來度量個體神經網絡在不同權重下的集成性能,函數表示了由個體神經網絡輸出刻畫的模式類內會聚性和類間散布性。通過遺傳算法求解最優個體網絡集成權重問題,分析了該判別函數的合理性及其與 Bayes 決策規則的關系22。
神經網絡集成的優勢在于可以結合多個神經網絡的優勢,提高系統的性能和泛化能力。然而,神經網絡集成也存在一些局限性,如計算復雜度較高,需要更多的訓練時間和資源。
四、BP 神經網絡
汪擁軍、趙時和馬曾在 2009 年發表的 “BP 神經網絡在網絡通信中的應用” 中,根據神經網絡的原理和 BP 神經網絡的特點,說明了將 BP 神經網絡技術應用在網絡通信中的優勢,并從三個方面介紹了 BP 神經網絡在網絡通信中的應用,最后分析了目前神經網絡技術在網絡通信中應用研究的現狀和發展趨勢23。
BP 神經網絡的優勢在于具有較強的自學習和自適應能力,可以處理非線性問題。但是,BP 神經網絡也存在一些局限性,如容易陷入局部極小值、訓練速度較慢、對初始權值敏感等。
五、兩層神經網絡
Behrooz Ghorbani、Theodor Misiakiewicz 和 Song Mei 在 2020 年發表的 “兩層神經網絡懶惰訓練的局限性” 中,研究了特征向量為 D 維高斯且響應為未知二次函數的模型以及特征向量為兩個 D 維居中高斯混合且 Y_I 為相應類標簽的模型。使用雙層神經網絡具有二次激活,并比較了隨機特征(RF)制度、神經切線(NT)制度和全訓練的神經網絡(NN)制度三種不同的學習制度。結果表明,當神經元的數量小于環境維度時,這三種訓練制度中實現的預測風險之間存在潛在的無染色差距。當神經元數大于尺寸的數量時,NT 和 NN 學習都實現零風險24。
六、尖峰神經網絡(SNN)
“Efficient Spiking Neural Networks With Radix Encoding” 中,作者 Zhehui Wang、Xiaozhe Gu 和 Rick Siow Mong Goh 在 2022 年提出了一種基數編碼的尖峰神經網絡,具有超短的尖峰序列。能夠在不到六個時間步長內實現比傳統對應物更高的準確性,同時還開發了一種將基數編碼技術融入人工神經網絡到尖峰神經網絡轉換方法的方法,以便在成熟平臺和硬件上更有效地訓練基數編碼的尖峰神經網絡。尖峰神經網絡由于其事件驅動的計算機制和用加法代替耗能的權重乘法,在延遲和能量效率方面比傳統人工神經網絡具有優勢25。
但尖峰神經網絡也面臨一些挑戰,如需要特定的硬件支持、訓練算法相對復雜等。
七、量子神經網絡(QNN)
李飛、趙生妹和鄭寶玉在 2004 年發表的 “量子神經網絡及其應用” 中,分析了人工神經網絡向 QNN 演變的動因及形式、QNN 的優勢及可能的物理實現方法。著重討論了幾種 QNN 模型的結構、學習方法及特性,并闡述了 QNN 在模式識別、糾纏計算、函數近似等方面的初步應用。量子神經網絡有可能成為未來信息處理的重要手段,其優勢在于利用量子計算的特性可以提高計算速度和處理復雜問題的能力7。
然而,量子神經網絡目前還處于發展的早期階段,面臨著許多技術挑戰,如量子比特的穩定性、量子糾錯等問題。
八、卷積神經網絡(CNN)
Bernardo Janko Gongalves Biesseck、Edson Roteia Araujo Junior 和 Erickson R. Nascimento 在 2019 年發表的 “探索卷積神經網絡對局部特征二元測試選擇的局限性” 中,研究了卷積神經網絡在局部特征二元測試選擇的問題。結果顯示了存在局部最小值以及不正確的漸變組件的問題,但卷積神經網絡通過學習本地表示,在局部特征提取中貢獻顯著,例如升力方法產生的關鍵點描述符比手工算法更具辨別力27。
卷積神經網絡的優勢在于在圖像識別、目標檢測等任務中表現出色,能夠自動學習特征。但也存在一些局限性,如需要大量的訓練數據、對參數調整敏感等。
九、硬件尖峰神經網絡
在 “Advantages of binary stochastic synapses for hardware spiking neural networks with realistic memristors” 中,作者 K. Sulinskas 和 M. Borg 在 2022 年研究了硬件實現尖峰神經網絡的問題。發現當使用基于尖峰時間依賴可塑性的無監督訓練時,二進制隨機突觸與現實模擬憶阻器相比具有優勢。二進制隨機尖峰神經網絡在考慮具有實際位分辨率的憶阻器以及在具有相當大的周期噪聲的情況下,性能與模擬確定性尖峰神經網絡相似甚至更好,并且需要更少的權重更新來訓練,從而更好地利用現實憶阻設備中的有限耐久性28。
總的來說,不同類型的神經網絡在應用中各有優勢和局限性。在實際應用中,需要根據具體問題選擇合適的神經網絡類型,并結合數據特點和計算資源等因素進行綜合考慮。
7
量子神經網絡及其應用李飛
20
Performance Advantages of Deep Neural Networks for Angle of Arrival EstimationOded Bialer
21
The Limitations of Large Width in Neural Networks: A Deep Gaussian Process PerspectiveGeoff Pleiss
22
優化分類型神經網絡線性集成王正群
23
BP神經網絡在網絡通信中的應用汪擁軍
展開
神經網絡的訓練方法如何進一步優化以提高性能和效率?
神經網絡的訓練方法一直是機器學習領域的研究重點,優化訓練方法可以顯著提高神經網絡的性能和效率。以下將從幾個方面探討神經網絡訓練方法的優化策略。
一、參數通訊優化
在卷積神經網絡的并行訓練中,可以將梯度計算和參數通訊同時執行,利用計算時間來覆蓋通訊時間34。通過改變通訊方式,利用歸約和冗余通訊方式減少參數通訊時的同步等待時間。這樣可以提高并行訓練的效率,從而間接提高整個神經網絡的訓練效率。
二、數據加載優化
利用預加載和異步拷貝的方式將數據提前加載并拷貝到 GPU 顯存空間,減少數據加載帶來的時間消耗34。這一策略可以確保在訓練過程中數據能夠快速地被神經網絡使用,避免因為數據加載等待而降低訓練效率。
三、代價函數優化
一般而言,誤差代價函數是一個跟神經網絡在特定訓練數據集合上誤差情況的可微分函數。通過利用數學方法尋求這個函數的最小值,可以進一步使權值最優化35。可以嘗試不同的代價函數,或者對現有的代價函數進行改進,以更好地衡量神經網絡的輸出正確性,從而引導神經網絡朝著更優的方向更新參數。
四、基于元啟發式算法的監督學習
對于尖峰神經網絡(SNNs),由于直接使用基于反向傳播的監督學習方法具有挑戰性,因此可以采用基于元啟發式算法的監督學習方法。例如,通過適應時間誤差函數,使用七種知名的元啟發式算法,如和聲搜索(HS)、布谷鳥搜索(CS)、差分進化(DE)、粒子群優化(PSO)、遺傳算法(GA)、人工蜂群(ABC)和語法進化(GE)作為搜索方法進行網絡訓練38。相對目標觸發時間被用來代替固定和預定的時間,使得誤差函數的計算更加簡單。實驗結果表明,這種方法在解決四個分類基準數據集方面具有競爭優勢。
五、知識蒸餾
對于尖峰神經網絡,可以通過知識蒸餾的方法進行訓練。具體來說,可以使用 Kullback-Leibler 散度(KL 散度)進行知識蒸餾,訓練低延遲的尖峰神經網絡。這種方法可以在不損失準確性的情況下實現最快的推理,相比其他最先進的 SNN 模型具有優勢31。
綜上所述,通過參數通訊優化、數據加載優化、代價函數優化、基于元啟發式算法的監督學習以及知識蒸餾等方法,可以進一步優化神經網絡的訓練方法,提高其性能和效率。
?
介紹神經網絡的類型 - 豆包神經網絡是一種模擬生物神經系統的計算模型,具有廣泛的應用和重要的研究價值。以下將從不同方面詳細介紹神經網絡。https://www.doubao.com/thread/we77da3781100498c