????????廣義上講,神經網絡是泛指生物神經網絡與人工神經網絡這兩個方面。所謂生物神經網絡是指由中樞神經系統(腦和脊髓)及周圍神經系統(感覺神經、運動神經、交感神經、副交感神經等)所構成的錯綜復雜的神經網絡,它負責對動物機體各種活動的管理,其中最重要的是腦神經系統。所謂人工神經網絡是指模擬人腦神經系統的結構和功能,運用大量的處理部件,由人工方式建立起來的網絡系統。顯然,人工神經網絡是在生物神經網絡研究的基礎上建立起來的,人腦是人工神經網絡的原型,人工神經網絡是對腦神經系統的模擬。
????????生物神經網絡是腦科學、神經生理學、病理學等的研究對象,而計算機科學、人工智能則是在他們研究的基礎上著重研究人腦信息的微結構理論以及建造人工神經網絡的方法和技術。因此,從人工智能的角度來看,或者從狹義上講,神經網絡就是指人工神經網絡,前者是后者的簡稱。
一、腦神經系統與生物神經元
(一)腦神經系統
1. 基本思想與定義
????????眾所周知,人腦是一個極其復雜的龐大系統,同時它又是一個功能非常完善、有效的系統。它不但能進行大規模的并行處理,使人們在極短的時間內就可以對外界事物作出判斷和決策,而且還具有很強的容錯性及自適應能力,善于聯想、類比、歸納和推廣,能不斷地學習新事物、新知識,總結經驗,吸取教訓,適應不斷變化的情況等。人腦的這些功能及特點是選今為止任何一個人工系統都無法相比的。人腦為什么會具有如此強大的功能?其結構及機理如何?至今我們還對它知之甚少。但有一點是明確的,這就是人腦的功能與腦神經系統以及由它所構成的神經網絡是密切相關的。
????????核心思想:腦神經系統是生物進化形成的分布式并行信息處理系統,其核心機制在于通過神經元集群的動態交互實現復雜認知功能。區別于傳統馮?諾依曼架構的集中式計算,生物腦采用“連接主義”范式,信息處理依賴于神經元間突觸連接的強度變化與時空編碼模式。
????????科學定義: 腦神經系統是由約860億個神經元通過10^14-10^15個突觸連接構成的動態網絡,具備以下本質特征:
(1)分布式編碼:單個刺激對應神經元群體的激活模式(如視覺皮層中方位柱的空間分布);
(2)可塑性學習:通過突觸權重的長時增強(LTP)與長時抑制(LTD)實現經驗固化,其分子機制涉及AMPA受體的插入與移除(Bliss & Lomo, 1973);
(3)涌現特性:認知功能(如記憶、決策)源于神經元網絡的集體動力學,而非單個神經元的功能疊加。
2. 表示形式與實現過程
數學建模體系:
(1)微觀層面:Hodgkin-Huxley模型(1952)通過非線性微分方程描述動作電位的產生:
其中離子電流滿足:
門控變量m, n, h服從隨機過程:
(2)宏觀層面:整合 - 發放(Integrate-and-Fire, I&F)模型簡化神經元動態:
當時發放脈沖,隨后重置膜電位。
信息處理全流程:
(1)突觸信號接收:樹突棘(直徑約0.1-1μm)通過AMPA/KNMDA受體介導興奮性信號(EPSP),GABA受體介導抑制性信號(IPSP),單個神經元可接收超10^4個突觸輸入;
(2)時空整合機制:樹突電纜理論(Rall, 1962)表明,距離胞體越遠的突觸輸入衰減越顯著,衰減因子(r_m為膜電阻,r_i為軸向電阻);
(3)脈沖生成與傳導:軸突初始段(AIS)作為動作電位觸發區,髓鞘化軸突通過跳躍傳導將速度提升至100m/s(郎飛結間距約1mm);
(4)突觸可塑性調節:LTP誘導需突觸前脈沖與突觸后去極化的精確時間關聯(Spike-Timing-Dependent Plasticity, STDP),時間窗口約±20ms。
3. 算法描述(生物神經元信息處理算法)
步驟 1:突觸電流建模
興奮性突觸電流:
抑制性突觸電流類似,反轉電位。
步驟 2:膜電位動態更新
采用改進的Hindmarsh-Rose模型描述爆發式放電:
其中v為膜電位,w為恢復變量,可模擬神經元的簇發放模式。
步驟 3:脈沖序列編碼
動作電位序列通過時間編碼(如頻率編碼)或相位編碼傳遞信息,聽覺系統中毛細胞的放電頻率對應聲音頻率(Place Code Theory)。
4. 具體示例:小腦浦肯野細胞的信號處理流程
(1)神經解剖:單個浦肯野細胞接收約10^5個平行纖維突觸與1個攀緣纖維突觸,構成“單輸入 - 多輸出”的復雜計算單元。
(2)處理流程:
1)平行纖維輸入:每個平行纖維釋放谷氨酸,在樹突棘產生微小 EPSP(約 0.1mV),需約 100 個平行纖維同時激活才能觸發動作電位;
2)攀緣纖維調制:攀緣纖維放電產生強去極化(約 10mV),觸發樹突鈣尖峰,誘導突觸后致密區(PSD)的 CaMKII 激活,啟動 LTD(突觸權重下降);
3)輸出整合:胞體整合樹突電信號,通過軸突投射至小腦深部核團,參與運動控制的誤差校正。
(3)數學建模:浦肯野細胞的樹突樹可視為電阻電容網絡,其頻率響應特性為:
其中τ_d為樹突時間常數,決定高頻信號的衰減程度。
(二)生物神經元
神經細胞是構成神經系統的基本單元,稱之為生物神經元,或簡稱為神經元。神經元主要由三個部分組成:細胞體、軸突、樹突。如圖1所示。
圖1 生物神經元結構
1.結構 - 功能映射關系:
結構組件 | 功能定位 | 工程仿生對應 |
樹突分支 | 信號接收與預處理 | 人工神經元輸入連接 |
軸突初始段 | 動作電位觸發決策點 | 激活函數閾值判斷 |
突觸可塑性 | 經驗依賴的連接強度調整 | 權重更新算法(如 SGD) |
神經遞質囊泡 | 信號傳遞的化學信使 | 激活函數輸出值 |
2.關鍵生物機制:
(1)量子釋放:單個突觸囊泡釋放約1000個神經遞質分子,產生微小突觸后電位(MEPP, 約 0.5mV),多量子釋放形成 EPSP;
(2)不應期特性:絕對不應期(1-2ms)內無法產生新動作電位,相對不應期(5-10ms)需更強刺激,該特性形成脈沖序列的時間分辨率上限;
(3)神經調質:多巴胺、5 - 羥色胺等調質通過G蛋白偶聯受體調節突觸傳遞效率,對應人工神經網絡中的注意力機制或門控機制。
3.神經元的重要特性
????????在神經系統中,神經元之間的聯系形式是多種多樣的。一個神經元既可以通過它的軸突及突觸與其它許多神經元建立聯系,把它的信息傳遞給其它神經元;亦可以通過它的樹突接收來自不同神經元的信息。神經元之間的這種復雜聯系就形成了相應的神經網絡。經人們多年悉心研究,發現神經元還具有如下一些重要特性:
(1)在每一神經元中,信息都是以預知的確定方向流動的,即從神經元的接收信息部分(細胞體、樹突)傳到軸突的起始部分,再傳到軸突終端的突觸,最后再傳遞給另一神經元。盡管不同的神經元在形狀及功能上都有明顯的不同,但大多數神經元都是按這一方向進行信息流動的。這稱為神經元的動態極化原則。
(2)神經元對于不同時間通過同一突觸傳人的信息,具有時間整合功能;對于同一時間通
過不同突觸傳人的信息,具有空間整合功能。這稱為神經元對輸人信息的時空整合處理功能。
(3)神經元具有兩種常規工作狀態,即興奮狀態與抑制狀態。所謂興奮狀態是指,神經元
對輸人信息經整合后使細胞膜電位升高,且超過了動作電位的閾值,此時產生神經沖動,并由軸突輸出。所謂抑制狀態是指,經對輸人信息整合后,膜電位下降至低于動作電位的閾值,此時無神經沖動輸出。
(4)突觸傳遞信息的特性是可變的,隨著神經沖動傳遞方式的變化,其傳遞作用可強可
弱,所以神經元之間的連接是柔性的,這稱為結構的可塑性。
(5)突觸界面具有脈沖與電位信號的轉換功能。沿軸突傳遞的電脈沖是等幅、離散的脈
沖信號,而細胞膜電位變化為連續的電位信號,這兩種信號是在突觸接口進行變換的。
(6)突觸對信息的傳遞具有時延和不應期,在相鄰的兩次輸人之間需要一定的時間間隔,
在此期間不響應激勵,不傳遞信息,這稱為不應期。
二、人工神經元及其互連結構
(一)人工神經元
????????在構造人工神經網絡時,首先應該考慮的問題是如何構造神經元。在對生物神經元的結構、特性進行深人研究的基礎上,心理學家麥克洛奇(W.McCulloch)和數理邏輯學家皮茲(W.Pitts)于1943年首先提出了一個簡化的神經元模型,稱為M-P模型,如圖2所示。
圖2 M-P模型
????????在圖2中,圓表示神經元的細胞體;e、i表示外部輸人,對應于生物神經元的樹突,e為興奮性突觸連接,i為抑制性突觸連接;θ表示神經元興奮的閾值;y表示輸出,它對應于生物神經元的軸突。與圖1對照不難看,M-P模型確實在結構及功能上反映了生物神經元的特征。但是,M-P模型對抑制性輸人賦予了“否決權”,只有當不存在抑制性輸人,且興奮性輸人的總和超過閾值,神經元才會興奮。
????????在M-P模型的基礎上,根據需要又發展了其它一些模型,目前常用的模型如圖-3所示。
圖3 神經元的結構模型
????????在圖3中,x_i(i=1,2, ... ,n)為該神經元的輸人;w_i為該神經元分別與各輸人間的連接強度,稱為連接權值;θ為該神經元的閾值;s為外部輸人的控制信號,它可以用來調整神經元的連接權值,使神經元保持在某一狀態;為神經元的輸出。由此結構可以看出,神經元一般是一個具有多個輸入,但只有一個輸出的非線性器件。
1. 廣義數學模型
統一框架:
????????用某一特性函數(又稱作用函數)F進行轉換,得到輸出y,其中F為含參數Θ的非線性映射函數,常用的特性函數有閾值型、分段線性型、Sigmoid型(簡稱S型)及雙曲正切型,如圖4所示。
圖4 常用的特性函數
????????其中,(a)閾值型;(b)分段線性型;(c)S型;(d)雙曲正切型。有關“神經網絡中的損失函數”可以看我的CSDN文章:神經網絡中的損失函數(Loss Function)-CSDN博客?
????????可將統一框架可擴展為:
(1)動態神經元(如Reservoir Computing):
(2)脈沖神經元(Spiking Neural Network, SNN):
其中s(τ)為脈沖序列的時間編碼。
2. 功能增強型神經元示例
門控神經元(Gated Neuron):
其中
????????該模型模仿生物神經元的突觸門控機制,如LSTM中的輸入門,在NLP任務中實現對歷史信息的選擇性記憶。
(二)神經元的互連形態
????????人工神經網絡是由神經元廣泛互連構成的,不同的連接方式就構成了網絡的不同連接模型,常用的有以下幾種:
(1)前向網絡。前向網絡又稱為前饋網絡。在這種網絡中,神經元分層排列,分別組成輸人層、中間層(又稱隱層,可有多層)和輸出層。每一層神經元只接收來自前一層神經元的輸人。輸人信息經各層變換后,最終在輸出層輸出,如圖5所示。
圖5 前向網絡
(2)從輸出層到輸人層有反饋的網絡。這種網絡與上一種網絡的區別僅僅在于,輸出層上的某些輸出信息又作為輸人信息送人到輸人層的神經元上,如圖6所示。
圖6 從輸出層到輸人層有反饋的網絡
(3)層內有互連的網絡。在前面兩種網絡中,同一層上的神經元都是相互獨立的,不發生橫向聯系。而在這一種網絡(如圖7所示)中,同一層上的神經元可以互相作用。這樣安排的好處是可以限制每層內能同時動作的神經元數,亦可以把每層內的神經元分為若干組,讓每組作為一個整體來動作。例如,可以利用同層內神經元間橫向抑制的機制把層內具有最大輸出的神經元挑選出來,而使其它神經元處于無輸出的狀態。
圖7 層內有互連的網絡
(4)互連網絡。在這種網絡中,任意兩個神經元之間都可以有連接,如圖8所示。在無反饋的前向網絡中,信息一旦通過某個神經元,過程就結束了,而在該網絡中,信息可以在神經元之間反復往返地傳遞,網絡一直處在一種改變狀態的動態變化之中。從某初態開始,經過若干次的變化,才會到達某種平衡狀態,根據網絡的結構及神經元的特性,有時還有可能進人周期振蕩或其它狀態。
圖8 互連網絡
????????以上四種連接方式中,前面三種可以看作是第四種情況的特例,但在應用中它們還是有很大差別的。
????????以下是部分神經網絡的講解:
1. 層次化前饋網絡(Hierarchical FFN)
這是以上四種神經網絡中的第一種:前向網絡
生物啟發:模擬視覺皮層的V1→V2→V4→IT區層級特征提取,
典型結構:
輸入層 (784) → 卷積層 (64@3×3) → 池化層 (2×2) → 全連接層 (1024) → 輸出層 (10)
信號傳導方程:
第l層激活值:
注:*表示卷積或全連接運算
2. 動態反饋網絡(Dynamic Feedback Network)
Hopfield網絡能量函數:
收斂性證明:每次更新單個神經元狀態時,能量函數非增,最終穩定在局部極小點,對應記憶模式。
3. 時空遞歸網絡(Spatiotemporal RNN)
改進型LSTM單元(Peephole Connection):
????????引入細胞狀態到門控的直接連接,提升長距離依賴建模能力,在語音識別中相對標準 LSTM 錯誤率降低 12%。
三、人工神經網絡的特征及分類
(一)核心特征解析
1. 非線性表達能力的數學基礎
通用逼近定理(Cybenko, 1989):對任意連續函數,存在單層神經網絡使得:
深度優勢:深層網絡(如3層ReLU網絡)可指數級減少表示復雜函數所需的神經元數量(Telgarsky, 2016)。
2. 學習動態的微分幾何視角
權重空間中,損失函數曲面的曲率由Fisher信息矩陣
描述,SGD軌跡可視為黎曼流形上的測地線。
(二)分類體系擴展
1. 按信息處理范式分類
(1)同步更新網絡(如Hopfield):所有神經元狀態同時刷新,適合并行硬件實現;
(2)異步更新網絡(如Boltzmann機):隨機選擇神經元更新,模擬生物腦的非同步活動;
(3)事件驅動網絡(如SNN):僅在脈沖發放時傳遞信息,能耗比傳統網絡低2-3個數量級。
2. 按神經科學啟發程度分類
仿生層級 | 模型示例 | 生物機制映射 |
突觸層級 | STDP脈沖神經網絡 | Spike時序依賴可塑性 |
神經元層級 | 自適應閾值神經元 | 膜電位動態調節 |
網絡層級 | 小腦模型關節控制器 (CMAC) | 小腦浦肯野細胞結構 |
系統層級 | 深度強化學習架構 | 基底神經節獎勵機制 |
四、神經網絡研究的發展簡史
1. 仿生建模起源(1940s-1960s)
(1)M-P模型的哲學意義:首次提出“神經元即邏輯門”的計算主義思想,為認知科學提供理論基礎;
(2)感知機的雙重貢獻:Rosenblatt證明線性可分數據的學習收斂性,其硬件實現Mark I感知機使用400個光電管作為輸入單元。
2. 數學理論奠基(1970s-1980s)
(1)反向傳播的再發現:Werbos(1974)在博士論文中推導BP算法,Hinton團隊(1986)通過生物突觸可塑性類比重新詮釋,解決多層網絡訓練難題;
(2)統計力學介入:Ackley等人提出Boltzmann機,將網絡能量函數與物理系統自由能類比,引入模擬退火優化。
3. 工程化突破(1990s-2010s)
(1)LeNet-5的工程范式:首次完整實現“卷積 - 池化 - 全連接”流水線,其芯片實現(1998)處理速度達100幀/秒,推動嵌入式視覺發展;
(2)深度學習三駕馬車:Hinton的深度信念網絡(DBN)解決梯度消失,Bengio的貪心逐層預訓練,LeCun的卷積神經網絡,共同構建現代深度學習框架。
4. 交叉融合時代(2010s 至今)
(1)神經形態計算:Intel Loihi芯片模擬生物突觸動態,圖像識別能效比GPU高1000倍;
(2)腦科學逆向工程:Blue Brain計劃重構小鼠皮層微柱結構,其模型在癲癇模擬中預測放電傳播路徑準確率達89%。
五、重要神經網絡及研究成果
(一)深度信念網絡(DBN)
1. 逐層預訓練算法
受限玻爾茲曼機(RBM)堆疊:
(1)底層RBM學習輸入數據的邊緣分布p(v),隱藏層激活;
(2)上層RBM以底層隱藏層為輸入,學習高階特征表示,預訓練后通過BP微調。
2. 語音識別應用案例
在TIMIT數據集上,DBN模型將音素錯誤率從HMM的23%降至17%,關鍵創新在于利用無監督預訓練緩解標注數據不足問題。
(二)圖神經網絡(GNN)
1. 消息傳遞機制
通用框架:
其中square(正方形)為聚合函數(如均值、注意力),γ,?為非線性變換。
2. AlphaFold2 的蛋白質結構預測
網絡架構:
(1)輸入:氨基酸序列的圖表示(節點為殘基,邊為距離約束);
(2)核心模塊:Transformer與GNN結合的Evoformer,通過384層消息傳遞迭代優化殘基間三維坐標;
(3)輸出:原子坐標預測,GDT分數達92.4(接近實驗解析精度)。
(三)神經輻射場(NeRF)
1. 體素渲染原理
連續場景表示:
光線通過積分計算輻射亮度:
2. 動態 NeRF 的時空建模
擴展至4D場景(x,y,z,t),引入時間編碼層:
在自動駕駛場景重建中,實現30Hz的動態環境建模,定位誤差降低40%。
六、生物機制與人工模型的對偶性分析
生物特性 | 工程實現 | 理論橋梁 |
突觸可塑性 | 梯度下降權重更新 | Hebbian學習規則 |
神經調質調節 | 注意力機制 | 多巴胺獎勵信號 |
脈沖時間編碼 | 脈沖神經網絡 | 相位編碼理論 |
腦區功能分化 | 模塊化網絡架構 | 認知功能定位學說 |
七、總結與展望
從McCulloch-Pitts的邏輯神經元到AlphaFold2的千億參數模型,神經網絡的發展始終遵循“生物觀察→數學抽象→工程實現→反向啟發生物研究”的螺旋上升路徑。未來研究需突破以下瓶頸:
(1)可解釋性鴻溝:建立神經元激活模式與生物認知功能的映射關系,如通過鈣成像技術驗證人工特征與視覺皮層細胞響應的一致性;
(2)能效比天花板:借鑒神經元的脈沖稀疏編碼(大腦僅1%神經元同時放電),研發低功耗神經形態芯片;
(3)通用智能瓶頸:構建具備生物腦多模態整合、跨任務遷移能力的通用學習系統,其核心可能在于模擬海馬體的快速記憶編碼與皮層的緩慢鞏固過程。