DNNGP、DeepGS 和 DLGWAS模型構成對比

一、DNNGP

?DNNGP 是基于深度卷積神經網絡，這個結構包括一個輸入層，三個卷積層，一個批標準化層，兩個dropout層，一個平坦化層，一個 dense層。

dropout層：在神經網絡中,dropout層是一個非常有效的正則化技術,主要作用是防止模型過擬合。dropout層在訓練時會隨機將一些網絡單元暫時“屏蔽”,即將其輸出值設置為0。各個迭代訓練時屏蔽的單元是隨機的。這樣可以阻止單元間形成強依賴關系,網絡被迫更多地考慮不同的特征,而不是依賴少數關鍵單元的組合。在測試時,dropout層并不發生隨機屏蔽,而是保持全連接,但同時縮減所有權重(比如乘以0.5)。這等效于在訓練時迭代地訓練多個稍微不同的“子網絡”,測試時對它們進行平均。綜上,dropout在訓練時增加噪聲,測試時 ensemble,具有很好的正則化效果,可以顯著提高模型的泛化能力,防止過擬合。?Dropout比率通常設置在0.2到0.5之間。Ratio太小正則化效果弱,太大會損害模型擬合能力。需針對具體問題進行調參選擇合適的比率。Dropout已成為深度學習中標準的正則化技術之一。

Flattern層：在卷積神經網絡(CNN)中, Flatten 層的作用是將前一層的多維輸出(通常是3D 或 4D 張量)展平成1D 的向量,以便用于接下來的全連接層。其原理很簡單:假設前一層輸出為一個[batch_size, h, w, c] 的4D 張量,其中:- batch_size:一個批次中的樣本數?- h:特征圖高度- w:特征圖寬度- c: 特征圖通道數那么Flatten層會將其展平為[batch_size, h * w * c] 的2D 張量。幾何意義上是將多通道的2D特征圖打平成1D 向量。這個過程不包含任何可學習參數,僅僅是對數據形狀的改變。但意義非常重大:- 將多維輸入映射到一維,以適應全連接層的輸入。- 在網絡金字塔結構中,提高上下層網絡信息的融合效果。- 減少參數量,有利于訓練較大網絡。所以,Flatten層在CNN中起著極其重要的過渡作用,把卷積層提取出的特征映射到適合全連接層處理的形狀,是一個不可或缺的組成部分，所以根據其作用其放置的順序是永遠在dense層前的，Flattern層可以把卷積層提取出的特征映射到適合全連接層處理的形狀。

dense層：在神經網絡中,dense層又稱作全連接層(fully connected layer)。它的主要特點是:- 每個輸出節點都與上一層的所有節點有連接。- 對輸入數據做線性變換+激活函數。- 參數可學習,通過反向傳播更新。dense層的計算公式如下:output = activation(dot(input, weights) + bias)其中weights和bias都是可學習的參數。dense層主要用在網絡的最后幾層,將前面提取到的高級特征映射到最終的輸出,實現分類或回歸任務。相比卷積層extract低級到高級特征,dense層更強調分類決策。但過多的dense層也容易導致過擬合。所以一個典型的卷積神經網絡往往是:卷積層提取特征,全連接層分類決策。這種組合使模型能夠同時具備擬合復雜模式和實現決策判別的能力。Dense層作為“大腦”的角色,與前面的“感官”卷積層互相配合,共同完成圖像分類等視覺任務。

卷積層在網絡中的分布位置會對模型的效果產生一定的影響。1. 前置的卷積層可以提取低級特征,這樣后續層可以基于這些特征提取高級特征。2. 網絡深處的卷積層可以利用前面提取的特征進行更復雜的特征組合,表達更抽象的高級特征。3. 如果太多卷積層前置,可能導致過擬合和梯度消失。4. 如果太多卷積層在后面,可能無法有效提取低級特征,后面過于依賴前面的結果。5. 殘差網絡的跳過連接需要確保兩邊形狀一致,所以會影響卷積層的分布。6. 一般將最大池化層插入卷積層之間,用于縮小特征圖尺寸。7. 網絡后半段可以逐步減小特征圖大小,加速計算。所以通常的做法是:- 前半段較多小卷積核提取基礎特征
- 中間利用池化層減小特征圖
- 后半段卷積核數目增加,融合不同特征
- 殘差連接要注意兩側形狀需一致需要根據具體問題和網絡結構進行調整。適當實驗不同分布對效果的影響。

二、DeepGS

?DeepGS模型是采用具有 8-32-1 架構的深度學習卷積神經網絡架構組成的，這個模型包括一個輸入層，一個包括八個神經元的卷積層，一個采樣層，三個 dropout 層，兩個全連接層和一個輸出層。

DeepGS模型使用了以下結構的深度卷積神經網絡(CNN):- 輸入層:輸入原始數據(如圖像)。- 卷積層:1個卷積層,包含8個過濾器,用于從輸入中提取底層特征。- 采樣層:對卷積層輸出進行下采樣。- Dropout層:3個dropout層用于正則化。- 全連接層:2個全連接層,包含32個和1個神經元。- 輸出層:最終輸出預測的層。總結一下,該CNN的核心結構是:- 1個輸入層
- 1個卷積層(8個過濾器)?
- 1個采樣層
- 3個dropout層
- 2個全連接層(分別有32個和1個神經元)
- 1個輸出層這個8-32-1的整體架構,從原始輸入中提取特征,通過dropout正則化,然后將特征展平到全連接層進行預測。這是一個簡單有效的CNN架構,充分發揮了卷積層和全連接層的互補優勢,同時利用dropout防止過擬合。

卷積層中的過濾器個數(filter數)決定了網絡提取特征的能力。過濾器越多,可以學習到更豐富的特征表示。這個模型中的卷積層過濾器數比較少,只有8個,所以它的特征提取能力相對有限。這可能是由于數據量較小的限制。具體來說:
- 輸入數據通過每個過濾器進行卷積,獲取8個特征圖。
- 每個過濾器包含一組可學習的參數,用來提取某種特征。
- 8個過濾器就可以同時提取8種不同的特征。之后,這8個特征圖會作為卷積層的輸出,傳入后續層進行處理。雖然這個卷積層只有8個過濾器,但已足以對輸入提取一些底層特征,為后續的分類任務提供有效的特征表示。需要注意避免設置過多的過濾器數,導致過擬合。（在卷積神經網絡中,"convolutional layer (eight neurons)" 中的 "neurons" 對應到中文通常翻譯成“過濾器”。具體對應關系:- neurons -> 過濾器(filter)- convolutional layer -> 卷積層- eight neurons -> 8個過濾器所以,“one convolutional layer (eight neurons)” 的中文翻譯為:“1個卷積層(8個過濾器)”之所以這么翻譯,是因為每個過濾器包含一組卷積核,可以看作是一個特征提取器,功能類似于神經元。但考慮到“神經元”通常指全連接層中的節點,為避免混淆,在卷積層中一般將“neurons” 翻譯成 “過濾器”。）

采樣層：在卷積神經網絡中,采樣層(Pooling Layer)通常在卷積層之后,其主要功能是降采樣,有以下幾個作用:1. 減少數據量,降低模型參數,簡化計算量。2. 提取主要特征,去除不重要細節。3. 提高特征的空間不變性。常見的采樣方式有:- 最大值采樣(Max Pooling):取感受野內的最大值作為輸出。可以提取主要特征,去除不重要細節。- 平均值采樣(Average Pooling):取感受野內平均值作為輸出。保留背景信息,避免過度丟失信息。- 隨機采樣(Stochastic Pooling):隨機選取感受野內一個值作為輸出。增加模型的隨機性和多樣性。采樣層不改變數據通道數,只降低數據的空間尺寸。這樣可大大減少參數量,減輕過擬合,同時保留主要特征信息。所以采樣層也被稱作下采樣層,在CNN中起到補充卷積層的作用,共同構建有效的特征提取器。

最大值采樣的主要思想是:1. 將輸入特征圖分成多個小的感受野(通常是2x2或3x3)。2. 在每個感受野內找出最大激活值。3. 將該最大值作為感受野的輸出。這樣做可以提取感受野內的主要特征,同時去除細微特征。原因有兩個:1. 最大值激活通常對應最明顯的特征。2. 去除非最大值可以增加特征的空間移動不變性。舉個例子,在圖像處理中,最大值池化可以提取出圖像的明顯邊緣特征,而過濾掉細微紋理。所以您的理解是正確的,最大值采樣保留主要特征,移除不重要細節,這正是其作用所在。這種下采樣方式很好地補充了卷積層的特征提取能力。

采樣層在卷積神經網絡中是否可有可無,以及為何有的網絡中沒有采樣層,這需要考慮以下幾個方面:1. 采樣層的功能是降采樣,減少計算量和過擬合風險,但同時也會損失細節信息。2. 對小數據集或簡單任務,模型參數較少,過擬合風險不大,此時可以不用采樣層。3. 一些網絡設計加入了大量過濾器,可以通過增加深度來降低每個層的計算,此時也可以不用采樣層。例如VGGNet。4. 有的網絡使用稀疏連接來減小參數量,此時也可以不用采樣層,例如Inception Net。5. 對一些需要保留精細信息的任務,如語義分割,不能使用過多下采樣,需要減少或不使用采樣層。6. 采樣層也可以在中間層使用,而不是每層后面都使用。總之,采樣層是否使用以及使用多少,需要根據具體網絡結構和任務來權衡計算量、精度需求和過擬合風險。不是所有網絡和任務都一定需要采樣層,它可以是可有可無的。

感受野(Receptive Field)是一個非常重要的概念,用于描述卷積神經網絡中每個神經元的輸入范圍。具體來說,對于卷積層中的某一個特征圖(Feature Map)而言,它的感受野指的是在輸入層中,影響到該特征圖某一位置值的輸入區域。一般來說,卷積層的感受野shape是方形的,邊長等于卷積核尺寸。例如,如果卷積核是3x3,那么每個神經元的感受野shape就是3x3。隨著網絡層數的加深,后層神經元的感受野會逐步擴大,因為它受到前層特征圖的影響,所以其感受野等于自身卷積核尺寸與前層感受野大小的結合。感受野大小直接影響網絡提取信息的范圍和能力。開始層感受野小,只能提取局部信息;深層感受野大,可以提取全局信息。合適的感受野對卷積網絡至關重要。一般后期會逐漸擴大感受野,以獲取全局特征和上下文信息。這是卷積網絡能提取層次特征的重要原理。

三、DLGWAS

?該模塊包括一個輸入層，一個雙CNN層，其中包括兩個并行CNN分流，和一個匯總層將兩個CNN分支流合并。

獨熱編碼方式：輸入層包含對基因型進行onehot編碼后的輸入,表示方式更具體一點是:1. 假設基因型由N個基因位點組成,在每個位點上可能的等位基因形態有M種。2. 則對于每個樣本,其基因型可以表示為一個長度為N的向量,向量中的每個元素表示對應的位點上等位基因的類型。3. 對這個長度為N的向量進行onehot編碼,就是將其轉化為一個N行M列的二維矩陣。其中只有一列對應的元素值為1,其他均為0。4. 這樣onehot編碼后的矩陣就包含了該樣本基因型中各個位點的等位基因信息,即該基因型的完整信息。5. 將這個編碼矩陣作為輸入層的輸入,輸入到后續的雙CNN層中。輸入層對基因型進行了onehot編碼,作為模型的輸入,以提供完整的基因型信息。這種編碼方式很好地把基因型轉化為了計算機可處理的輸入格式。?

根據以上信息，我們將三種基因型和一個缺失值使用 one-hot 編碼方式進行編碼并作為輸入向量，每個標記被一個四維向量所代替，可以看如上圖所示對AA,Aa,aa的編碼方式的不同。?

?這一模塊包含輸入層、雙CNN層和匯總層。輸入層包含對基因型進行onehot編碼后的輸入。雙CNN層包含兩個并行的CNN分支流。匯總層則將兩個CNN分支流合并。輸入的編碼基因組標記同時傳入雙CNN層。在雙CNN層,我們應用了殘差學習的思想。殘差學習最初是為圖像識別和分類而提出,用于解決梯度消失問題。殘差連接是從前一層的快捷連接,被添加到身份映射中形成殘差映射。這種方法已被應用于預測蛋白質主鏈扭轉角和蛋白質接觸圖。總之,關鍵點有:?一熱編碼輸入基因型數據
- 使用雙CNN分支并行提取特征
- 匯總層融合雙分支特征
- 在CNN中使用殘差結構避免梯度消失

殘差結構的作用是讓深層網絡中的梯度可以直接傳遞至底層,避免在網絡深處造成的梯度消失。具體來說:1. 在CNN的兩個連續層之間,添加一個殘差塊(residual block)。2. 殘差塊包含一個身份映射(identity mapping),即跳過一個卷積層的直接連接。3. 通過這個直接連接,深層的梯度可以不經變換直接回傳到底層。4. 所以中間卷積層的權重更新不會因梯度消失而停止,起到防止梯度消失的作用。5. 這種殘差學習結構成功應用于很深的CNN網絡,避免了網絡深化時的梯度消失問題。6. 在基因序列建模中,當CNN網絡較深時,也可以考慮使用殘差結構來避免梯度消失。

身份映射(Identity Mapping)指在殘差網絡(ResNet)中,從前一層到后一層構建的直接連接路徑。其主要作用是:1. 在兩個連續的卷積層之間,跳過一個卷積層,建立一個直接的恒等映射(F(x) = x)。2. 這樣來自后層的梯度可以直接通過這個跳過連接回傳到前層。3. 不需要經過中間卷積層的鏈式法則,從而避免了中間層帶來的梯度衰減或累積誤差。4. 所以可以穩定地進行很深的網絡訓練,不會出現梯度消失或爆炸。5. 這個直接路徑實現了輸入和輸出之間的恒等映射,所以稱為“身份映射”。6. 整個模塊稱為殘差模塊,包含卷積層和身份映射兩條路徑。綜上,身份映射在殘差網絡中起到非常關鍵的作用,它保證了深層網絡中的梯度可以無障礙地直接回傳到淺層,防止梯度消失,是殘差網絡的核心概念之一。

四、應對梯度消失的解決方法

針對深層神經網絡中的梯度消失問題,常見的應對方法包括:

1. 殘差網絡(ResNet):使用跳過連接,實現梯度直傳。這是目前應對梯度消失最有效的結構。

2. 批標準化(BatchNormalization):通過標準化層內激活的分布,減緩梯度消失。

3. 權重初始化技巧:如Xavier初始化,可以保證各層梯度大小相近,延緩消失。

4. 非飽和激活函數:如ReLU,可以確保正區域梯度等于1,不會衰減。

5. 門控遞歸單元(GRU/LSTM):通過設計記憶單元結構,記錄長時依賴信息。

6. 梯度裁剪(Gradient Clipping):裁剪超出閾值的梯度,防止梯度爆炸。

7. 調整優化算法:如使用Adam優化器,可以自適應調整學習率,穩定梯度。

8. 加深網絡結構:增加層數而不改參數,稀釋每層的變化,緩解消失。

9. 特征標準化:標準化特征分布,可以一定程度抑制消失。綜合使用這些方法,可以顯著減輕深層神經網絡中的梯度消失問題,使其更穩定有效地訓練。