現有的計算方法主要分為兩類:第一類是通過學習序列或二級結構的特征來預測ncRNAs家族,另一類是通過同源序列之間的比對來預測ncRNAs家族。在第一類中,一些方法通過學習預測的二級結構特征來預測ncRNAs家族。二級結構預測的不準確性可能會導致這些方法的準確性較低。與之不同的是,ncRFP直接學習ncRNA序列的特征來預測ncRNAs家族。雖然ncRFP簡化了預測過程,提高了性能,但是由于其輸入數據的特征不完整,ncRFP的性能還有提升的空間。在第二類中,同源序列比對方法可以達到目前最高的性能。然而,由于需要對ncRNA序列進行一致性二級結構注釋,以及對假結建模的無能為力,限制了該方法的使用。
本文基于Dynamic LSTM (長短期記憶)和ResNet (殘差神經網絡)提出了一種通過學習序列特征來預測ncRNA家族的新方法" ncDLRES "。
ncDLRES基于Dynamic LSTM提取ncRNA序列的特征,然后通過ResNet進行分類。與同源序列比對方法相比,ncDLRES降低了對數據的要求,擴大了應用范圍。通過與第一類方法的比較,ncDLRES的性能有了很大的提高。
本文提出了一種基于動態深度學習模型預測ncRNAs家族的新方法" ncDLRES ",ncRNAs具有三級結構:一級結構、二級結構和三級結構,分別對應ncRNAs序列、二維平面結構和三維空間結構。每個ncRNA的層次結構都包含家族特征,可以作為深度學習模型的輸入。由于ncDLRES是根據高通量技術精確獲得的一級結構,因此將ncRNA序列作為輸入數據,根據其一級結構特征對ncRNA進行分類,可以有效提取最準確的家族特征,提高預測性能。在靜態深度學習模型中,需要將輸入數據填充或截斷成相同的格式,這會增加噪聲或損失特征。因此,ncDLRES采用動態深度學習模型,可以將不同長度的ncRNA序列作為輸入數據,保留nc RNA序列的完整特征。ncDLRES包括Dynamic LSTM和ResNet。Dynamic LSTM負責將不同長度的ncRNA編碼成相同格式的數據,而ResNet傾向于對編碼后的數據進行分類。為了提高性能,ncDLRES還采用了注意力機制,將算法注意力集中在重要的片段上。與通過學習二級結構特征的方法相比,ncDLRES簡化了預測過程,同時與ncRFP不同的是,該方法保留了輸入數據的完整性。與同源序列比對方法相比,ncDLRES只需要一級結構即可識別ncRNAs家族,降低了數據要求,擴大了應用范圍。
材料和方法
數據采集處理
本文使用的數據來自于最近的兩篇文獻,該文獻從Rfam數據庫中收集。包含microRNAs、5S_rRNA、5.8 S_rRNA、核酶、CD-BOX、HACA-BOX、scaRNA、tRNA、Intron_GpI、Intron_GpII、IRES、leader和核糖開關等13個不同家族的非冗余ncRNA序列。本文采用十折交叉驗證來測試ncDLRES的性能。每個家族的ncRNA序列被分為10等份。其中,從每個家庭中隨機選取一部分作為測試集,其余部分作為訓練集。這樣,所有的ncRNA序列都落入10倍的訓練集和測試集。為了便于ncRNA序列輸入到ncDLRES中,ncDLRES將每個堿基編碼成一個向量,ncDLRES采用1×8和1×4的方法對堿基進行編碼,選擇效果較好的作為最終的編碼方式。表2為基與碼之間的轉換規則。A (腺嘌呤)、U (尿嘧啶)、G (鳥嘌呤)和C (胞嘧啶)是四種常見的堿基編碼規則,而' N '代表一些稀有堿基。
在60 %的十折交叉中,1 × 8的正確率高于1 × 4,1 × 8的平均正確率也高于1 × 4。因此,ncDLRES選擇1 × 8的編碼方式,將每個nc RNA序列編碼為L × 8的( L為ncRNA序列長度)矩陣。
方法
在靜態深度學習模型中,輸入數據應該具有相同的格式。需要對輸入數據進行加墊或截斷處理,使得輸入噪聲增大或特征丟失。與靜態模型不同,ncDLRES是一種新穎的動態深度學習模型,直接將不同長度的ncRNA序列作為輸入,從而進一步保持輸入數據的完整性,使得該方法提取的特征更加完整。ncDLRES由動態LSTM 、Attention Mechanism 和ResNet三部分組成。Dynamic LSTM可以記錄不同長度ncRNA的上下文信息并對其進行編碼,因此選擇它來提取完整的ncRNA序列特征并輸出相同格式的數據。注意力機制可以使神經網絡專注于輸入數據的重要特征,因此選擇將方法專注于ncRNAs序列的重要片段。ResNet可以避免神經網絡中常見的梯度消失和爆炸問題,易于訓練,性能優異。因此,選擇對其他兩部分的輸出進行分類。
動態LSTM和注意力機制:循環神經網絡是人工神經網絡的一種,可以記錄上下文信息。它的神經元按照時間順序連接,可以處理可變長度的輸入數據。由于ncRNA序列是上下文敏感的文本序列,因此循環神經網絡是處理ncRNA序列的最佳網絡。由于存儲空間有限,傳統的循環神經網絡無法有效地記錄長距離依賴信息。隨著輸入數據長度的增加,傳統的循環神經網絡由于無法有效地記錄特征信息而喪失了學習能力。LSTM是一種特殊的循環神經網絡,通過特殊的門機制可以有效解決文本長距離依賴的問題。LSTM包含3個門:輸入門、遺忘門和輸出門。具體來說,輸入門決定記錄哪些信息來更新LSTM隱藏狀態。遺忘門用于找出每一步應該丟棄哪些無用的信息,而輸出門基于LSTM狀態識別輸出信息。此外,當這三個門高效組合時,LSTM可以以較低的成本學習長距離依賴信息。LSTM可以通過以下公式(式中: 7 ~ 11 )來執行:
其中σ為logistic sigmoid函數,i,f,o,c分別為輸入門、遺忘門、輸出門和細胞向量,且均與隱向量h同維。同時,w表示權重矩陣,b表示偏置向量。式(7)是輸入門的計算公式,等式。(8)是遺忘門的計算公式,即公式(9)是細胞狀態的計算公式,公式(10)是輸出門的計算公式,即公式(11)是隱藏狀態的計算公式。
由于ncRNA序列長度的多樣性,在采用靜態深度學習模型對數據進行處理時,通常采用兩種方法對數據進行預處理。一種是將所有序列按照最大長度進行填充,這樣不僅增加了方法的運行時間,而且會因為給數據添加噪聲而降低準確率;另一種是將所有序列截取成相同長度的序列,這樣會造成序列特征的丟失,影響預測精度。因此,靜態模型無法以最高效的方式解決ncRNAs家族預測問題。本文采用單層的Dynamic LSTM來解決序列多樣性問題。在Dynamic LSTM中,所有的ncRNA序列都以其真實長度輸入到模型中,這樣可以完整地提取和學習它們的特征,從而提高家族預測的準確性。此外,每個基生成一個包含上下文信息的隱藏狀態,即為Dynamic LSTM的輸出數據。同一家族的ncRNA會有相似的關鍵片段。如果該方法更加關注這些重要的片段,則可以更有效地預測ncRNAs家族。模仿人腦注意力模式提出的注意力機制可以高效地完成這一任務。注意力機制并不是固定的神經網絡結構,而是通過調整注意力的權重來增加有效信息的權重,弱化無效信息的權重。本文將注意力機制引入到ncDLRES中。通過學習Dynamic LSTM的輸出,ncDLRES聚焦于nc RNAs家族片段。圖5是動態LSTM和注意力機制的示意圖。

ResNet:ResNet 是深度卷積神經網絡的一種特殊形式。深度卷積神經網絡取得了一系列突破性進展,尤其是在二維數據的識別和分類方面。研究人員發現,層數對深度卷積神經網絡至關重要,可以幫助豐富特征,提高準確率。卷積神經網絡隨著神經元的增加會逐漸達到飽和,在飽和站的精度最高。因此,淺層卷積神經網絡的準確率在達到飽和前會隨著深度的增加而增加,達到飽和后會隨著深度的增加而降低。當一個神經網絡處于飽和狀態時,如果想要增加網絡的深度并保持最高的精度,新增加的層必須是恒等映射層,或者換句話說,網絡需要學習H ( x ) = x。在反向傳播中,梯度會隨著網絡層數的增加而消失或爆炸。因此,很難完成身份映射學習。因此,單純地提高神經網絡的深度已經不能滿足性能提升的要求。He在2015年提出了ResNet來解決神經網絡退化的問題。ResNet包含很多殘差塊,由兩層卷積神經網絡組成。與傳統的卷積神經網絡不同,ResNet采用捷徑連接的方式連接輸入層和輸出層,使得殘差塊的映射輸出為H ( x ) = F ( x ) + x。在殘差塊中,輸入數據x不僅是輸入層的輸入,還與輸出層的映射相結合,形成殘差塊的輸出。實驗證明,新增加的層在ResNet網絡達到飽和后需要學習F ( x ) = 0,比傳統的卷積層簡單得多。
本文根據卷積核的維度設計了一種包含3種殘差塊的新型ResNet,并將其用于ncDLRES中。對于殘差塊,采用3 × 3的卷積核,其維度分別為16、32、64。由于ResNet適合處理二維數據,因此首先將Dynamic LSTM和Attention Mechanism的輸出轉化為矩陣作為ResNet的輸入。在ResNet的網絡中,與現有的ResNet類似,使用一個卷積層來處理輸入數據。之后,網絡采用6個殘差塊,維度分別為16、16、32、32、64、64。經過殘差塊后,輸出數據為64維數據。然后,使用全局平均池化層將輸出數據池化成1 × 64個向量。最后,使用全連接層將池化數據分類到ncRNAs家族中。圖6是ResNet的原理圖。

學習結果與呈現
在模型學習過程中,將所有的ncRNAs數據處理成十折交叉驗證的訓練集和測試集,ncDLRES在每折訓練集和測試集中訓練和測試100次。圖1是訓練和測試的每個歷元的十折交叉驗證的平均精度和損失。通過交叉熵損失函數(式( 1 ) )計算損失。從圖中可以看出,雖然曲線有波動,這可能是由于較高的學習率造成的,但沒有出現過擬合或欠擬合的現象,并且在最后的歷元中測試集的準確率和損失都比較穩定,說明該模型能夠勝任ncRNAs家族預測的任務。
討論
研究表明,同一家族的ncRNA具有相似的功能。因此,可以通過預測ncRNAs家族來初步確定它們的功能。在高通量時代,費時費力的生物實驗方法已經不能滿足科學研究的需求。在這種情況下,需要使用計算方法來預測ncRNAs家族。由于難以獲得準確的二級結構,基于二級結構特征的方法性能較低。雖然基于一級結構特征的ncRFP的性能優于基于二級結構特征的方法,但是由于輸入特征的丟失,并不能達到最佳的性能。本文提出了一種基于動態深度學習模型預測ncRNA家族的新方法" ncDLRES "。它的輸入是ncRNA序列,其特征比基于二級結構的方法更準確,并且ncDLRES使用了動態深度學習模型,避免了ncRFP的輸入特征丟失。此外,ncDLRES只需要nc RNA序列即可預測ncRNAs家族,與Internal的相比減少了對數據的需求。因此,它不僅可以應用于具有一致二級結構注釋數據的家族,還可以應用于只有序列數據、結構注釋數據不準確或有假結數據的家族,擴大了適用范圍,避免了無法對假結進行建模的缺陷。