ncDLRES:一種基于動態LSTM和ResNet的非編碼RNA家族預測新方法

現有的計算方法主要分為兩類:第一類是通過學習序列或二級結構的特征來預測ncRNAs家族,另一類是通過同源序列之間的比對來預測ncRNAs家族。在第一類中,一些方法通過學習預測的二級結構特征來預測ncRNAs家族。二級結構預測的不準確性可能會導致這些方法的準確性較低。與之不同的是,ncRFP直接學習ncRNA序列的特征來預測ncRNAs家族。雖然ncRFP簡化了預測過程,提高了性能,但是由于其輸入數據的特征不完整,ncRFP的性能還有提升的空間。在第二類中,同源序列比對方法可以達到目前最高的性能。然而,由于需要對ncRNA序列進行一致性二級結構注釋,以及對假結建模的無能為力,限制了該方法的使用。

本文基于Dynamic LSTM (長短期記憶)和ResNet (殘差神經網絡)提出了一種通過學習序列特征來預測ncRNA家族的新方法" ncDLRES "。

ncDLRES基于Dynamic LSTM提取ncRNA序列的特征,然后通過ResNet進行分類。與同源序列比對方法相比,ncDLRES降低了對數據的要求,擴大了應用范圍。通過與第一類方法的比較,ncDLRES的性能有了很大的提高。

本文提出了一種基于動態深度學習模型預測ncRNAs家族的新方法" ncDLRES ",ncRNAs具有三級結構:一級結構、二級結構和三級結構,分別對應ncRNAs序列、二維平面結構和三維空間結構。每個ncRNA的層次結構都包含家族特征,可以作為深度學習模型的輸入。由于ncDLRES是根據高通量技術精確獲得的一級結構,因此將ncRNA序列作為輸入數據,根據其一級結構特征對ncRNA進行分類,可以有效提取最準確的家族特征,提高預測性能。在靜態深度學習模型中,需要將輸入數據填充或截斷成相同的格式,這會增加噪聲或損失特征。因此,ncDLRES采用動態深度學習模型,可以將不同長度的ncRNA序列作為輸入數據,保留nc RNA序列的完整特征。ncDLRES包括Dynamic LSTM和ResNet。Dynamic LSTM負責將不同長度的ncRNA編碼成相同格式的數據,而ResNet傾向于對編碼后的數據進行分類。為了提高性能,ncDLRES還采用了注意力機制,將算法注意力集中在重要的片段上。與通過學習二級結構特征的方法相比,ncDLRES簡化了預測過程,同時與ncRFP不同的是,該方法保留了輸入數據的完整性。與同源序列比對方法相比,ncDLRES只需要一級結構即可識別ncRNAs家族,降低了數據要求,擴大了應用范圍。

材料和方法

數據采集處理

本文使用的數據來自于最近的兩篇文獻,該文獻從Rfam數據庫中收集。包含microRNAs、5S_rRNA、5.8 S_rRNA、核酶、CD-BOX、HACA-BOX、scaRNA、tRNA、Intron_GpI、Intron_GpII、IRES、leader和核糖開關等13個不同家族的非冗余ncRNA序列。本文采用十折交叉驗證來測試ncDLRES的性能。每個家族的ncRNA序列被分為10等份。其中,從每個家庭中隨機選取一部分作為測試集,其余部分作為訓練集。這樣,所有的ncRNA序列都落入10倍的訓練集和測試集。為了便于ncRNA序列輸入到ncDLRES中,ncDLRES將每個堿基編碼成一個向量,ncDLRES采用1×8和1×4的方法對堿基進行編碼,選擇效果較好的作為最終的編碼方式。表2為基與碼之間的轉換規則。A (腺嘌呤)、U (尿嘧啶)、G (鳥嘌呤)和C (胞嘧啶)是四種常見的堿基編碼規則,而' N '代表一些稀有堿基。

在60 %的十折交叉中,1 × 8的正確率高于1 × 4,1 × 8的平均正確率也高于1 × 4。因此,ncDLRES選擇1 × 8的編碼方式,將每個nc RNA序列編碼為L × 8的( L為ncRNA序列長度)矩陣。

方法

在靜態深度學習模型中,輸入數據應該具有相同的格式。需要對輸入數據進行加墊或截斷處理,使得輸入噪聲增大或特征丟失。與靜態模型不同,ncDLRES是一種新穎的動態深度學習模型,直接將不同長度的ncRNA序列作為輸入,從而進一步保持輸入數據的完整性,使得該方法提取的特征更加完整。ncDLRES由動態LSTM 、Attention Mechanism 和ResNet三部分組成。Dynamic LSTM可以記錄不同長度ncRNA的上下文信息并對其進行編碼,因此選擇它來提取完整的ncRNA序列特征并輸出相同格式的數據注意力機制可以使神經網絡專注于輸入數據的重要特征,因此選擇將方法專注于ncRNAs序列的重要片段ResNet可以避免神經網絡中常見的梯度消失和爆炸問題,易于訓練,性能優異。因此,選擇對其他兩部分的輸出進行分類。

動態LSTM和注意力機制:循環神經網絡是人工神經網絡的一種,可以記錄上下文信息。它的神經元按照時間順序連接,可以處理可變長度的輸入數據。由于ncRNA序列是上下文敏感的文本序列,因此循環神經網絡是處理ncRNA序列的最佳網絡。由于存儲空間有限,傳統的循環神經網絡無法有效地記錄長距離依賴信息。隨著輸入數據長度的增加,傳統的循環神經網絡由于無法有效地記錄特征信息而喪失了學習能力。LSTM是一種特殊的循環神經網絡,通過特殊的門機制可以有效解決文本長距離依賴的問題。LSTM包含3個門:輸入門、遺忘門和輸出門。具體來說,輸入門決定記錄哪些信息來更新LSTM隱藏狀態。遺忘門用于找出每一步應該丟棄哪些無用的信息,而輸出門基于LSTM狀態識別輸出信息。此外,當這三個門高效組合時,LSTM可以以較低的成本學習長距離依賴信息。LSTM可以通過以下公式(式中: 7 ~ 11 )來執行:

其中σ為logistic sigmoid函數,i,f,o,c分別為輸入門、遺忘門、輸出門和細胞向量,且均與隱向量h同維。同時,w表示權重矩陣,b表示偏置向量。式(7)是輸入門的計算公式,等式。(8)是遺忘門的計算公式,即公式(9)是細胞狀態的計算公式,公式(10)是輸出門的計算公式,即公式(11)是隱藏狀態的計算公式。

由于ncRNA序列長度的多樣性,在采用靜態深度學習模型對數據進行處理時,通常采用兩種方法對數據進行預處理。一種是將所有序列按照最大長度進行填充,這樣不僅增加了方法的運行時間,而且會因為給數據添加噪聲而降低準確率;另一種是將所有序列截取成相同長度的序列,這樣會造成序列特征的丟失,影響預測精度。因此,靜態模型無法以最高效的方式解決ncRNAs家族預測問題。本文采用單層的Dynamic LSTM來解決序列多樣性問題。在Dynamic LSTM中,所有的ncRNA序列都以其真實長度輸入到模型中,這樣可以完整地提取和學習它們的特征,從而提高家族預測的準確性。此外,每個基生成一個包含上下文信息的隱藏狀態,即為Dynamic LSTM的輸出數據。同一家族的ncRNA會有相似的關鍵片段。如果該方法更加關注這些重要的片段,則可以更有效地預測ncRNAs家族。模仿人腦注意力模式提出的注意力機制可以高效地完成這一任務。注意力機制并不是固定的神經網絡結構,而是通過調整注意力的權重來增加有效信息的權重,弱化無效信息的權重。本文將注意力機制引入到ncDLRES中。通過學習Dynamic LSTM的輸出,ncDLRES聚焦于nc RNAs家族片段。圖5是動態LSTM和注意力機制的示意圖。

圖5動態LSTM和注意力機制的示意圖。將不同長度的序列編碼成矩陣作為Dynamic LSTM的輸入。Attention機制將重要片段的隱藏狀態以相同的格式整合到輸出中

ResNet:ResNet 是深度卷積神經網絡的一種特殊形式。深度卷積神經網絡取得了一系列突破性進展,尤其是在二維數據的識別和分類方面。研究人員發現,層數對深度卷積神經網絡至關重要,可以幫助豐富特征,提高準確率。卷積神經網絡隨著神經元的增加會逐漸達到飽和,在飽和站的精度最高。因此,淺層卷積神經網絡的準確率在達到飽和前會隨著深度的增加而增加,達到飽和后會隨著深度的增加而降低。當一個神經網絡處于飽和狀態時,如果想要增加網絡的深度并保持最高的精度,新增加的層必須是恒等映射層,或者換句話說,網絡需要學習H ( x ) = x。在反向傳播中,梯度會隨著網絡層數的增加而消失或爆炸。因此,很難完成身份映射學習。因此,單純地提高神經網絡的深度已經不能滿足性能提升的要求。He在2015年提出了ResNet來解決神經網絡退化的問題。ResNet包含很多殘差塊,由兩層卷積神經網絡組成。與傳統的卷積神經網絡不同,ResNet采用捷徑連接的方式連接輸入層和輸出層,使得殘差塊的映射輸出為H ( x ) = F ( x ) + x。在殘差塊中,輸入數據x不僅是輸入層的輸入,還與輸出層的映射相結合,形成殘差塊的輸出。實驗證明,新增加的層在ResNet網絡達到飽和后需要學習F ( x ) = 0,比傳統的卷積層簡單得多。

本文根據卷積核的維度設計了一種包含3種殘差塊的新型ResNet,并將其用于ncDLRES中。對于殘差塊,采用3 × 3的卷積核,其維度分別為16、32、64。由于ResNet適合處理二維數據,因此首先將Dynamic LSTM和Attention Mechanism的輸出轉化為矩陣作為ResNet的輸入。在ResNet的網絡中,與現有的ResNet類似,使用一個卷積層來處理輸入數據。之后,網絡采用6個殘差塊,維度分別為16、16、32、32、64、64。經過殘差塊后,輸出數據為64維數據。然后,使用全局平均池化層將輸出數據池化成1 × 64個向量。最后,使用全連接層將池化數據分類到ncRNAs家族中。圖6是ResNet的原理圖。

圖6 ResNet示意圖。Conv是卷積神經網絡層;Relu為激活函數,Avg Pool為全局池化層

學習結果與呈現

在模型學習過程中,將所有的ncRNAs數據處理成十折交叉驗證的訓練集和測試集,ncDLRES在每折訓練集和測試集中訓練和測試100次。圖1是訓練和測試的每個歷元的十折交叉驗證的平均精度和損失。通過交叉熵損失函數(式( 1 ) )計算損失。從圖中可以看出,雖然曲線有波動,這可能是由于較高的學習率造成的,但沒有出現過擬合或欠擬合的現象,并且在最后的歷元中測試集的準確率和損失都比較穩定,說明該模型能夠勝任ncRNAs家族預測的任務。

討論

研究表明,同一家族的ncRNA具有相似的功能。因此,可以通過預測ncRNAs家族來初步確定它們的功能。在高通量時代,費時費力的生物實驗方法已經不能滿足科學研究的需求。在這種情況下,需要使用計算方法來預測ncRNAs家族。由于難以獲得準確的二級結構,基于二級結構特征的方法性能較低。雖然基于一級結構特征的ncRFP的性能優于基于二級結構特征的方法,但是由于輸入特征的丟失,并不能達到最佳的性能。本文提出了一種基于動態深度學習模型預測ncRNA家族的新方法" ncDLRES "。它的輸入是ncRNA序列,其特征比基于二級結構的方法更準確,并且ncDLRES使用了動態深度學習模型,避免了ncRFP的輸入特征丟失。此外,ncDLRES只需要nc RNA序列即可預測ncRNAs家族,與Internal的相比減少了對數據的需求。因此,它不僅可以應用于具有一致二級結構注釋數據的家族,還可以應用于只有序列數據、結構注釋數據不準確或有假結數據的家族,擴大了適用范圍,避免了無法對假結進行建模的缺陷。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896017.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896017.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896017.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

愛普生 SG-8101CE 可編程晶振在筆記本電腦的應用

在筆記本電腦的精密架構中,每一個微小的元件都如同精密儀器中的齒輪,雖小卻對整體性能起著關鍵作用。如今的筆記本電腦早已不再局限于簡單的辦公用途,其功能愈發豐富多樣。從日常輕松的文字處理、網頁瀏覽,到專業領域中對圖形處理…

SPRING10_getBean源碼詳細解讀、流程圖

文章目錄 ①. getBean方法的入口-DefaultListableBeanFactory②. DefaultListableBeanFactory調用getBean③. 進入到doGetBean方法④. getSingleton三級緩存方法⑤. getSingleton()方法分析⑥. createBean創建對象方法⑦. 對象創建、屬性賦值、初始化⑧. getBean最詳細流程圖 ①…

IDEA中查詢Maven項目的依賴樹

在Maven項目中,查看項目的依賴樹是一個常見的需求,特別是當你需要了解項目中直接或間接依賴了哪些庫及其版本時。你可以通過命令行使用Maven的dependency:tree插件來做到這一點。這個命令會列出項目中所有依賴的樹狀結構。 打開idea項目的終端&#xff…

深入xtquant:財務數據獲取與應用的實戰指南

深入xtquant:財務數據獲取與應用的實戰指南 在量化交易領域,雖然技術分析和市場情緒分析占據了主導地位,但財務數據作為評估公司基本面的重要依據,同樣不可或缺。xtquant作為一個強大的Python庫,提供了便捷的接口來獲…

windows 安裝 stable diffusion

在windows上安裝 stable diffusion,如果windows沒有nvidia顯卡,想只使用CPU可在webui-user.bat中添加命令 set COMMANDLINE_ARGS--no-half --skip-torch-cuda-test 可正常使用stable diffusion,但速度較慢

Kubernetes控制平面組件:APIServer 基于 引導Token 的認證機制

云原生學習路線導航頁(持續更新中) kubernetes學習系列快捷鏈接 Kubernetes架構原則和對象設計(一)Kubernetes架構原則和對象設計(二)Kubernetes架構原則和對象設計(三)Kubernetes控…

DeepSeek 助力 Vue 開發:打造絲滑的縮略圖列表(Thumbnail List)

前言:哈嘍,大家好,今天給大家分享一篇文章!并提供具體代碼幫助大家深入理解,徹底掌握!創作不易,如果能幫助到大家或者給大家一些靈感和啟發,歡迎收藏關注哦 💕 目錄 Deep…

DeepSeek寫俄羅斯方塊手機小游戲

DeepSeek寫俄羅斯方塊手機小游戲 提問 根據提的要求,讓DeepSeek整理的需求,進行提問,內容如下: 請生成一個包含以下功能的可運行移動端俄羅斯方塊H5文件: 核心功能要求 原生JavaScript實現,適配手機屏幕 …

百問網(100ask)的IMX6ULL開發板的以太網控制器(MAC)與物理層(PHY)芯片(LAN8720A)連接的原理圖分析(包含各引腳說明以及工作原理)

前言 本博文承接博文 https://blog.csdn.net/wenhao_ir/article/details/145663029 。 本博文和博文 https://blog.csdn.net/wenhao_ir/article/details/145663029 的目錄是找出百問網(100ask)的IMX6ULL開發板與NXP官方提供的公板MCIMX6ULL-EVK(imx6ull14x14evk)在以太網硬件…

QT開發技術 【opencv圖片裁剪,平均哈希相似度判斷,以及獲取游戲窗口圖片】

一、圖片裁剪 int CJSAutoWidget::GetHouseNo(cv::Mat matMap) {cv::imwrite(m_strPath "/Data/map.png", matMap);for (int i 0; i < 4; i){for (int j 0; j < 6; j){// 計算當前子區域的矩形cv::Rect roi(j * 20, i * 17, 20, 17);// 提取子區域cv::Mat …

TiDB 是一個分布式 NewSQL 數據庫

TiDB 是一個分布式 NewSQL 數據庫。它支持水平彈性擴展、ACID 事務、標準 SQL、MySQL 語法和 MySQL 協議&#xff0c;具有數據強一致的高可用特性&#xff0c;是一個不僅適合 OLTP 場景還適合 OLAP 場景的混合數據庫。 TiDB是 PingCAP公司自主設計、研發的開源分布式關系型數據…

請解釋 Vue 中的生命周期鉤子,不同階段觸發的鉤子函數及其用途是什么?

vue生命周期鉤子詳解&#xff08;Vue 3版本&#xff09; 一、生命周期階段劃分 Vue組件的生命周期可分為四大階段&#xff0c;每個階段對應特定鉤子函數&#xff1a; 創建階段&#xff1a;初始化實例并準備數據掛載階段&#xff1a;將虛擬DOM渲染為真實DOM更新階段&#xff…

計算機專業知識【深入理解子網中的特殊地址:為何 192.168.0.1 和 192.168.0.255 不能隨意分配】

在計算機網絡的世界里&#xff0c;IP 地址是設備進行通信的關鍵標識。對于常見的子網&#xff0c;如 192.168.0.0/24&#xff0c;我們可能會疑惑為何某些地址不能分配給主機使用。接下來&#xff0c;我們就以 192.168.0.0/24 為例&#xff0c;詳細解釋為何 192.168.0.1 和 192.…

軟件架構設計:軟件工程

一、軟件工程概述 軟件工程的定義 軟件工程是應用系統化、規范化、可量化的方法開發、運行和維護軟件。 軟件工程的目標 提高軟件質量、降低開發成本、縮短開發周期。 軟件生命周期 瀑布模型&#xff1a;需求分析→設計→編碼→測試→維護。迭代模型&#xff1a;分階段迭代開…

mysql 學習15 SQL優化,插入數據優化,主鍵優化,order by優化,group by 優化,limit 優化,count 優化,update 優化

插入數據優化&#xff0c; insert 優化&#xff0c; 批量插入&#xff08;一次不超過1000條&#xff09; 手動提交事務 主鍵順序插入 load 從本地一次插入大批量數據&#xff0c; 登陸時 mysql --local-infile -u root -p load data local infile /root/sql1.log into table tb…

達夢數據庫針對慢SQL,收集統計信息清除執行計劃緩存

前言&#xff1a;若遇到以下場景&#xff0c;大概率是SQL走錯了執行計劃&#xff1a; 1、一條SQL在頁面上查詢特別慢&#xff0c;但拿到數據庫終端執行特別快 2、一條SQL在某種檢索條件下查詢特別慢&#xff0c;但拿到數據庫終端執行特別快 此時&#xff0c;可以嘗試按照下述步…

使用JWT實現微服務鑒權

目錄 一、微服務鑒權 1、思路分析 2、系統微服務簽發token 3、網關過濾器驗證token 4、測試鑒權功能 前言&#xff1a; 隨著微服務架構的廣泛應用&#xff0c;服務間的鑒權與安全通信成為系統設計的核心挑戰之一。傳統的集中式會話管理在分布式場景下面臨性能瓶頸和擴展性…

廣西壯族自治區園區投促中心黨委書記陶德文率團到訪深蘭科技

2月16日&#xff0c;廣西壯族自治區園區投促中心黨委書記、主任&#xff0c;自治區園區辦黨組成員陶德文率團來到深蘭科技集團上海總部考察調研&#xff0c;并與深蘭科技集團創始人、董事長陳海波等集團管理層座談交流&#xff0c;雙方圍繞深蘭科技人工智能項目落地廣西的相關事…

基于UnrealEngine(UE5)的太空探索

視頻部分可參見&#xff1a;https://www.bilibili.com/video/BV1JWA8eSEVg/ 中國 天宮號 空間站 人造衛星可視化 星鏈衛星可視化 小行星分布及運動軌跡可視化 月球基地 可視化 八大行星軌道 太陽系宜居帶可視化 阿波羅8號拍攝的地球升起 谷神星模型及軌跡可視化 星座可視化 十…