目錄
1.?SMILES字符串
2. 利用圖馬爾可夫神經網絡(GMNN)來進行關聯性預測
3. 圖池化算法
4.?合成致死性(SL)預測
5. 蛋白質溶解度研究
6. 藥物疾病關聯預測(DAA)
7. tRNA-疾病關系預測
8.異構體功能預測
9. 蛋白質配體親和力預測
10.?InterProScan
?痛苦地讀論文。。。for 。。。。
持續更新中? :)
1.?SMILES字符串
參考:
SMILES:一種簡化的分子語言_smiles格式-CSDN博客
如何將化學分子SMILES字符串轉化為Pytorch圖數據結構——ESOL分子水溶性數據集解析_smiles string-CSDN博客
?SMILES,全稱是Simplified Molecular Input Line Entry System,是一種用于輸入和表示分子反應的線性符號,是一種ASCII編碼。
SMILES強大的一點就是存在一種唯一的SMILES,使用標準的SMILES,分子的名字和結構是同義的,在唯一的SMILES里面,這也是通用的,世界上任何使用SMILES命名分子的人都會選擇完全相同的名字。
2. 利用圖馬爾可夫神經網絡(GMNN)來進行關聯性預測
例如:
采用圖馬爾可夫神經網絡(GMNN)算法來預測未知的circRNA-疾病關聯
論文:
GMNN2CD: identification of circRNA–disease associations based on variational inference and graph Markov neural networks
該論文摘要:通過對循環RNA(circRNAs)的特性和功能進行分析,人們意識到它們在疾病中發揮著關鍵作用。探索circRNAs與疾病之間的關系對于尋找疾病的病因病理和治療具有深遠意義。然而,僅通過生物技術學習新的關聯是低效的。因此,作者提出了一種計算方法,GMNN2CD,它采用圖馬爾可夫神經網絡(GMNN)算法來預測未知的circRNA-疾病關聯。首先,利用已驗證的關聯,作者計算疾病的語義相似性和高斯交互特征核相似性(GIPs),以及circRNA的GIPs,然后將它們合并形成統一的描述符。接著,GMNN2CD采用融合特征變分映射自編碼器來學習深層特征,并使用基于已知關聯的標簽傳播映射自編碼器來傳播標簽。基于變分推斷,GMNN交替訓練增強了GMNN2CD從低維表示中獲取高效高維特征的能力。最后,對五個基準數據集進行的5倍交叉驗證表明,GMNN2CD優于最先進的方法。此外,案例研究表明,GMNN2CD能夠檢測潛在的關聯。
3. 圖池化算法
參考:
GNN中的Graph Pooling-CSDN博客
相關論文:
Struct2GO: protein function prediction based on graph pooling algorithm and AlphaFold2 structure information
論文摘要:近年來,蛋白質結構預測取得了突破性進展,DeepMind團隊的AlphaFold2模型將蛋白質結構預測的準確性提高到了原子水平。目前,基于深度學習的蛋白質功能預測模型通常從蛋白質序列中提取特征,并將其與蛋白質-蛋白質相互作用網絡結合以獲得良好的結果。然而,對于不在蛋白質-蛋白質相互作用網絡中的新序列蛋白質,這種模型無法進行有效的預測。為了解決這個問題,本文提出了Struct2GO模型,它結合了蛋白質結構和序列數據,以提高蛋白質功能預測的精度和模型的普適性。作者提出了一種新的基于圖池化算法和AlphaFold2結構信息的蛋白質功能預測器(protein function prediction based on graph pooling algorithm and AlphaFold2 structure information)。通過圖表示學習獲取蛋白質結構中的氨基酸殘基嵌入,利用基于自注意機制的圖池化算法獲取整個圖結構特征,并將其與從蛋白質語言模型中獲取的序列特征進行融合。結果表明,與傳統的基于蛋白質序列的功能預測模型相比,Struct2GO模型取得了更好的結果。Gene Ontology(GO)數據庫是目前最常用的描述基因和蛋白質功能的數據庫。本文利用蛋白質結構信息對GO數據庫中的蛋白質功能進行預測,因而稱為Struct2GO。作者通過圖表示學習獲得蛋白質結構中的氨基酸殘基嵌入,利用基于自注意力機制的圖池化算法獲得整個圖結構特征,并將其與蛋白質語言模型獲得的序列特征融合。結果表明,與傳統的基于蛋白質序列的功能預測模型相比,Struct2GO模型取得了更好的結果。具體而言,Struct2GO采用圖池化模型從AlphaFold2預測的三維蛋白質結構中獲取結構特征,并整合SeqVec提取的序列特征來訓練蛋白質功能分類器。AlphaFold2預測的三維蛋白質結構數據為蛋白質功能預測提供了強有力的支持,可以有效提高模型的通用性。同時,與以往基于實驗確定的蛋白質結構預測蛋白質功能的方法相比,AlphaFold2提供了足夠的高分辨率結構信息,有效提高了預測的準確性。對比實驗表明,Struct2Go達到了最先進的性能,從而最終證明了結構信息對蛋白質功能預測的有效支持。
注意: 在該論文當中,通過使用節點選擇算法,該算法保留了輸入圖的一些節點和邊,并生成一個新的子圖作為下一層的輸入。池化比率k確定將保留的節點數。
4.?合成致死性(SL)預測
相關論文:
SLGNN: synthetic lethality prediction in human cancers based on factor-aware knowledge graph neural network
論文摘要:合成致死性(SL)是一種基因相互作用形式,可以選擇性地殺死癌細胞而不損害正常細胞。利用這種機制在靶向癌癥治療和抗癌藥物開發領域日益受到歡迎。由于從實驗室實驗中識別SL相互作用的局限性,越來越多的研究小組正在設計計算預測方法,以引導潛在的SL配對的發現。盡管現有方法已經嘗試捕捉SL相互作用的潛在機制,但仍需要開發更深入理解并嘗試解釋SL機制的方法。作者通過知識圖的信息聚合獲得基因的初始嵌入,這避免了對基因特征的手動設計,并且可以通過知識圖中所代表的豐富信息生成特征。KGNN(Lin等人,2020年)使用了知識圖卷積網絡來自動生成實體嵌入,作者遵循這種信息聚合機制并進行了輕微修改。在基于消息傳遞機制的知識圖卷積網絡中,知識圖中的關系起著重要作用,因為它們連接實體。知識圖的一個顯著特征是,相同的實體可以通過不同的關系連接,這些關系對應著不同的生物過程。因此,在信息聚合過程中需要區分不同的關系。在先前的工作中,KGNN使用了注意機制來模擬知識圖關系作為衰減因子,以控制不同鄰居的影響。為了提高模型的性能,作者采取了一種不同的方法,對不同的關系聚合消息的過程是顯式的在這項工作中,作者提出了一種新穎的SL預測方法,稱為SLGNN。該方法基于以下假設:SL相互作用是由不同的分子事件或生物過程引起的,作者將其定義為導致SL相互作用的SL相關因素。除了識別SL相互作用對,SLGNN還模擬了基因對不同SL相關因素的偏好,使結果對生物學家和臨床醫生更具解釋性。SLGNN包括三個步驟:首先,作者將基因相關知識圖中的關系組合建模為SL相關因素。接下來,作者通過知識圖的顯式信息聚合過程導出基因的初始嵌入。最后,作者通過一個SL圖,利用已知的SL基因對構建,利用基于因素的信息聚合導出最終的基因嵌入。在這個階段,采用了監督的端到端訓練模型進行SL相互作用預測。根據實驗結果,所提出的SLGNN模型優于所有當前最先進的SL預測方法,并提供了更好的可解釋性
值得注意的是,該論文通過對知識圖譜(KG)進行消息聚合來獲得基因的初始嵌入,這避免了基因特征的手工設計,并且可以通過知識圖譜中所表示的豐富信息生成特征。KGNN(Lin等人,2020年)使用了知識圖譜卷積網絡來自動生成實體嵌入。
參考:
KGNN:基于知識圖譜的圖神經網絡預測藥物與藥物相互作用 - 知乎
5. 蛋白質溶解度研究
相關論文:
Enhancing Protein Solubility Prediction through Pre-trained Language Models and Graph Convolutional Neural Networks
論文摘要:蛋白質作為驅動多種生物過程的關鍵實體,其功能性歸功于復雜的結構特征和性質。在蛋白質科學領域中,溶解度凸顯為一個關鍵的決定因素。蛋白質的溶解度是其主要序列與周圍環境條件之間復雜相互作用的結果。溶解度的重要性在蛋白化學、結構生物學、藥學等領域得到體現,并在涉及溶液中蛋白質的研究中保持其核心意義。其影響涵蓋生物技術、生物化學和醫學應用,特別是在蛋白表達和純化工作中。本研究介紹了創新的PPSol模型,旨在以卓越的效果預測蛋白質的溶解度。PPSol的方法論包括幾個關鍵步驟。首先,它利用ESM2直接獲取蛋白質接觸圖,這是蛋白質結構中的關鍵元素。這些接觸圖作為構建蛋白質圖的基石,富含各種蛋白質特征作為節點屬性。隨后,這些蛋白質圖被輸入到圖卷積神經網絡中,有效地吸收蛋白質結構信息的復雜性。此外,PPSol利用ESM2生成蛋白質序列特征,這是理解序列特征的寶貴基礎。這些特征經過全連接層的處理,以編碼與序列相關的見解。這兩條不同路徑的結合,即結構和序列,導致了對蛋白質溶解度的強大預測。值得注意的是,PPSol的性能超越了其同行,突顯了其在蛋白質溶解度預測領域的有效性。
?注意:在這篇論文當中,使用利用ESM2直接獲取蛋白質接觸圖。
ESM相當于是一個蛋白質預訓練語言模型。
官網:
GitHub - facebookresearch/esm: Evolutionary Scale Modeling (esm): Pretrained language models for proteins
6. 藥物疾病關聯預測(DAA)
相關論文:
Hierarchical Semantic Augmentation Graph Neural Network for Drug-Disease Association Predictio
論文摘要:作為藥物干預發現中的關鍵步驟,預測藥物-疾病關聯(DDA)探索了給定藥物和疾病中的潛在治療關聯。由于藥物和疾病中的各種聯系包含高階關系和復雜的治療語義,圖神經網絡(GNNs)已被引入到DDA預測中并取得了巨大成功。然而,大多數先前的方法要求給定藥物和疾病的節點具有平滑屬性,在實際應用中很難滿足。此外,基于GNN的模型在異質圖中進行DDA預測時存在語義混淆的問題。這些挑戰限制了模型在藥物-疾病網絡中發現治療語義的有效性。為了解決DDA中的這些挑戰,作者提出了一種名為HSAGNN的新型圖神經網絡模型,通過應用SGNN方法的語義引導思想,分層增強節點語義,包括拓撲嵌入學習、屬性補全和語義引導聚合等三個關鍵步驟。HSAGNN首先學習拓撲嵌入,并采用學習到的拓撲關系通過注意力機制來完成缺失屬性,從而使節點能夠包含更豐富的鄰居聚合信息。然后,模型在節點和語義層面上使用語義引導聚合來聚合鄰居信息。在這里,HSAGNN將學習到的通用知識作為跳躍知識注入,以減輕語義混淆。作者使用各種基線在DDA任務中評估了模型,并進行了廣泛的研究來探索模型的有效性。實驗結果表明,HSAGNN能夠通過增強語義發現潛在的治療關聯.
7. tRNA-疾病關系預測
PTDA-SWGCL: Predicting tRNA-Disease Associations using Supplementarily Weighted Graph Contrastive Learning
論文摘要:tRNA在蛋白質合成中扮演著關鍵角色,根據mRNA的指令將氨基酸運輸到核糖體。這些分子在各種生物過程中起著重要調節作用,其失調與人類疾病密切相關。預測tRNA與疾病之間的關聯對于發現有助于疾病預防、檢測、預后、診斷和治療的生物標志物至關重要。然而,實驗驗證這些關聯是資源密集型的,需要開發強大的計算方法。在本研究中,作者提出了PTDA-SWGCL,這是一個用于預測潛在tRNA-疾病關聯的新模型。PTDA-SWGCL整合了從高斯核相似性、序列相似性和語義相似性中得出的tRNA和疾病相似性信息。它使用這些相似性信息初始化tRNA和疾病嵌入,并通過在tRNA-疾病關聯圖上進行補充權重和圖比較學習訓練來對其進行改進。最終的關聯對預測是通過tRNA和疾病嵌入的內積獲得的。實驗結果表明,PTDA-SWGCL優于最先進的方法。案例研究證實了其在預測tRNA-疾病關聯方面的有效性。
8.異構體功能預測
相關論文:
Isoform Function Prediction Based on Heterogeneous Graph Attention Networks
論文摘要:
異構體指的是從同一基因轉錄而來、可以轉譯為具有不同結構和功能的蛋白質的不同mRNA分子。預測異構體功能是生物信息學中一個重要的課題,因為它可以為基因調控和生物過程的復雜機制提供寶貴的洞察力。傳統上,基因功能標簽是以基因本體(GO)術語標準化的。然而,用于預測異構體功能的傳統方法在很大程度上受到異構體特定標簽的缺失、稀疏注釋以及大量GO術語的限制。為了解決這些問題,我們提出了HANIso,這是一種基于深度學習的異構體功能預測方法。HANIso利用預訓練的蛋白質語言模型從蛋白質序列中提取特征。它還使用異構圖注意力網絡(HAN)集成了異構信息,如異構體序列特征、GO注釋和異構體相互作用數據。這使得模型能夠通過注意力機制學習不同信息來源的重要性及它們之間的語義關系。我們的方法可以在基因水平和異構體水平上預測功能標簽。我們在兩個物種數據集上進行實驗,結果表明我們的方法在AUROC和AUPRC上均優于現有方法。HANIso有潛力克服傳統方法的局限性,并提供對異構體功能更準確、更全面的理解
9. 蛋白質配體親和力預測
相關論文:
Predicting Protein-Ligand Binding Affinity with Multi-Scale Structural Features
論文摘要:
在藥物發現、基因調控和信號轉導等領域,預測蛋白質-配體結合親和力是非常重要的。基于蛋白質結構的DTA(藥物-靶標親和性)方法不僅可以有效彌補缺乏結合信息的問題,而且更符合真實生物過程。盡管基于結構的DTA方法取得了良好的性能,但現有方法仍然存在只考慮單尺度結構特征、忽略多尺度結構特征的問題。為了解決這一問題,我們提出了MSSDTA(多尺度結構表示藥物-靶標親和性預測),該方法通過整合蛋白質的表面節點特征和結構節點特征來提取多尺度蛋白質特征。同時,藥物表示網絡用于融合藥物的二維分子結構特征和化學特征,以有效區分具有類似平面結構的藥物分子。最后,親和性預測網絡用于生成蛋白質-配體結合親和力分數。我們在PDBbind v.2019數據集上驗證了該模型的性能。實驗結果表明,所提出的方法取得了出色的性能。
10.?InterProScan
官網:InterPro
相關論文
Protein function prediction using graph neural network with multi-type biological knowledge
論文摘要
蛋白質在多種生物學功能中起著關鍵作用,準確注釋它們的功能對于理解細胞機制并開發復雜疾病的治療方法至關重要。計算方法被提出作為替代繁瑣實驗方法的選擇。然而,現有的基于網絡的方法主要關注蛋白質-蛋白質相互作用(PPI)網絡,而沒有相互作用的蛋白質則被忽略了。為了解決這一局限性,我們提出了一種新穎的蛋白質功能預測深度學習框架,稱為PFP-GMB,它結合了多種生物學知識,考慮了不在PPI網絡中的蛋白質。PFP-GMB利用預訓練的蛋白質語言模型來提取序列表示。此外,蛋白質相互作用和同源關系通過圖神經網絡和注意機制生成功能相關特征。最后,這些多類型特征被融合用于蛋白質功能預測。與八種最先進的方法相比,PFP-GMB在F-max和AUPR方面表現優異。消融研究進一步證實了將多種生物學知識整合到PFP-GMB中對于蛋白質功能預測的相關性和重要性。
在這篇論文當中:
使用了Gene Ontology (GO):蛋白質功能現在可由基因本體論(Gene Ontology,GO)標準化和組織,分為三個類別:分子功能(Molecular Function,MF)、生物過程(Biology Process,BP)和細胞組分(Cellular Component,CC)。截至2023年7月,GO數據庫涵蓋了龐大的收集,其中包括27,597個BP術語、11,236個MF術語和4,054個CC術語。此外,GO術語通過層次關系相互連接,包括“是一個”('is a')、“部分是”('part of')和“有部分”('has part')等。這些關系形成了一個有向無環圖(Directed Acyclic Graph,DAG)結構,其中每個GO術語都可以看作是圖中的一個節點。當一個GO術語被注釋到一個蛋白質時,它的所有祖先也被注釋到該蛋白質上,因為“子”GO術語比它們的“父”GO術語更具體。鑒于可能的功能注釋數量眾多和復雜的層次關系,蛋白質功能預測是一個具有挑戰性的多標簽分類問題
官網: Gene Ontology Resource
一文極速讀懂 Gene Ontology (GO)數據庫 - 知乎
通過InterProScan生成節點的功能特征,并使用圖神經網絡在PPI和同源網絡中聚合鄰近的特征。
官網:InterPro
InterProScan 是一個生物信息學工具,用于對蛋白質序列進行功能注釋和結構預測。它通過比對已知的蛋白質特征、功能域和結構域數據庫,如InterPro數據庫,來識別輸入蛋白質序列中的功能域、結構域和其他特征。InterProScan 結果包括注釋信息,如已知功能域、家族、重復模式等,有助于理解蛋白質的功能和結構。這個工具通常用于在基因組學和蛋白質組學研究中對大量蛋白質進行功能注釋和特征預測。
還使用了
EggNOG v5.0:A database of orthology relationships, functional annotation,
and gene evolutionary histories.
EggNOG Database | Orthology predictions and functional annnotaion
STRING:蛋白質相互作用(PPI)網絡?
STRING: functional protein association networks
11.Pre-trained protein models (PYPMS)
Pre-trained language models (PTLMs) have prevailed in natural language processing (NLP). Recently,some methods (Alley et al., 2019; Elnaggar et al., 2021; Rives et al., 2021) use PTLMs toencode protein sequences to predict biological functions, which are called pre-trained protein models(PTPMs).
使用PTLMs對蛋白質序列進行編碼以預測生物功能,這些方法被稱為預訓練蛋白質模型
與自然語言相比,蛋白質結構有四個明顯的層次(Kessel & Ben-Tal,2018)。第一級是由氨基酸組成的蛋白質序列,第二級指的是局部折疊結構(例如α螺旋和β折疊片),第三級描述了自然折疊的三維結構,第四級是由多個多肽組成的蛋白質多聚體。蛋白質可以專注于不同的結構水平以實現其特定功能,包括保留一段序列,展現整體的三維結構作為構象元素,甚至與其他蛋白質合作。因此,在預測蛋白質功能時,靈活利用多級結構信息至關重要