深度學習 MetDeeCINE 破譯代謝調控機制
目錄
- 使用 FEP/REMD 和 DFT 方法準確預測藥物多靶點絕對結合自由能的新途徑。
- Scorpio 框架利用對比學習優化核苷酸序列表示,提升基因組分析效率,尤其在未知序列的分類和泛化能力上表現出色。
- LPM 模型整合多模態擾動數據,預測轉錄組結果,加速藥物發現和系統生物學研究。
- MetDeeCINE 利用深度學習和多組學數據,無需詳細動力學參數即可預測酶活性對代謝物濃度的影響。
- MSNGO 利用結構信息和網絡傳播,顯著提升了跨物種蛋白質功能注釋的準確性。
1. 快速精準預測藥物多靶點結合自由能
藥物的毒性和副作用通常與脫靶結合密切相關。因此,準確預測藥物與體內多個蛋白質的絕對結合自由能至關重要,它決定了藥物對其分子靶點的親和力及其選擇性。
然而,ABFE 的實驗測量具有挑戰性,許多蛋白質與潛在藥物和其他結合分子的 ABFE 值尚不清楚。因此,迫切需要開發準確的 ABFE 計算方法。
本研究計算了兩種藥物分別與多個蛋白質的 ABFE,以檢驗現有計算方法的準確性并探索改進途徑。
研究者采用了兩種主要方法:自由能微擾結合副本交換分子動力學 (FEP/REMD) 和基于簇方法和簡化模型的密度泛函理論 (DFT)。
此外,研究者還利用能量分解分析 (EDA) 對 DFT 計算結果進行了補充分析。
通過比較不同方法的計算結果與已知的實驗數據,作者評估了 FEP/REMD 和 DFT 方法在 ABFE 預測方面的準確性和適用性。結果表明,兩種方法均能在一定程度上預測 ABFE,但精度受多種因素影響,例如蛋白質的結構復雜性和計算資源的限制。此外,EDA 分析揭示了藥物與蛋白質之間相互作用的關鍵能量組分,為進一步優化計算方法和指導藥物設計提供了 valuable insights。
📜Paper: https://doi.org/10.1021/acs.jcim.4c01555
2. 基于對比學習的 Scorpio 框架提升基因組序列分析效率
研究者開發了一種名為 Scorpio 的框架,該框架利用對比學習優化核苷酸序列表示,從而提升基因組分析效率。具體而言,Scorpio 通過優化嵌入向量來有效區分相似和不相似 DNA 序列,從而在分類任務中,例如分類單元和基因分類,取得了顯著的改進。與傳統的基于比對的方法相比,Scorpio 展現出更強的泛化能力,尤其體現在對先前未見 DNA 序列的處理上,使其成為宏基因組分析的理想工具。此外,Scorpio 還能處理不同長度的序列,甚至包括新的分類單元。
為了實現卓越的性能,Scorpio 結合了預訓練基因組語言模型和 k-mer 頻率嵌入。這種方法在抗菌素耐藥性 (AMR) 檢測和啟動子區域識別等應用中表現出色。框架的多功能性使其能夠適應不同的應用場景。
Scorpio 的一大優勢在于能夠在單個模型中同時處理基因水平和分類學數據。與需要針對不同分類任務構建單獨模型的方法相比,這極大地提高了效率。Scorpio 采用三元組網絡,通過比較序列的相似性進行學習,增強了其對基因和分類單元進行高精度分類的能力,尤其對于訓練數據中未出現的新基因或分類單元。
此外,Scorpio 還包含一個置信度評分機制,可衡量預測的質量,從而提高其在下游應用中的可靠性。在實際的基因組分析中,不確定性是不可避免的,因此這項功能至關重要。Scorpio 的靈活性還體現在其分層學習結構上,該結構可以針對各種數據集和不同級別的生物信息進行定制,從而增強其在各種基因組任務中的泛化能力。
📜Paper: https://www.nature.com/articles/s42003-025-07902-6
💻Code: https://github.com/EESI/Scorpio
3. LPM:AI 驅動生物發現新引擎
大型擾動模型 (LPM) 是一項深度學習框架,它通過整合化學、基因、轉錄組和細胞活力等多模態擾動數據集,實現了計算機模擬的生物學發現。
LPM 使用擾動 §、讀數 ? 和上下文 ? 的解耦潛在表征,能夠準確預測擾動后的轉錄組結果,其性能優于 CPA、GEARS、Geneformer 和 scGPT 等現有模型,尤其是在涉及未見擾動 - 上下文 - 讀數組合的情況下。
LPM 采用僅解碼器、PRC 解耦的架構,不同于基于編碼器的模型。這種架構使其能夠獨立于嘈雜的實驗環境學習擾動 - 響應規則,并無縫擴展以適應不同的數據格式。
值得注意的是,LPM 是第一個將基因和化學擾動整合到統一潛在空間的模型,從而能夠識別共享的分子機制。例如,它可以將 CRISPR 敲除與靶向相同基因(例如,MTOR、HDAC2/3、HMGCR)的藥物正確地聚類。
此外,LPM 學習的嵌入具有生物學意義,在基因功能預測方面優于 STRING 和 Gene2Vec 等人工篩選的嵌入,并且反映了已知的蛋白質復合物和分子通路。研究者利用 LPM 通過估算缺失的擾動結果來進行基因 - 基因相互作用網絡的因果推斷。結果表明,使用 LPM 預測的結果增強真實數據可以顯著提高 Guanlab 等最先進網絡推斷算法在基準評估中的性能。
在一個概念驗證應用中,研究者使用 LPM 預測上調 PKD1(一種與常染色體顯性遺傳性多囊腎病 (ADPKD) 相關的基因)表達的藥物。他汀類藥物(如辛伐他汀)是排名靠前的候選藥物,回顧性臨床數據顯示,他汀類藥物使用者中 ESRD 進展顯著減少。
LPM 還展現了其擴展性:隨著更多擾動類型或實驗環境的添加,預測精度會提高,這表明它有潛力從不斷增長的公共數據集中受益。雖然 LPM 缺乏對詞匯表外上下文的零樣本泛化能力,但其詞匯表內插值和多任務處理能力使其對于利用合并的擾動實驗非常有用。
這項研究表明,LPM 可以通過計算填補未觀察到的實驗結果并從高通量篩選中提取潛在的生物學結構,從而加速實驗設計、治療發現和系統生物學研究。
📜Paper: https://arxiv.org/abs/2503.23535
💻Code: https://github.com/GSK-AI/LPM (to be released)
4. 深度學習 MetDeeCINE 破譯代謝調控機制
MetDeeCINE 是一種可擴展、可解釋的深度學習框架,它直接從多組學數據中建模代謝調控,預測酶活性如何影響代謝物濃度,而無需詳細的動力學參數或通量數據。其核心是采用了一種代謝信息圖神經網絡 (MiGNN),該網絡整合了代謝物之間的化學計量關系。
該模型的性能優于標準機器學習方法,并能捕捉代謝網絡中的遠程調控效應。與傳統的動力學模型不同,MetDeeCINE 僅需要蛋白質組學和代謝組學測量值以及已知的化學計量關系。它推斷濃度控制系數 (CCC),量化酶 - 代謝物的影響,從而實現對代謝控制的網絡規模理解。
在使用大腸桿菌代謝動力學模型進行的模擬中,MiGNN 即使在模型中沒有明確的變構數據的情況下,也能準確地恢復 CCC 和調控結構,甚至捕捉到間接和變構效應。將 MetDeeCINE 應用于小鼠肝臟多組學數據,成功地將 Fbp1 鑒定為糖異生的限速酶,并揭示了果糖 -6-磷酸、葡萄糖 -6-磷酸和葡萄糖 -1-磷酸等代謝物之間的機制聯系,這與已知的生物學知識一致。
MetDeeCINE 的一個關鍵創新在于,即使某些成分未被測量,它也能識別有意義的酶 - 代謝物聯系,使其適用于未完全注釋的生物體,并擴展其在系統生物學和代謝工程中的效用。與其他基于機器學習的組學整合模型相比,MetDeeCINE 的可解釋性因其生物學指導的架構而得到增強。可以通過探測學習到的權重矩陣來揭示隱藏的調控機制和潛在的治療靶點。MetDeeCINE 彌合了數據密集型動力學建模和黑盒機器學習之間的差距。它可以很好地推廣到不同生物體和條件,并在疾病機制發現、藥物靶點識別和合成生物學設計方面具有應用潛力。
📜Paper: https://www.biorxiv.org/content/10.1101/2025.03.24.645125v1
5. MSNGO:跨物種蛋白質功能預測新標桿
MSNGO 是一種新型的多物種蛋白質功能預測方法,它首次將 AlphaFold2 衍生的結構特征整合到異構網絡傳播框架中,顯著提高了跨物種功能注釋的準確性。
與以往僅依賴序列和蛋白質相互作用 (PPI) 數據的模型不同,MSNGO 使用在 3D 接觸圖上訓練的圖卷積池化網絡提取蛋白質結構表征,從而更深入地理解結構與功能之間的關系。
該模型構建了一個包含 13 個物種的異構網絡,結合了序列同源性和 PPI 數據,并使用圖注意力機制傳播蛋白質特征和功能標簽,實現了跨物種功能轉移。
在訓練過程中,MSNGO 將蛋白質結構和序列特征連接起來,并在網絡中傳播。在預測階段,標簽傳播補充了特征傳播,尤其提升了注釋稀疏蛋白質的預測準確性。
與 SPROF-GO、DeepGraphGO 和 PSPGO 等現有方法相比,MSNGO 在生物過程 (BPO)、分子功能 (MFO) 和細胞組分 (CCO) 三個 GO 分支上均表現更優,實現了更高的 Fmax 和 AUPR,以及更低的語義距離。尤其在 BPO 分支中,MSNGO 的性能比次優方法提升了 10% 以上,表明其在處理多標簽預測中的大型復雜標簽空間方面具有顯著優勢。
消融研究證實了結構特征的重要性:去除結構特征會顯著降低性能,尤其是 Fmax 值。這驗證了蛋白質結構能夠捕獲序列信息中無法體現的關鍵功能線索。
此外,MSNGO 對序列特征的變化具有魯棒性,即使使用 Interproscan 和 ESM-2 等快速替代方案也能保持良好的性能,這證明了其在大規模、多物種注釋任務中的可擴展性。MSNGO 也能很好地泛化到單物種數據。在人類和小鼠數據集上的評估結果表明,MSNGO 優于 Struct2GO 等單物種方法,這得益于其利用跨物種功能信號的能力。
憑借高效的傳播、對多種數據模態的支持以及改進的泛化能力,MSNGO 為多物種蛋白質功能預測樹立了新的標桿,為特征信息不足的生物體進行更快速的蛋白質功能注釋鋪平了道路。
📜Paper: https://arxiv.org/abs/2503.23014
💻Code: https://github.com/blingbell/MSNGO