Allo-PED: AI 精準預測蛋白質變構位點
目錄
- Allo-PED 框架融合蛋白質語言模型與結構特征,顯著提高了變構位點預測的準確性和泛化能力。
- EcoFoldDB 利用蛋白質結構信息,為宏基因組提供了精確且可擴展的生態功能注釋新方法,顯著提升了對未知微生物功能的認知。
- 上下文分子適配(ICMA)新方法,使大語言模型無需領域預訓練即可通過上下文學習高效處理分子任務。
- OmniCellTOSG 是首個融合文本與組學信息的大規模細胞信號圖譜數據集,旨在通過聯合 LLM 與 GNN 模型深化細胞系統理解。
- UAE-3D,通過統一潛空間顯著提升 3D 分子生成的速度與幾何精度。
1. Allo-PED: AI 精準預測蛋白質變構位點
在藥物發現領域,精確識別蛋白質變構位點對于靶向調控蛋白質功能至關重要。為此,研究者開發了一種名為 Allo-PED 的新型計算框架。該框架巧妙地結合了先進的蛋白質語言模型和機器學習技術,旨在提升變構位點預測的精度。
Allo-PED 包含兩個核心模塊。首先,AlloPED-pocket 模塊運用集成學習方法,整合蛋白質的物理化學性質與結構特征來預測潛在的變構口袋。
該模塊在基準數據集上取得了優異表現,其 MCC 達到 0.544,曲線下面積 (AUC) 高達 0.920,展示了其強大的口袋識別能力。
AlloPED-site 模塊在此基礎上進一步精煉預測結果。該模塊利用強大的 ProtT5-XL 蛋白質語言模型提取序列深層信息,并結合帶有注意力機制的深度卷積神經網絡 (DCNN) 來精確識別變構位點。AlloPED-site 實現了 0.601 的精確率和 0.422 的召回率,有效提升了位點預測的準確性。
Allo-PED 通過整合集成學習和深度學習,其整體性能優于現有的 AllositePro 和 PARS 等方法,特別是在預測特異性和模型泛化能力方面表現突出。研究者還發現,殘基聚類系數、疏水微環境以及范德華體積是決定變構位點的關鍵結構因素,這些發現為理解變構調控機制提供了新的視角。
該模型通過動態閾值調整、Focal Loss 損失函數以及 mRMR、RFECV 等特征選擇方法,有效處理了數據類別不平衡問題,從而增強了預測的準確性和效率。Allo-PED 的創新之處在于同時整合了序列(通過 ProtT5 嵌入捕捉進化和功能模式)和結構特征,這對于理解變構位點的動態特性至關重要。
研究強調了疏水殘基和靜電微環境在變構