《Nature Machine Intelligence》發表重磅評測,系統評估AI與物理方法在虛擬篩選(VS)中的表現,突破藥物發現效率瓶頸。
核心評測體系:三大數據集
研究團隊構建了三個新型測試集:
-
TrueDecoy:含147個靶點,活性分子與真實實驗驗證的低活性分子(活性-非活性比例1:40),模擬高挑戰性篩選場景(圖a,c)。
-
RandomDecoy:活性分子取自TrueDecoy,非活性分子隨機選自商業庫(比例1:100或1:300),貼近真實藥物篩選(圖b,d)。
-
MassiveDecoy:擴展至700萬分子庫,驗證算法在大規模VS中的實用性。
AI與物理方法的對決
1. 對接準確性
-
AI工具:CarsiDock(成功率86.4%)和KarmaDock(76.2%)在RMSD <2?時超越所有傳統方法。
-
物理方法:LeDock在RMSD <1?時準確率最高,顯示局部構象優化優勢。
2. 結構合理性
-
物理方法穩勝:Glide等生成復合物的分子間有效性(Intermolecular validity)達90%以上。
-
AI的短板:CarsiDock在分子間碰撞檢查中合格率僅50%,FlexPose甚至低于20%。研究者指出,AI方法多關注配體構象,忽視蛋白-配體空間沖突。
3. 虛擬篩選表現
TrueDecoy測試:物理方法Glide聯合RTMScore在區分微弱活性分子時最佳(EF_1%=5.69)。
RandomDecoy測試:CarsiDock全面勝出(EF_1%=43.5),顯示AI在真實化學庫篩選中的潛力。
技術瓶頸深度解析
1. 數據依賴性
去除PDBbind重復數據后,AI工具成功率下降30%,而物理方法穩定,提示現有AI模型泛化能力不足。
2. 后處理策略的局限性
RDKit幾何優化(FF)僅提升配體內部合理性(Intramolecular validity),但惡化分子間相互作用。
構象對齊(Align)反而導致RMSD升高,削弱篩選性能。
3. 效率與精度的平衡
KarmaDock單次對接僅需0.017秒(GPU加速),適合千萬級庫初篩;CarsiDock精度高但耗時較長(1.7秒/分子),需級聯策略提速。
未來方向與實戰策略
1. 層次化篩選方案
兩步走策略:先用KarmaDock初篩百萬庫,再以CarsiDock優化前10萬分子。在八類靶點測試中,該策略顯著提升活性分子召回率。
2. AI算法革新
-
將分子間幾何約束(如氫鍵網絡、疏水接觸)融入神經網絡架構;
-
開發統一評分框架,整合物理參數與深度學習特征。
3. 數據建設標準化
-
制定更嚴格的復合物合理性評價指標;
-
構建靶點依賴性更弱的廣譜訓練集。
主編視點
"AI對接工具的崛起并非替代傳統方法,而是擴展藥物發現的策略維度。此項研究揭示:
-
在初篩階段,AI憑借速度優勢可快速縮小化學空間;
-
在先導化合物優化時,物理方法對結合模式合理性的把控不可替代。
未來,嵌入物理規則的混合模型或成突破關鍵——既要讓AI'理解'能量最小化原理,也要保留其探索未知空間的能力。"
參考資料
Gu, S., Shen, C., Zhang, X. et al. Benchmarking AI-powered docking methods from the perspective of virtual screening. Nat Mach Intell (2025).
代碼鏈接:https://github.com/shukai1997/VSDS-VD