NATURE丨使用 AlphaFold 3 準確預測生物分子相互作用的結構
注意!:本文創作僅根據個人理解和網絡信息,如有錯誤懇請指正!謝謝!
大家好,今天分享的文獻是2024年5月發表在Nature上的“ Accurate structure prediction of biomolecular interactions with AlphaFold 3”。
1有關作者
Google DeepMind公司是三代AlphaFold 模型的作者,該公司不僅開發了大眾熟知的AlphaGo,2016年也將其業務范圍從AI+游戲策略拓展到了AI+結構生物學,從2018年在第13屆CASP中AlphaFold 1嶄露頭角到上個月AlphaFold 3可以實現幾乎所有生物大分子相互作用的結構預測,可以說DeepMind公司實現了AI在結構生物學領域的重大突破。
2背景介紹
傳統地我們利用X射線晶體學、NMR、低溫冷凍電鏡來進行蛋白質結構的測定,而AlphaFold 2對蛋白質結構的測定就可以達到傳統方法所達到的精確度。
AlphaFold 3則不僅僅是對蛋白質結構的預測,更是以一種單一的深度學習框架可以完全預測包含了PDB數據庫中幾乎所有分子的高精確度結構和相互作用。因此AlphaFold 3為藥物研發提供了新的可能性,有望顛覆傳統的藥物研發模式。
圖1|a,DNA和cGMP復合物;b,冠狀病毒OC43刺突蛋白;灰色為共晶。
3模型架構
AlphaFold 3的結構是在AlphaFold 2架構基礎上進行改進,然后進行訓練實現的。AlphaFold 3不僅支持更多種類的分子,同時也提高了訓練效率。我們知道,AlphaFold 3可以實現所有所有生物大分子之間相互作用的結構預測,這是因為相較于AlphaFold 2有了更靈活和通用的設計:
- 令牌化方案:AlphaFold3采用了一種更通用的令牌化方案,其中每種類型的分子(如標準氨基酸、核苷酸、其他分子)都對應一個獨特的token。對于蛋白質,每個氨基酸殘基對應一個token;對于核酸,每個核苷酸對應一個token;對于其他分子,每個重原子對應一個token。這種方案允許模型處理不同類型的生物大分子,而不僅僅是蛋白質。
- 相對位置編碼:AlphaFold3引入了相對位置編碼,這是一種應用于同一殘基內令牌的編碼方式,以打破對稱性。這種編碼方式使得模型能夠更好地處理具有對稱性的分子結構。
- 輸入特征嵌入器:AlphaFold3設計了一個復雜的輸入特征嵌入器,它能對所有原子執行注意力操作,從而編碼所有分子的化學結構信息,形成一個代表所有token的single representation。這種設計使得模型能夠捕捉到不同類型分子的結構和相互作用信息。
圖1d|AF3的架構。矩形表示處理模塊,箭頭表示數據流向。黃色:輸入數據,藍色:抽象網絡激活,綠色:輸出數據。彩色代表分子物理原子坐標。
AF3的這種改變在實現了適應各種生物分子的前提下,既簡化了模型架構,又保證了性能未受影響。以下為AF3架構的整體流程:
- 模板搜索、基因搜索、構象生成:Genetic search在數據庫中搜索與目標序列相似的蛋白質或RNA鏈;Template search為僅為單鏈蛋白質鏈搜索提供模板信息,以輔助結構預測;Conformer generation會根據給定的CCD代碼(一種用于標識化學組分的簡短字符串編碼系統)或SMILES字符(一種用來描述分子結構的字符串表示方法)來生成參考構象。
- Input embedder:編碼所有分子化學結構信息,對所有原子進行Attention,從而輸出單表示(single representation)來表示所有的token。同時以類似于AF2的方式構建對表示(pair?representation)。然后將該pair對表示和single單表示輸入到調節網絡(conditioning network),該模塊會循環Recycling多次。
- 調節網絡:調節網絡由Template模塊和MSA模塊組成,他們分別將有關模板信息和MSA信息編碼到pair對表示中,注意這里的MSA信息只針對蛋白質序列和RNA序列。然后生成的pair對表示作為輸出,也是下一模塊Pairformer模塊的輸入。
- 單表示(single representation)和調節網絡生成的pair對表示輸入到Pairformer模塊中,形成AF3的主循環。循環后Pairformer模塊輸出single/pair embedding。
- 擴散模塊Diffusion module得到single/pair embedding作為輸入進行調節擴散過程,然后輸出蛋白質的結構。
- 置信度模塊confidence module接收pair對表示、single單表示、從擴散模塊得來的結構位置向量來計算置信度度量,如預測的局部距離差異測試(pLDDT)、預測的對齊誤差(PAE)、預測的距離誤差(PDE)以及實驗上已解析的預測等。這些置信度度量有助于評估模型預測的可靠性,并為后續的樣本排序和結構選擇提供依據。
算法1|AF3的整體框架偽代碼
3.1輸入信息的嵌入(input embedder)
這里是整體流程算法1的第一步(上圖),InputFeatureEmbedder。The residue type+參考構象異構體(reference conformer)+MSA摘要特征 (profile and deletion_mean)組合嵌入生成si。The residue type是指輸入特征向量的類別標簽,它用于指示每個原子屬于哪種類型的殘基。參考構象異構體reference conformer的生成是由算法5的AtomAttentionEncoder得到。
算法2|input embedder的示意圖部分
算法2|InputFeatureEmbedder偽代碼
3.2?序列局部原子注意力機制(Sequence-local atom attention)
“序列局部原子注意力”將整個結構表示為原子的平面列表,并允許所有原子在某個序列鄰域內直接相互“對話”。例如,每個32個原子的子集關注附近128個原子(在序列編號中鄰近)。這使網絡能夠學習到有關局部結構的語義(補充圖1),其中每個標準殘基僅用單個token表示。
補充圖1|序列局部原子注意力機制。藍色區域描繪了理論上完整的注意力矩陣。黃色矩形代表實現的局部注意力機制。
3.3MSA模塊
補充圖2|MSA模塊示意圖
這里的MSA模塊每次循環迭代時會采樣MSA的隨機子集,然后將采樣得到的MSA隨機子集和input rep進行嵌入得到msa的單個表示msi。MSA模塊有4個同構塊,它們進行對表示pair representation和MSA的重復處理和組合。MSA處理后得到的pair representation傳遞到pairformer模塊中。
另外,MSA模塊和pairformer模塊很相似,其中MSA 表示扮演了類似于單一表示singlerepresentation的角色。相較于AF2這里的注意力對于每一行都是獨立執行的,且注意力權重完全從對表示 pair representation中投影而來,無需另外進行鍵查詢注意力。MSA每一行獨立的以相同方式進行注意力組合信息也將會減少計算和內存的使用。
MSA注意力層采用與其他注意力層相同的門控機制。否則,模型的這一部分與AF2的工作方式相同,這意味著pair對表示通過三角乘法更新triangle update,和三角自注意力層triangle self-attention,以及過渡塊傳遞。在所有轉換塊transition中,使用SwiGLU激活函數而不是ReLU。
從概念上講,這里和AF2的區別在于并不直接組合MSA不同行的信息,所有的信息通過對表示pair對表示流動,動機在于pair對表示應包含盡可能多的有關蛋白質或核酸的信息,因為pair對表示構成了網絡其余部分的主干。
算法8|MSA模塊偽代碼,zij對表示,msi是MSA表示
3.4?pair對表示的三角形更新
這個pair對表示的三角形更新是MSA模塊中的子模塊,涉及對成對表示(pair representation)進行特定的更新操作。這些更新旨在捕捉成對節點(例如蛋白質或RNA鏈中的相鄰原子)之間的空間關系,并確保這些關系在整個網絡中得到一致且準確的表示。和AF2中的一致,具體細節可以參考AF2論文。
3.5模版模塊(Template embedding)
模板嵌入(算法16)將所有原始模板特征組合成一個對表示uij,并將其與前面對表示 zij(在之前的回收迭代中產生)一起處理。這允許網絡根據其當前對結構的認識來關注模板中的特定區域。
算法16|模版模塊示意圖,橙色是搜到的模版,藍色實線是最開始嵌入embedding得到的pair對表示,藍色虛線是回收的pair對表示
算法16|模版模塊偽代碼,最后輸出對表示uij
3.6Pairformer模塊
Pairformer模塊(算法17,圖2a)與AF2中的Evoformer是類似的作用,區別在于Pairformer使用單表示si,而不是MSA表示。在這里,single單表示扮演的角色類似于 AF2中Evoformer中的特權第一行。
這個變動,使得不再存在列的注意力(column-wise attention)。具有成對偏差的單一注意力(single attention)與AF2中使用的逐行注意力(row-wise attention)相同,僅作用在單個序列。
此外,與AF2不同的是,single單表示不會影響pair對表示,但pair對表示通過偏置注意力邏輯(single attention with pair bias)來控制single單表示中的信息流。所有轉換塊transition均使用SwiGLU激活函數。輸出的pair對表示和single單表示被傳遞到后續的擴散模塊,該模塊取代了AF2的結構模塊。
圖2a|Pairformer模塊示意圖,輸入輸出為pair對表示和single單表示,n為標記數量(聚合物殘基和原子),c代表channel數量(對表示為128,單表示為384)。48個blocks中每一個都有一組獨立的可訓練參數。
算法17|Pairformer模塊的偽代碼,其中zij是pair對表示,sij為single單表示。
3.7擴散模塊
擴散模塊直接作用在原始的原子坐標和一個粗略的抽象令牌表示上。這個模塊不依賴于旋轉框架或任何等變處理。在AlphaFold2中,結構模塊需要處理氨基酸特定的幀和側鏈扭轉角,而擴散模塊則通過訓練來學習蛋白質結構在不同長度尺度上的信息。在推理階段,模型會隨機采樣噪聲并反復去噪,以生成最終的結構。這種方法是一種生成式訓練過程,它能夠產生一系列可能的答案。因此,即使網絡在某些位置上不確定,對于每個答案,局部結構也會被清晰地定義出來,例如側鏈鍵的幾何形狀。這允許模型避免使用基于扭轉的殘基參數化和違反結構的損失,同時處理一般配體的完整復雜性。
同時作者發現分子的全局旋轉和平移不需要不變性或等變性。因此使用擴散模型以簡化深度學習架構。擴散模型在訓練過程中,是訓練一個去噪器(神經網絡),以消除以分子骨架的所有重原子位置的高斯噪聲。去噪器是基于tranformer,做了些修改如下:
- 多種方式condtioning:應用Adaptive Layernorm的變體到single embedding;應用logit biasing到pair token conditioning。
- 使用標準的現代Transformer(例如:SwiGLU)和 AF2 的門控機制。
- 使用兩級架構,首先處理原子,然后處理tokens,然后再次處理原子。
- Transformer僅使用單個線性層來嵌入所有原子位置,并使用單個線性層來投影最后的更新,不涉及幾何偏差(例如:局部性或SE3不變性)。
-
圖2b|輸入,per-token表示(綠色是inputs表示;藍色是pair對表示,橙色是single單表示);per-atom condition。輸出,彩色球代表物理原子坐標。序列局部注意力機制 (seq.local attention)在前文(補充圖1)已介紹。
算法20|擴散模塊的偽代碼
不過擴散模型的使用也會帶來問題,最大的問題是生成模型容易產生幻覺,模型將非結構化區域也會輸出看似合理的結構(如下圖右上角結構)。為了解決此問題,作者使用了一種新穎的交叉蒸餾方法,用AF-Multimer v2.3預測結構來豐富訓練數據。在這些結構中,非結構化區域通常是長loop,而非緊湊結構。用這種自蒸餾數據“教導”AF3模仿這種行為。這種交叉蒸餾大大減少了AF3的幻覺行為(擴展圖1)。
拓展圖1|無序區預測。來自AF Multimer v2.3、AF3、沒在無序蛋白交叉自蒸餾訓練的AF3版本,進行結構預測;蛋白結構按pLDDT著色,蛋白來自CAID2數據集。CAID2 數據集,各種版本AlphaFold的表現。其中RASA是相對可及表面積。
3.8模型置信度模塊
結構的置信度,AF2是通過對訓練期間結構模塊的輸出誤差進行回歸來實現的。然而,該方法不適用于AF3的擴散訓練,因為擴散的每一步都會用來訓練,而不是直接完整的結構輸出(圖2c)。于是AF3開發了完整結構預測生成的擴散“推出”機制(使用比正常情況更大的步長)。
然后,該預測結構用于置換對稱的真值鏈和配體(permute ground truth),并計算性能指標(Metrics)以訓練置信度模塊。置信度模塊使用pair對表示來預測pLDDT、對齊誤差PAE矩陣、以及距離誤差矩陣PDE誤差。更多置信度模塊的細節原理讀者請閱讀SI方法4。
圖2c|訓練設置從網絡主干(Network trunk)的末端開始。綠色是inputs表示;藍色是pair對表示,橙色是single單表示。藍色箭頭,抽象激活數組abstract activation arrays;黃色箭頭是真實數據;綠色箭頭是預測數據。Stop標志,停止梯度運行。訓練和infer兩個擴散模塊共享權重。
圖2d顯示,在初始訓練期間,模型快速學習預測局部結構(所有生物分子LDDT指標快速上升,并在前20k訓練步驟內達到最大性能的97%),而模型需要相當長的時間來學習達到全局收斂(LDDT指標緩慢上升)。在AF3開發過程中,作者觀察到一些模型也會較早達到頂峰并開始下降;很可能是由于過度擬合有限數量的訓練樣本,比如下圖protein-rna曲線。
圖2d|初始訓練和微調階段的訓練曲線,十字標記了達到訓練最大值97%的點。
怎么解決上面指出的過擬合問題?
- 通過增加/減少相應訓練集的采樣概率,
- 以及使用上述所有指標的加權平均值和一些附加指標提前停止,來選擇最佳模型checkpoint。
- 在微調階段更大的crop size提高了所有指標,蛋白-蛋白界面提升最高(下面的拓展圖2)。
拓展圖2|初始訓練是藍色曲線,微調階段1橙色曲線,綠色曲線是微調階段2。紅色虛線/紫色虛線分別為90%/97%性能時的訓練步。
4模型表現
如圖3所示為AF3所進行的一系列結構預測示例,AF3可以根據輸入的氨基酸序列、殘基修飾、配體SMILES進行結構預測。
圖3|AF3的結構預測示例。
a,7663個殘基的40S小核糖體亞基蛋白、不透明藍色的翻譯始因子eIF1A和eIF5B、紫色為18S核糖體RNA、不透明紫色的Met-tRNA,復合物置信度LDDT=87.7。
b,糖基化的EXTL3二聚體,與共晶RMSD=1.1?。
c,間皮素C端肽,與單克隆抗體15B6 結合,DockQ為0.85。
d,臨床階段抑制劑LGK974與帶有WNT3A肽的PORCN蛋白結合形成復合物,小分子RMSD=1?。
e,(5S,6S)-O7-sulfo DADH與AziU3/U2的復合體,與共晶RMSD=1.92?。
f,NIH-12848類似物與PI5P4Kγ變構位點結合,與共晶RMSD=0.37?。
4.1蛋白質-小分子配體結構預測
蛋白質-配體結構預測的AF3性能在PoseBusters數據集上進行了160項評估,該數據集由 428個蛋白質-配體結構組成,其中161個在2021年以后加入到PDB。于是在更早的訓練集訓練了單獨的AF3版本(保證無數據泄露)。下圖成功率指配體RMSD小于 2??的百分比。從下圖可見,AF3大大優于基于結構的Vina,以及RFAA模型。
圖1c,蛋白-小分子|在PoseBusters數據集上AF3的成功率。縱坐標成功率定義為配體RMSD < 2 ? 的百分比,N表示靶點的數量。
4.2蛋白質-核酸符合物或RNA單體
AF3夠比RoseTTAFold2NA更準確地預測蛋白質-核酸復合物和 RNA 結構(下面的圖1c)。我們沒有與RFAA比較,因為RFAA精度低于RoseTTAFold2NA。從下圖可見,AF3的蛋白-核酸對接成功率遠遠高于RoseTTAFold2NA算法。
圖1c,核酸相關相互作用|PDB數據庫中蛋白-RNA,蛋白-雙鏈DNA;CSAP15比賽中RNA單體的成功率。成功率針對復合物是iterface LDDT,單體RNA僅為LDDT。N表示靶點的數量。
此外還評估了CASP15的10個RNA單體,與RoseTTAFold2NA和AIchemy_RNA2對比,AIchemy_RNA2表現出更加優異的性能(上圖c,右邊),詳細結果在拓展圖5a。
拓展圖5a|在CSAP 15 RNA數據集上,AF3和RoseTTAFold2NA和AIchemy_RNA2對比,橫坐標是10個RNA編號。縱坐標分別為LDDT、TM score、GDT等置信度指標。
AF3沒有達到人類專家輔助的 AIchemy_RNA2的性能 (上圖)。單獨預測核酸DNA/RNA(沒有蛋白質)的準確性LDDT的進一步分析顯示在擴展圖5b中。
擴展圖5b|在單獨核酸DNA/RNA上評估LDDT,AF3與RoseTTAFold2NA對比。
擴展圖5c|蛋白-dsDNA復合物示例,左圖以pLDDT繪圖,右圖以chain繪圖
拓展圖d|預測蛋白-核酸結構的PAE誤差,不同顏色代表不同鏈A/B/C。
4.3共價修飾
AF3還可以準確預測共價修飾(鍵合配體、糖基化、修飾的蛋白殘基和核酸堿基)(下圖 1c)。修飾包括對任何聚合物殘基(蛋白質、RNA或DNA)的修飾。成功率定義為RMSD < 2 ?。
圖1c,共價修飾|縱坐標成功率定義為配體RMSD < 2 ??的百分比,N表示靶點的數量。依次為,蛋白鍵和小分子、蛋白糖基化、蛋白修飾、DNA/RNA修飾。
擴展圖6顯示了具有共價修飾的蛋白質、DNA和RNA預測結構的示例,包括分析磷酸化對預測的影響。
拓展圖6a|在磷酸化?(SEP、TPO、PTR、NEP、HIP)場景,AF3的預測成功率,PTM代表轉錄后修飾。
4.4蛋白-蛋白/蛋白質單體
在擴展建模能力的同時,AF3相對于 AlphaFold-Multimer v2.3也提高了蛋白質復合物準確度,結果見下圖c。抗體蛋白質相互作用預測尤其顯示出顯著的改善。蛋白質單體LDDT的改善也有。
圖1c,蛋白相關相互作用或單體蛋白|蛋白Multimer、蛋白-抗體、蛋白單體在Recent PDB評估集上的預測成功率。蛋白Multimer、蛋白-抗體的成功率定義為DockQ > 0.23。蛋白單體使用LDDT指標定義成功率。N表示靶點的數量。
5總結
分子生物學的核心挑戰是理解并最終調節生物系統的復雜原子相互作用。AlphaFold3作為一個可以預測所有生物大分子的通用模型,表明可以在統一的框架中準確預測各種生物分子系統的結構,該系統對所有所有分子交互類型具有很強的覆蓋率和泛化率。但同樣也有局限性:
- 立體化學的局限性。手性問題:即使輸入了正確的手性參考結構,AlphaFold3有時仍會輸出違反手性的模型。原子重疊:在某些情況下,如蛋白-核酸復合物,模型可能會產生原子重疊的現象。
- 幻想問題。從非生成式模型AF2到基于擴散的AlphaFold3的轉變引入了無序區域的虛假結構。這些區域雖然被預測為低置信度,但缺乏AF2模型在無序區域產生的獨特帶狀外觀。為了解決這個問題,AlphaFold3采用了AF2的預測結果進行蒸餾訓練,并引入了鼓勵更大溶劑接觸表面積的懲罰。
- 動力學問題。AlphaFold3主要預測靜態結構,而無法捕捉生物分子系統在溶液中的動態行為。
- 特定目標的精度問題。在某些情況下,如E3泛素連接酶,AlphaFold3可能無法準確模擬其在不同狀態下的構象。例如,它可能只預測出與配體結合時的封閉狀態,而忽略了在載脂蛋白狀態下的開放構象。
- 準確性與計算成本。為了提高預測的準確性,可能需要生成和評估大量的模型結果,這將導致顯著增加的計算成本。特別是在抗體-抗原復合物的預測中,隨著模型隨機種子數量的增加,預測效果有所提升,但這也意味著需要更多的計算資源。
AF3的性能表明,開發正確的深度學習框架可以大大減少獲得這些任務的生物學相關性能所需的數據量,并放大已經收集的數據的影響。下一步作者將進一步改進結構建模,采用置信度更高的實驗方法以提高模型的泛化能力。
文獻信息:
Abramson, J., Adler, J., Dunger, J.?et al.?Accurate structure prediction of biomolecular interactions with AlphaFold 3.?Nature?630, 493–500 (2024). Accurate structure prediction of biomolecular interactions with AlphaFold 3 | Nature
另外參考:
AlphaFold3|萬字長文解讀 (qq.com)