一、引言:蛋白質生成模型面臨的評估挑戰
近年來,AI驅動的蛋白質結構生成模型取得了令人矚目的進展,但如何有效評估這些模型的質量卻一直是一個懸而未決的問題。雖然實驗驗證仍然是金標準,但計算機模擬評估對于快速開發和比較機器學習模型至關重要。然而,盡管最先進的模型在當前評估指標上表現卓越,但它們在實際設計應用中的成功率仍然相對有限。例如,有研究報告顯示生成結構的實驗成功率僅為3%,而計算機模擬評分卻遠高于此。
MIT CSAIL的Felix Faltings等研究人員在論文《Protein FID: Improved Evaluation of Protein Structure Generative Models》中提出了一個革命性的評估指標——Protein FID (Frechet Inception Distance),該指標能夠在有意義的潛在空間中衡量分布相似性,為蛋白質結構生成模型的評估提供了新的視角。
二、現有評估指標的局限性
目前,蛋白質設計領域最常用的體外評估指標包括可設計性(designability)、新穎性(novelty)和多樣性(diversity)。
可設計性指的是一個結構是否存在一個能夠折疊成該結構的序列。在實踐中,可設計性是通過生成基于給定結構的序列,然后檢查這些序列是否能夠折疊回原始結構來評估的。多樣性則通過考察模型生成的輸出之間的差異性來評估,通常是通過查看輸出空間中不同聚類的數量。而新穎性則檢查模型產生的記憶樣本的數量。
然而,這些指標都沒有捕捉到模型對訓練數據中代表的設計空間的采樣情況。例如,一個模型可能會生成高度多樣化、新穎且可設計的蛋白質,但卻從不生成任何β折疊結構,而β折疊結構可能對解決某些設計問題至關重要。事實上,許多生成模型被觀察到過度采樣α螺旋,而犧牲了其他二級結構。如下圖所示,即使是在PDB數據庫中的天然蛋白質,其可設計性也只有80%左右,遠低于當前生成模型聲稱的接近99%的可設計性。
圖1:PDB蛋白質的可設計性。按長度劃分的PDB條目中可設計結構的比例,包括由ProteinMPNN設計的序列和天然序列。紅色水平線表示整個集合的平均值。
由圖1可見,在所有長度范圍內,約有四分之一的PDB結構不被認為是可設計的。即使對于較短的蛋白質,可設計性也遠低于生成模型所達到的水平,而當考慮原生蛋白質序列而不是由ProteinMPNN生成的序列時,這個數字甚至更低。這表明像Multiflow這樣聲稱在類似長度范圍內達到99%可設計性的最先進蛋白質結構生成模型可能過度優化了這一指標。
參考鏈接:https://mp.weixin.qq.com/s/-4DMDXmpc-QAHE2OKHk-QQ