ESM(Evolutionary Scale Modeling)是 Meta AI Research 團隊開發的一系列用于蛋白質的預訓練語言模型。這些模型在蛋白質結構預測、功能預測和蛋白質設計等領域展現出了強大的能力。以下是對 ESM 的詳細介紹:
核心特點
- 大規模預訓練:基于大規模蛋白質序列數據進行無監督學習,學習到蛋白質序列中的進化信息和潛在模式。
- Transformer 架構:采用 Transformer 架構,能夠捕捉蛋白質序列中的長程依賴關系,從而更好地理解蛋白質的結構和功能。
- 多任務應用:可以用于多種蛋白質相關任務,如結構預測、功能預測、突變效應預測和蛋白質設計等。
主要模型版本
- ESM - 1 和 ESM - 1b:這是 ESM 系列的早期模型,為后續模型的發展奠定了基礎。在蛋白質結構和功能預測方面取得了一定的成果。
- ESM - 2:是 SOTA 通用蛋白質語言模型,可直接從單個序列預測蛋白質的結構、功能和其他屬性。與之前的模型相比,ESM - 2 在多個結構預測任務中表現更優,超過了所有測試的單序列蛋白質語言模型。
- ESM - 1v:專門用于預測蛋白質變體效應的語言模型,能夠進行零樣本預測序列變異對蛋白質功能的影響。
- ESM - MSA - 1b:一種 MSA(多序列比對)Transformer 語言模型,可用于從 MSA 中提取嵌入信息,實現了最先進的結構推理。
- ESM - IF1