上海交通大學第三屆「AI for Bioengineering 暑期學校」于 2025 年 8 月 8—10 日正式開啟。本次暑期學校匯聚了自全球 70 余所高校、 10 余所科研機構及 10 余家行業領軍企業的 200 余位青年才俊、科研學者和產業代表,共同聚焦于人工智能(AI)與生物工程(Bioengineering)的融合發展。
其中,在「AI 算法前沿」課程板塊,上海交通大學自然科學研究院 &洪亮課題組博士后李明辰以「蛋白質與基因組基礎大模型」為主題,向大家分享了蛋白質語言模型在功能預測、序列生成、結構預測等方向的前沿成果,以及擴展定律、基因組模型的相關研究進展。
李明辰博士演講現場
HyperAI 超神經在不違原意的前提下,對李明辰博士的精彩分享進行了整理匯總,以下為演講精華實錄。
蛋白質語言模型新型分類:蛋白質結構、序列和功能的關系
蛋白質的用途極其廣泛,其功能可以應用于化工、農業、食品、美妝、醫藥、檢測等多個領域,市場規模達到萬億級別。從簡單的角度來講,蛋白質語言模型是一個概率分布問題。它相當于給定一個氨基酸序列,判斷其在自然界中出現的概率并據此進行采樣。通過海量的數據預訓練,模型能夠較好地表示自然界中的概率分布。
蛋白質語言模型具有三大類核心功能:
* 將蛋白質序列表示為高維向量的學習過程
* 判別氨基酸序列的合理性
* 生成新的蛋白質序列
很多研究論文在介紹蛋白質語言模型的分類時會按照 Transformer 架構型分類,直接介紹基于 Transformer Encoder 或者基于 Transformer Decoder 的內容。這樣的分類方法對于生物學科的研究人員而言不易理解,通常會造成困惑,因此我來介紹一種新的分類方法:基于蛋白質結構、序列和功能之間的關系進行分類。
蛋白質的序列即氨基酸序列,一旦明確了氨基酸序列,我們便能夠在實驗室或工廠中進行合成,并將其應用到實際中。蛋白質的結構同樣至關重要,之所以能夠發揮功能,正是因為其在三維空間中形成了一定的結構,而這種結構能夠從微觀層面實現功能。
根據這一思路,可以將蛋白質語言模型分為以下四類:
1. 序列→功能:根據給定的氨基酸序列預測其功能,即?「功能預測模型」。
2. 功能→序列:根據給定功能設計對應的氨基酸序列,包括?「生成模型」和?「挖掘模型」。
3. 序列→結構:根據氨基酸序列預測其結構,通常稱為?「結構預測模型」,諾獎成果 AlphaFold 就屬于此類模型。
4. 結構→序列:根據給定蛋白質結構設計對應的序列,通常稱為?「逆折疊模型」。
應用場景與技術路徑:四種主流模式解析
「序列→功能」
理解「序列→功能」的一個最簡單的思路就是監督學習。
首先是最基礎的功能預測模型,該過程是把蛋白質序列表達成向量,然后在一個特殊的數據集上進行訓練。例如:我們想預測蛋白質的熔點,首先要收集一大批蛋白質熔點標簽的數據,把訓練集中所有的蛋白質序列都轉成高維向量,并用監督學習的方法進行訓練,最后為測試或者預測集中的序列上進行推理,預測功能。這種方法能做的任務非常多,是目前研究的熱點方向之一,同時也是一個比較容易產出成果的研究方向。
其次,蛋白質語言模型還能進行突變功能預測,其核心思想是在蛋白質序列中將某些氨基酸做一些改變,然后利用蛋白質語言模型判斷這個改變是否「合理」。
這里的「合理」,并不是指生活中的合乎邏輯,而是指這種氨基酸變化是否符合自然蛋白質序列的概率分布。這個概率分布來自大量真實的氨基酸序列統計,而這些氨基酸分布本身就是上千萬年進化的產物。
蛋白質語言模型在訓練中學習了這種進化規律,因此能夠判斷某個突變是符合進化規律,還是偏離進化規律。從數學的角度來看,這一判斷可以轉化為突變前后兩個序列概率的比值,為了便于計算,通常會對比值取對數,將其轉化為減法形式。
語言模型對突變體和野生型之間的似然比能估計突變效應的強弱,這一思路最早由 2018 年 Nature Methods 上的一篇介紹 DeepSequence 模型的論文提出了驗證,但當時模型規模還相對較小。隨后在 2021 年,ESM-1v 模型進一步表明蛋白質語言模型同樣能夠通過似然比有效預測突變效應。
要評價蛋白質突變功能預測模型的準確性,就需要一個 Benchmark 。
所謂 Benchmark 就是一些為衡量準確性所收集的眾多小量數據,例如由哈佛醫學院和牛津大學聯合開發的 ProteinGym,是目前最常用的一個 Benchmark,內含 217 個突變蛋白的數據,數百萬個突變序列。研究人員會讓蛋白質語言模型逐一對這些突變序列打分,再將模型預測的分數與真實的分數進行對比,如果相關性越高,就說明模型的性能越好。
不過,ProteinGym 屬于高通量、低精度的 Benchmark 。受實驗條件限制,它可以進行大規模測試,但在精度上可能有所不足。如果重復一次實驗,結果和原始數據的相關性可能會有誤差,導致評測結果不能準確反映模型實際應用的表現好壞。
為了解決這個問題,我們開發了 VenusMutHub 這樣的低通量、高精度的小樣本 Benchmark 。它的數據量雖然不大,但每一條數據都比較精確,而且重復實驗的結果幾乎一致,更貼近真應用場景。
* 論文地址:Zhang L, Pang H, Zhang C, et al. VenusMutHub: A systematic evaluation of protein mutation effect predictors on small-scale experimental data[J]. Acta Pharmaceutica Sinica B, 2025, 15(5): 2454-2467.
除此之外,還可以引入結構來增強的蛋白質語言模型的突變預測準確度。我們團隊去年在 NeurIPS 上發表了一篇蛋白質語言模型的工作——ProSST 模型,運用了蛋白質的氨基酸序列和蛋白質結構化的序列完成了一個多模態的預訓練,在目前最大規模零樣本突變效應預測的 ProteinGym Benchmark 上,ProSST 排名第一。
* 論文地址:Li M, Tan Y, Ma X, et al. ProSST: Protein language modeling with quantized structure and disentangled attention[C]. Advances in Neural Information Processing Systems, 2024, 37: 35700-35726.
大家在做實驗或者做設計的時候會經常碰到一類問題:「就是我該用哪個模型?」「作為使用者我該怎么選?」
在今年發表的一項研究中,我們團隊發現蛋白質語言模型對目標序列的困惑度(Perplexity)可以大致反映它在突變預測任務中的準確性,好處在于不需要任何目標蛋白突變數據的情況下,就能夠給出一個性能預估。具體體現在困惑度越低,說明模型對該序列的理解越好,也往往意味著它在該序列上的突變預測會更準確。
基于這一想法,我們開發了一個集成模型——VenusEEM 。其根據困惑度來確定模型的權重,或直接選擇困惑度最低的模型,這能夠把突變預測準確度提升到一個較高的標準。無論面對哪類策略,最終的預測分數都相對穩定,不會出現因為選錯模型而導致性能明顯下降的情況。
* 論文地址:Yu Y, Jiang F, Zhong B, et al. Entropy-driven zero-shot deep learning model selection for viral proteins[J]. Physical Review Research, 2025, 7(1): 013229.
最后,在「序列→功能」方向的研究中,除前面提到的幾類模型外,我們團隊去年還開發了一種新型的迭代式高位點突變設計模型 PRIME 。具體而言,我們首先在 9,800 萬條蛋白質序列上預訓練了一個大型蛋白質語言模型。在高位點突變預測任務中,先獲取低位點突變數據,并輸入到蛋白質語言模型中,將其編碼為功能向量;再基于該功能向量訓練回歸模型,用于預測高點突變。通過這種來回迭代式的反應,僅需 2-3 輪實驗就能夠把一個優異的蛋白質產品開發出來。
* 論文地址:Jiang F, Li M, Dong J, et al. A general temperature-guided language model to design proteins of enhanced stability and activity[J]. Science Advances, 2024, 10(48): eadr2641.
「功能→序列」
前面講的都是從序列到功能,我們想一下是不是能夠從功能反推出序列呢?
序列與功能之間,存在一個正逆向的問題。正向問題就像在尋找一個確定的答案,但是逆向問題是在一個巨大的可行空間中尋找一個可解性,而「從功能生成序列」就是這個逆向問題。究其原因在于:序列通常只對應一或少數幾個功能,但一個功能可以由多種完全不同的序列來實現。與此同時,逆向問題沒有可信的 Benchmark,當模型根據給定功能生成序列時,通常只能通過實驗檢測準確性。
在當前的研究中,從功能到序列的設計大多采用模板化思路,如果已知某個模板蛋白具備特定功能,就可以以它為基礎去尋找或者生成一個新的區域。其流程是先從功能到模板序列,從模板蛋白可能會搜索出來一些家族蛋白/同源蛋白,再對蛋白質語言模型進行微調,利用微調后的語言模型生成新的序列區域,最終進行實驗檢測。
目前較具代表性的兩個生成式蛋白質語言模型包括:
* ESM-3,以綠色熒光蛋白(GFP)為模板進行生成,但其所生成的蛋白功能較弱。
* ProGen 純自回歸式語言模型,類似 ChatGPT 可根據功能提示進行生成,其在溶菌酶的蛋白架構上進行微調從而生成。
除了直接生成新蛋白序列,還可以從現有的海量蛋白序列中直接搜索。將模板蛋白編碼到高維空間,根據向量距離判斷這兩個蛋白是否具有相同的功能,最后在一個數據庫中進行檢索。這個思路的原理在于,高維空間里兩個蛋白質的編碼或向量之間的距離能夠大致反映出這兩個蛋白質的功能是否類似。
下圖所示,列舉了兩個目前比較典型的應用蛋白質語言模型挖掘蛋白質的案例。其一,西湖大學開發的 ESM-Ezy,基于 ESM-1b 模型來進行向量搜索,挖掘出多重表達進行填充。其二,VenusMine 大模型挖掘高效 PET 水解酶。
* 論文地址:Wu B, Zhong B, Zheng L, et al. Harnessing protein language model for structure-based discovery of highly efficient and robust PET hydrolases[J]. Nature Communications, 2025, 16(1): 6211.
除了「功能→序列」,還可以在功能與序列之間增加「媒介」:
* 當結構作為中間媒介:根據功能推測蛋白結構(常用工具如: RFdiffusion),再將生成的結構輸入逆折疊蛋白質語言模型(如 ProteinMPNN)最后生成序列。
* 當自然語言作為媒介:如研究論文「A text-guided protein design framework」中所介紹的方法,通過對比學習將自然語言和蛋白質序列對齊到一個高位空間,然后就可以直接在這個高位空間里面通過自然語言引導來生成一個蛋白的序列。
「序列→結構」
在序列→結構方向,最經典的模型無疑是 AlphaFold 。那么,為什么我們還需要蛋白質語言模型來做結構預測呢?最主要的原因是——快。
AlphaFold 之所以較慢,主要原因是 MSA(多序列比對)搜索依賴于 CPU 在大型數據庫中進行檢索,當然也可以使用 GPU 加速,但其實加速效果反而更慢。其次,AlphaFold 在折疊過程中還需要進行模板匹配,同樣消耗了大量時間。如果將這兩個模塊替換為蛋白質語言模型,能夠極大地加速結構預測的過程。然而,根據目前已發表的研究,基于蛋白質語言模型的結構預測在大多數評測指標上的精度仍整體低于 AlphaFold 模型。
目前幾個比較常見的從序列到結構的蛋白質語言模型,采取了利用蛋白質語言模型提取的特征替代 MSA 的共同思路:
* ESMFold(Meta):第一個使用蛋白質語言模型直接預測蛋白質結構的方法,在不依賴 MSA 搜索的情況下實現了較高精度。
*?Proteinix-MINI(字節跳動):采用蛋白質語言模型代替 MSA ,同樣達到了非常快速的效果,預測精度接近 AlphaFold 3 模型。
* xTrimo-Fold(百圖生科):運用了千億參數模型的特征代替 MSA,搜索速度得到了加快。
「結構→序列」
根據已知功能設計出結構,但如何將其在實驗室中合成出來呢?我們還需要把它轉化成氨基酸的序列,這就是先前提到的「逆折疊語言模型」。
逆折疊語言模型可以理解為 AlphaFold 的「逆向問題」。不同于 AlphaFold 從氨基酸序列預測三維結構,逆折疊模型的目標是學習一個從蛋白質 3D 結構向氨基酸序列的映射函數。
我分享的幾個此領域的工作:第一個工作是來自西湖大學研究團隊的 PiFold 模型,其架構的一大創新在于采用非自回歸生成方式。
第二個是 David Baker 課題組開發的 ProteinMPNN,作為是目前應用最廣泛的逆折疊模型之一,其采用自回歸生成方式,通過圖神經網絡對單個蛋白質結構進行編碼,再逐個生成氨基酸序列。
此外,Meta 公司提出的 ESM-IF 也是一項重要進展,其亮點在于直接利用 AlphaFold 預測的大規模結構數據,將數千萬條蛋白質序列統一預測出對應的三維結構,并以此構建了一個超大規模的訓練集。 ESM-IF 的訓練數據達到千萬級別,模型參數量超過一億。在此基礎上,該模型除了能夠完成逆折疊任務,也在突變穩定性預測上表現出極強的性能。
多重方式實現蛋白質語言模型的增強
最后,補充一個當下非常熱門的研究方向——蛋白質語言模型的增強。如果你打算在這個領域開展研究,可以從以下思路切入——引入外部信息、改進內部架構。
1. 引入外部信息
* 功能信息:例如將溫度、 pH 等功能輸入到 Transformer 中。這些信息既可以顯式地融入模型輸入,也可以通過學習的動作,從而增強蛋白質語言模型的性能。
* 結構信息:引入三維結構或結構化序列信息。
* MSA 信息:多序列比對(MSA)是一類非常有用的信息,將其引入語言模型往往能顯著提升性能。
* 自然語言信息:近年來也有研究嘗試加入自然語言信息,但這一方向仍在探索中。
2. 改進內部架構
* 擴展定律:通過大幅增加模型參數量與訓練數據規模來換取性能提升。
*?提升數據質量:降低數據中的噪聲,提升精度。
* 新型架構探索:如 CARP 、 ProtMamba 、 Evo 架構等。
近年來,利用蛋白質結構信息增強模型性能成為熱門研究方向。
早期的代表性研究之一是發表于 2021 年的論文「Learning the protein language: Evolution, structure, and function」,其展示了如何通過結構信息提升蛋白質語言模型的能力。在此之后,SaProt 模型提出了一種頗為巧妙的做法,其將蛋白質的氨基酸詞表與 Foldseek 為蛋白質結構生成的 20 個虛擬結構詞表進行拼接,最終得到一個大小為 400(20 × 20)的聯合詞表。基于這一詞表訓練掩碼語言模型,取得了優異的精度。
我們團隊也自主訓練了一個針對蛋白質序列和結構的多模態預訓練模型 ProSST,該模型通過將蛋白質的連續結構轉化為離散的 token(2,048 種不同的 token),從而實現了結構信息的離散化表示。
在蛋白質語言模型中加入結構信息可以顯著提升模型性能。然而,在這一過程中可能會遇到一個問題:如果直接使用 AlphaFold 預測得到的結構數據進行訓練,雖然訓練集上的損失在逐步降低,但驗證集或測試集上的損失卻逐漸增大。解決這一問題的關鍵在于對結構信息進行正則化,通俗地講,就是簡化復雜的數據,使其更適合模型處理。
蛋白質的結構在三維空間中通常表示為連續坐標,需要通過將其轉化為離散的整數序列來簡化這一過程。為此,我們使用了一種圖神經網絡架構,并采用降噪編碼器進行訓練,最終構建了一個包含約 2,048 種 token 的離散結構詞表。
有了結構信息和序列信息后,我們選擇了交叉注意力機制來將兩者結合,從而使得改造后的 Transformer 模型能夠同時輸入氨基酸和結構序列。在預訓練階段,我們將這一模型設計為一個研發語言模型任務,訓練數據包含超過 1,880 萬條高質量蛋白質結構,參數規模約 1.1 億。該模型在當時達到了領先水平,盡管之后已被更新的模型所超越,但在發布之時仍是同類任務中的最佳結果。
利用 MSA(多序列比對)增強蛋白質語言模型,也是提升模型性能的重要手段。最早可以追溯到 MSA-Transformer,它通過引入行規則和列規則的機制有效地將 MSA 信息融入到模型中。最近發布的 PoET2 模型,使用了層次編碼器來處理 MSA 信息,并將其整合進一個全通的模型結構中,經過大規模訓練后,展現了出色的性能表現。
擴展定律:模型變大一定更強嗎?
所謂擴展定律(Scaling Law),最早來源于自然語言處理領域。它揭示了一個普遍規律:模型性能會隨著參數規模、訓練數據量以及計算資源的增加而持續提升。
其中,參數規模是決定模型性能上限的關鍵因素。如果參數量不足,即使投入更多計算資源(通俗地講就是「花更多錢」),模型的性能也會遇到瓶頸。在蛋白質語言模型領域,同樣存在這樣的規律,并且已經被多篇研究證實,代表性工作如:代表性工作如:RITA 、 xTrimoPGLM 、 ProGEN3 、 Amix-1 。
* RITA 模型:由牛津大學、哈佛醫學院聯合 LightOn AI 公司開發。
* xTrimoPGLM 模型:由百圖生科團隊開發,實現將模型參數規模擴展至約千億級。
* ProGEN3 模型:由 Profluent 生物公司團隊開發。
* Amix-1 模型:由清華大學智能產業研究院聯合上海人工智能實驗室提出,采用貝葉斯流匹配的網絡架構,同樣具有擴展定律。
前面我們提到的「擴展定律」,是預訓練過程。但在蛋白質研究中,我們最終關心的往往是下游任務的效果。那么問題來了:預訓練性能提升,對下游任務是否一定有幫助?
在 xTrimoPGLM 的評測中,研究團隊發現,在約 44% 的下游任務中,確實存在「預訓練性能越好則下游表現越強」的正相關關系。
與此同時,Amix-1 模型在結構預測任務中,觀察到了涌現能力(Emergent Capability)。其指在一些任務中,小模型完全不具備解決能力,但當模型參數規模突破某個臨界點后,性能突然顯著提升。在該實驗中,這種現象在結構預測任務中尤為明顯,當參數突破臨界點時,性能提升呈現出一條「斷崖式紅線」。
雖然在部分任務中,大模型確實能帶來更好的下游表現。但是下游任務也發現了一種逆擴展定律(Inverse Scaling),即模型越小,性能反而變得越好。
有研究表明,如果訓練數據本身存在大量噪聲時,單純增加模型參數量并不能改善結果,因此大家應該更關注數據的質量。在 ProteinGym 基準上的蛋白質突變預測任務中發現,中等規模的模型在準確率上表現反而較好。另外開發 xTirmoPGLM 的團隊也發現了存在一些非正相關的案例,即預訓練的性能跟下游任務的性能不相匹配。
基因組模型:從 DNA 設計到蛋白質產量優化
基因組模型解決的問題是:我們如何去生產一個蛋白質?
在合成生物學中,生產一個蛋白質遵循分子生物學的中心法則:「DNA → RNA → 蛋白質」。在細胞中,這個過程由細胞體內管控,我們可以通過設計基因來完成這個過程。但核心在于,基因的設計會直接影響蛋白質的產量。
在實際應用中,常常會遇到這樣的情況:某個蛋白質在功能上表現優異,但由于基因設計不佳,其表達量極低,無法滿足工業化或大規模應用的需求。此時,AI 模型便可發揮作用。
AI 模型的任務就是實現直接從蛋白質序列反推出如何設計 DNA 序列,并令其產量提升。我們團隊提出的模型 ProDMM 就是基于預訓練策略,整體分為兩個階段:
第一個階段,聯合預訓練學習蛋白質和 DNA 的表征。輸入包括蛋白質序列和 DNA 序列, 通過 Transformer 架構進行語言模型的訓練。目標是同時學習蛋白質序列、密碼子序列以及 DNA 序列的表征。第二階段,在下游任務上訓練生成任務,例如:從蛋白質到編碼序列(CDS),給定一個蛋白質就能夠生成出來一列 DNA 序列。
* 論文地址:Li M, Ren Y, Ye P, et al. Harnessing A Unified Multi-modal Sequence Modeling to unveil Protein-DNA Interdependency[J]. bioRxiv, 2025: 2025.02. 26.640480.
從密碼子到非編碼 DNA(NCDS)的目標任務意在完成密碼子優化、 5’-UTR 的設計、啟動子設計、代謝通路設計。
其中,代謝通路設計是指為合成一個特定產品服務時,基因中的多個蛋白質需要協同工作。我們需要優化整個代謝通路的產物,這一任務是基因組模型才能完成的,因為蛋白質模型僅針對單一蛋白質進行優化,且是上下文無關的。而基因組模型面臨的一個巨大挑戰是,它需要考慮細胞內環境的相互關系,這也是基因組模型目前面臨的最大難題。
關于李明辰博士
本次分享嘉賓上海交通大學自然科學研究院洪亮課題組博士后李明辰,于華東理工大學獲計算機科學與技術專業工學博士學位及數學專業理學學士學位,主要研究方向為預訓練蛋白質語言模型及其微調。
曾獲上海市優秀畢業生、國家獎學金、「互聯網+」大學生創新創業大賽上海賽區金獎;以第一作者/共同第一作者/通訊作者身份在 NeurIPS 、 Science Advances 、 Journal of Cheminformatics 、 Physical Review Research 等期刊會議上發表 SCI 論文共 10 篇,參與發表 SCI 論文 10 篇。
一鍵獲取 2023—2024 年 AI4S 領域高質量論文及深度解讀文章 ??