近日,北京智源大會「AI for Science」分論壇上,清華大學智能產業研究院副研究員周浩以「面向科學發現的生成式人工智能」為主題展開演講, HyperAI超神經在不違原意的前提下,對周浩教授的深度分享進行了整理匯總。
周浩教授演講現場
從文本生成到分子設計的跨界探索
本次演講,周浩教授主要從面向復雜符號的生成式人工智能、微觀樣本生成所面臨的挑戰、目前的具體研究內容 3 個方面進行闡述。
在介紹其相關研究方向時,周浩教授表示,過去 10 年他一直致力于包括文本生成和機器翻譯等自然語言的處理。近兩年來,其研究重點逐漸從內容創作轉向分子生成和蛋白質設計。 在他看來,如果將過去的文本處理工作視為一個復雜的語言符號系統,其中詞匯表由 26 個字母構成,那現在的工作就相當于將這 26 個字母擴展到元素周期表、氨基酸、堿基等更廣泛的領域。對于這些技術,他的研究團隊已經積累了豐富的經驗。
從專注于內容創作的人工智能到致力于科學發現的人工智能, 這兩者之間存在何種聯系?事實上,人工智能可以通過噪聲生成完整的圖像,許多北美的研究團隊也早已利用相似的方法來進行蛋白質設計。通過在空間中隨機排列蛋白質的氨基酸,再經過一系列從 0 到 2,000 步的生成設計,就可以設計出外觀上相當合理的氨基酸序列。
盡管目前該研究涉及的蛋白質長度還存在一定限制,但近期的研究成果已經顯著擴展了這些限制,也暗含了該項技術的巨大潛力,這或許是周浩教授選擇該領域的重要原因。
AI 從業者進行 Science 研究時遇到的多重挑戰
隨后,周浩教授向大家分享了從計算機科學或 AI 領域從業者的角度出發,探索科學領域的人工智能 (AI for Science) 主要面臨的 3 大挑戰。
第一,分子數據的特異性。 一般而言,文本和符號在處理時是離散的,圖像則是 0 到 1 之間的連續信號,但分子數據既包含離散元素,又包含連續元素。
例如,在計算機中存儲分子時,研究人員通常將其表示為原子坐標、原子類型,其中原子坐標是連續的,而原子類型是離散的,這形成了一種多模態數據,處理時難度較大。此外,分子還具有幾何約束,如旋轉、平移的不變性,這在文本或圖像處理中并不常見。
第二,文本和圖像的模型在蛋白質領域并不能完全復用。 分子數據不僅具有多模態特性,還對噪聲極其敏感。例如,在一張狗的圖片上加入噪聲,人們仍然能夠識別出這是一張狗的圖片。但是,如果在分子數據上加入即使很微小的噪聲,也可能導致人們無法識別分子的身份,造成大量信息丟失。因此,傳統的處理方法并不完全適用于這種新的數據類型。
第三,分子數據順序缺失。 文本對自左至右的依賴非常少,所以它可以通過 GPT 自左至右生成新的文本。但蛋白質的雙向依賴性非常強,其前后左右順序又不易確定,如果直接使用文本或圖像模型來生成分子結構,將面臨極大的困難。
為了應對上述挑戰,周浩教授團隊在數據結構、生成算法以及基座構建等方面進行了深入研究。
從數據結構出發,找到本征的數據刻畫空間
僅保留二面角自由度,重構分子 3D 結構表示
**「如何確定分子或目標數據結構的本征空間,是計算機人必須要解決的問題。」**周浩教授表示,分子的三維結構表示非常重要,可謂是結構即功能。過去,研究人員主要通過記錄原子的坐標、類型構建分子模型,進而獲取所需信息。然而,分子的結構很大,又包含大量的冗余信息,如果用過去的方式來建模,從計算機科學的角度來看,這并不是在分子的本征空間中進行觀察。
實際上,通過分析分子的鍵長、鍵角和二面角就會發現,分子鍵長、鍵角的峰值較少,自由度有限,而二面角則有較多的自由度。因此,周浩教授團隊設計了一種新方法,即保留二面角自由度的同時,移除其他冗余自由度。
具體來說,該研究可將三維結構轉化為二維表示,并通過分子碎片化處理,使得每個分子內部的自由度最小化,而 fragment 之間的自由度最大化,利用動態規劃技術,輕松解決 min-max 問題,之后再用算法將所有分子切割成目標數據結構。
論文題目: Regularized Molecular Conformation Fields
論文鏈接: https://neurips.cc/virtual/2022/poster/53277
「有了這種新的數據結構,如果未來需要進行分子生成,相關研究將會以極少的數據量來構建分子空間,這種思想極其重要!」
從實空間到譜空間,高效捕捉蛋白質幾何、化學信息
除了分子的研究之外,周浩教授團隊對蛋白質結構和功能的研究也很感興趣。
在研究蛋白質時,研究人員通常會從幾何信息、化學信息這兩個維度來觀察。眾所周知,蛋白質的形狀 (shape) 和表面化學信息對其功能至關重要,只有兩者互補,才能表現最佳。
為了高效地表示蛋白質的化學和幾何信息, 周浩教授團隊將蛋白質從實空間 Transform 到譜空間,再用本征函數來表示蛋白質。例如,使用 10 個本征函數捕捉蛋白質的低頻信息,從而解析出它的大致輪廓。另外,越多的本征函數就能捕捉越多的高頻信息,通過使用 1,000 個本征函數,就會捕捉到幾乎所有的蛋白質信息。
論文題目: Learning Harmonic Molecular Representations on Riemannian Manifold
論文鏈接: https://iclr.cc/virtual/2023/poster/10900
**「以上方法的優勢在于,它不僅能夠復制蛋白質的幾何信息,還能復制其化學信息。」**每個本征函數可被視為一個新的空間,蛋白質表面的化學信息可映射到這個本征空間中,在同一個空間既表達幾何信息、又表達化學信息,復雜的實空間問題就轉換成了簡單的譜空間問題。
從生成算法出發,設計適配分子的生成模型
盡管找到了最緊湊、本征的分子和蛋白質空間,但在成功識別這些空間之后,所面臨的下一個問題就是:如何利用生成式人工智能有效得到目標分子。
論文題目: MARS: Markov Molecular Sampling for Multi-objective Drug Discovery
論文鏈接: https://iclr.cc/virtual/2021/poster/3352
為了找到最適配的分子生成模型, 周浩教授團隊開發了一種名為 MARS 的模型,該模型采用無監督的多目標分子優化采樣來做 2D 的分子設計,其分子設計過程中需要滿足多個設計目標,這是一個在復雜高維空間中進行采樣的問題。采用馬爾可夫鏈蒙特卡洛 (MCMC) 框架來編輯分子,如果滿足細致平衡條件,就能生成任意的目標分子。
論文題目: Equivariant Flow Matching with Hybrid Probability Transport
論文鏈接: https://neurips.cc/virtual/2023/poster/70795
同時,周浩教授團隊提出的 EquiFM 是目前在探索分子數據幾何歸納偏置方面表現最好的生成模型,它在多個分子生成基準測試中都能獲得很好的性能,平均采樣速度提高了 4.75 倍。
論文題目: Unified Generative Modeling of 3D Molecules via Bayesian Flow Networks
論文鏈接: https://iclr.cc/virtual/2024/oral/19764
此外,GeoBFN 分子生成模型的核心是將數據空間中的所有分子數據轉換到高斯均值方差空間,從而生成具有高合法性和接近真實分布的分子。對此,周浩教授表示:「這是目前最適合分子的深度生成模型,存在極大的發展潛力。」
論文題目: MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space
論文鏈接: https://icml.cc/virtual/2024/poster/34336
除了這些工作,周浩教授團隊還曾在國際機器學習會議 (ICML) 上發表了一篇論文,探討將 GeoBFN 應用于結構藥物設計的可能性。研究結果表明,使用該模型生成的分子具有非常穩定的構象和良好活性。
從基座構建出發,建立富含廣袤數據知識預訓練基座
最后,周浩教授向大家分享了如何從基座構建出發,建立富含廣袤數據知識預訓練基座。
在現有研究中,小分子生成的實驗數據十分匱乏,嘗試用計算機科學的方法來解決這個問題是一種很重要的思路。
論文題目: Zero-Shot 3D Drug Design by Sketching and Generating
論文鏈接: https://neurips.cc/virtual/2022/poster/54457
對此,周浩教授團隊提出了一個新的想法,即將分子生成從靶點到分子的單步生成分解,變成從靶點到 shape,再從 shape 到分子的過程。 事實上,雖然從靶點直接到分子的數據量很少,但從 shape 到分子的數據量卻非常多,這些數據足夠從靶點采集各種各樣的 shape,再做從 shape 到分子的超大規模預訓練模型。最后很快實現從靶點到分子,甚至實現無監督或者少監督的藥物分子設計。
論文題目: Multimodal Molecular Pretraining via Modality Blending
論文鏈接: https://iclr.cc/virtual/2024/poster/17824
此外,他們提出的 MolBlend 模型,實現了二維和三維分子的聯合預訓練,這是典型從圖文預訓練到分子預訓練的拓展案例。
論文題目: Mol-AE: Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test Objective
論文鏈接: https://icml.cc/virtual/2024/poster/33340
另外,他們還提出了一種基于幾何完形填空的分子自編碼器 Mol-AE, 和 3D Cloze Test 的新訓練目標,所提模型能夠更好地學習真實分子結構中的原子空間關系,與目前最先進的三維分子建模方法相比,Mol-AE 實現了較大的性能提升。
蛋白質的通用預訓練研究也是他們選擇的一個方向。據了解,目前蛋白質的通用預訓練主要分為三大類:DeepMind Alphafold 系列、David Baker 的 RoseTTAFold 系列,以及 Meta ESM 系列,周浩教授團隊目前開發了其中的 ESM-AA 模型。
論文題目: Multi-Scale Protein Language Model for Unified Molecular Modeling
論文鏈接: https://icml.cc/virtual/2024/poster/35119
這是因為,從 Alphafold2 到 Alphafold3 的升級已經構建了全原子的基座,RoseTTAFold 系列同樣如此,只有 ESM 系列還沒有做全原子的基座。自去年 9 月份以來,周浩教授團隊一直在進行這項工作,結合原子和氨基酸詞匯表,可多尺度的實現蛋白質訓練,在蛋白質和小分子聯合任務中,ESM-AA 的表現優于單獨預訓練基座,如 ESM、其他蛋白質預訓練或小分子預訓練基座。
這項預訓練基座在 Twitter 上也獲得了廣泛好評。作為序列基座的代表,ESM-AA 后續將與結構基座的代表 RoseTTAFold 和 Alphafold3 競爭,「我想,這也是我們未來的目標。」周浩教授表示。
關于周浩教授
周浩,1990 年生,博士,清華大學副研究員。研究方向是面向復雜符號系統的生成式人工智能,主要的應用包括超大規模語言模型,分子生成,蛋白質設計,新材料發現等。
曾任字節跳動研究科學家和副總監,領導搭建了字節跳動的文本生成中臺和 AI 輔助藥物設計兩個方向的研發團隊,研發產品應用于全球 20 余個國家,用戶規模超過 10 億。他長期擔任 ICML、NeurIPS,ICLR,ACL 等人工智能頂級會議的領域主席,在人工智能重要國際會議上發表論文 80 余篇。獲 2019 年度中國人工智能學會優秀博士論文獎、自然語言處理領域頂級國際會議 ACL 2021 最佳論文獎 (1/3350) 、2021 年度中國計算機學會 NLPCC 青年新銳學者獎等榮譽。