AI從業者怎么做Science?清華大學AIR周浩:從文本生成到蛋白質設計的跨界探索

近日,北京智源大會「AI for Science」分論壇上,清華大學智能產業研究院副研究員周浩以「面向科學發現的生成式人工智能」為主題展開演講, HyperAI超神經在不違原意的前提下,對周浩教授的深度分享進行了整理匯總。

周浩教授演講現場

從文本生成到分子設計的跨界探索

本次演講,周浩教授主要從面向復雜符號的生成式人工智能、微觀樣本生成所面臨的挑戰、目前的具體研究內容 3 個方面進行闡述。

在介紹其相關研究方向時,周浩教授表示,過去 10 年他一直致力于包括文本生成和機器翻譯等自然語言的處理。近兩年來,其研究重點逐漸從內容創作轉向分子生成和蛋白質設計。 在他看來,如果將過去的文本處理工作視為一個復雜的語言符號系統,其中詞匯表由 26 個字母構成,那現在的工作就相當于將這 26 個字母擴展到元素周期表、氨基酸、堿基等更廣泛的領域。對于這些技術,他的研究團隊已經積累了豐富的經驗。

從專注于內容創作的人工智能到致力于科學發現的人工智能, 這兩者之間存在何種聯系?事實上,人工智能可以通過噪聲生成完整的圖像,許多北美的研究團隊也早已利用相似的方法來進行蛋白質設計。通過在空間中隨機排列蛋白質的氨基酸,再經過一系列從 0 到 2,000 步的生成設計,就可以設計出外觀上相當合理的氨基酸序列。

盡管目前該研究涉及的蛋白質長度還存在一定限制,但近期的研究成果已經顯著擴展了這些限制,也暗含了該項技術的巨大潛力,這或許是周浩教授選擇該領域的重要原因。

AI 從業者進行 Science 研究時遇到的多重挑戰

隨后,周浩教授向大家分享了從計算機科學或 AI 領域從業者的角度出發,探索科學領域的人工智能 (AI for Science) 主要面臨的 3 大挑戰。

第一,分子數據的特異性。 一般而言,文本和符號在處理時是離散的,圖像則是 0 到 1 之間的連續信號,但分子數據既包含離散元素,又包含連續元素。

例如,在計算機中存儲分子時,研究人員通常將其表示為原子坐標、原子類型,其中原子坐標是連續的,而原子類型是離散的,這形成了一種多模態數據,處理時難度較大。此外,分子還具有幾何約束,如旋轉、平移的不變性,這在文本或圖像處理中并不常見。

第二,文本和圖像的模型在蛋白質領域并不能完全復用。 分子數據不僅具有多模態特性,還對噪聲極其敏感。例如,在一張狗的圖片上加入噪聲,人們仍然能夠識別出這是一張狗的圖片。但是,如果在分子數據上加入即使很微小的噪聲,也可能導致人們無法識別分子的身份,造成大量信息丟失。因此,傳統的處理方法并不完全適用于這種新的數據類型。

第三,分子數據順序缺失。 文本對自左至右的依賴非常少,所以它可以通過 GPT 自左至右生成新的文本。但蛋白質的雙向依賴性非常強,其前后左右順序又不易確定,如果直接使用文本或圖像模型來生成分子結構,將面臨極大的困難。

為了應對上述挑戰,周浩教授團隊在數據結構、生成算法以及基座構建等方面進行了深入研究。

從數據結構出發,找到本征的數據刻畫空間

僅保留二面角自由度,重構分子 3D 結構表示

**「如何確定分子或目標數據結構的本征空間,是計算機人必須要解決的問題。」**周浩教授表示,分子的三維結構表示非常重要,可謂是結構即功能。過去,研究人員主要通過記錄原子的坐標、類型構建分子模型,進而獲取所需信息。然而,分子的結構很大,又包含大量的冗余信息,如果用過去的方式來建模,從計算機科學的角度來看,這并不是在分子的本征空間中進行觀察。

實際上,通過分析分子的鍵長、鍵角和二面角就會發現,分子鍵長、鍵角的峰值較少,自由度有限,而二面角則有較多的自由度。因此,周浩教授團隊設計了一種新方法,即保留二面角自由度的同時,移除其他冗余自由度。

具體來說,該研究可將三維結構轉化為二維表示,并通過分子碎片化處理,使得每個分子內部的自由度最小化,而 fragment 之間的自由度最大化,利用動態規劃技術,輕松解決 min-max 問題,之后再用算法將所有分子切割成目標數據結構。

論文題目: Regularized Molecular Conformation Fields

論文鏈接: https://neurips.cc/virtual/2022/poster/53277

「有了這種新的數據結構,如果未來需要進行分子生成,相關研究將會以極少的數據量來構建分子空間,這種思想極其重要!」

從實空間到譜空間,高效捕捉蛋白質幾何、化學信息

除了分子的研究之外,周浩教授團隊對蛋白質結構和功能的研究也很感興趣。

在研究蛋白質時,研究人員通常會從幾何信息、化學信息這兩個維度來觀察。眾所周知,蛋白質的形狀 (shape) 和表面化學信息對其功能至關重要,只有兩者互補,才能表現最佳。

為了高效地表示蛋白質的化學和幾何信息, 周浩教授團隊將蛋白質從實空間 Transform 到譜空間,再用本征函數來表示蛋白質。例如,使用 10 個本征函數捕捉蛋白質的低頻信息,從而解析出它的大致輪廓。另外,越多的本征函數就能捕捉越多的高頻信息,通過使用 1,000 個本征函數,就會捕捉到幾乎所有的蛋白質信息。

論文題目: Learning Harmonic Molecular Representations on Riemannian Manifold

論文鏈接: https://iclr.cc/virtual/2023/poster/10900

**「以上方法的優勢在于,它不僅能夠復制蛋白質的幾何信息,還能復制其化學信息。」**每個本征函數可被視為一個新的空間,蛋白質表面的化學信息可映射到這個本征空間中,在同一個空間既表達幾何信息、又表達化學信息,復雜的實空間問題就轉換成了簡單的譜空間問題。

從生成算法出發,設計適配分子的生成模型

盡管找到了最緊湊、本征的分子和蛋白質空間,但在成功識別這些空間之后,所面臨的下一個問題就是:如何利用生成式人工智能有效得到目標分子。

論文題目: MARS: Markov Molecular Sampling for Multi-objective Drug Discovery

論文鏈接: https://iclr.cc/virtual/2021/poster/3352

為了找到最適配的分子生成模型, 周浩教授團隊開發了一種名為 MARS 的模型,該模型采用無監督的多目標分子優化采樣來做 2D 的分子設計,其分子設計過程中需要滿足多個設計目標,這是一個在復雜高維空間中進行采樣的問題。采用馬爾可夫鏈蒙特卡洛 (MCMC) 框架來編輯分子,如果滿足細致平衡條件,就能生成任意的目標分子。

論文題目: Equivariant Flow Matching with Hybrid Probability Transport
論文鏈接: https://neurips.cc/virtual/2023/poster/70795

同時,周浩教授團隊提出的 EquiFM 是目前在探索分子數據幾何歸納偏置方面表現最好的生成模型,它在多個分子生成基準測試中都能獲得很好的性能,平均采樣速度提高了 4.75 倍。

論文題目: Unified Generative Modeling of 3D Molecules via Bayesian Flow Networks
論文鏈接: https://iclr.cc/virtual/2024/oral/19764

此外,GeoBFN 分子生成模型的核心是將數據空間中的所有分子數據轉換到高斯均值方差空間,從而生成具有高合法性和接近真實分布的分子。對此,周浩教授表示:「這是目前最適合分子的深度生成模型,存在極大的發展潛力。」

論文題目: MolCRAFT: Structure-Based Drug Design in Continuous Parameter Space
論文鏈接: https://icml.cc/virtual/2024/poster/34336

除了這些工作,周浩教授團隊還曾在國際機器學習會議 (ICML) 上發表了一篇論文,探討將 GeoBFN 應用于結構藥物設計的可能性。研究結果表明,使用該模型生成的分子具有非常穩定的構象和良好活性。

從基座構建出發,建立富含廣袤數據知識預訓練基座

最后,周浩教授向大家分享了如何從基座構建出發,建立富含廣袤數據知識預訓練基座。

在現有研究中,小分子生成的實驗數據十分匱乏,嘗試用計算機科學的方法來解決這個問題是一種很重要的思路。

論文題目: Zero-Shot 3D Drug Design by Sketching and Generating
論文鏈接: https://neurips.cc/virtual/2022/poster/54457

對此,周浩教授團隊提出了一個新的想法,即將分子生成從靶點到分子的單步生成分解,變成從靶點到 shape,再從 shape 到分子的過程。 事實上,雖然從靶點直接到分子的數據量很少,但從 shape 到分子的數據量卻非常多,這些數據足夠從靶點采集各種各樣的 shape,再做從 shape 到分子的超大規模預訓練模型。最后很快實現從靶點到分子,甚至實現無監督或者少監督的藥物分子設計。

論文題目: Multimodal Molecular Pretraining via Modality Blending
論文鏈接: https://iclr.cc/virtual/2024/poster/17824

此外,他們提出的 MolBlend 模型,實現了二維和三維分子的聯合預訓練,這是典型從圖文預訓練到分子預訓練的拓展案例。

論文題目: Mol-AE: Auto-Encoder Based Molecular Representation Learning With 3D Cloze Test Objective

論文鏈接: https://icml.cc/virtual/2024/poster/33340

另外,他們還提出了一種基于幾何完形填空的分子自編碼器 Mol-AE, 和 3D Cloze Test 的新訓練目標,所提模型能夠更好地學習真實分子結構中的原子空間關系,與目前最先進的三維分子建模方法相比,Mol-AE 實現了較大的性能提升。

蛋白質的通用預訓練研究也是他們選擇的一個方向。據了解,目前蛋白質的通用預訓練主要分為三大類:DeepMind Alphafold 系列、David Baker 的 RoseTTAFold 系列,以及 Meta ESM 系列,周浩教授團隊目前開發了其中的 ESM-AA 模型。

論文題目: Multi-Scale Protein Language Model for Unified Molecular Modeling
論文鏈接: https://icml.cc/virtual/2024/poster/35119

這是因為,從 Alphafold2 到 Alphafold3 的升級已經構建了全原子的基座,RoseTTAFold 系列同樣如此,只有 ESM 系列還沒有做全原子的基座。自去年 9 月份以來,周浩教授團隊一直在進行這項工作,結合原子和氨基酸詞匯表,可多尺度的實現蛋白質訓練,在蛋白質和小分子聯合任務中,ESM-AA 的表現優于單獨預訓練基座,如 ESM、其他蛋白質預訓練或小分子預訓練基座。

這項預訓練基座在 Twitter 上也獲得了廣泛好評。作為序列基座的代表,ESM-AA 后續將與結構基座的代表 RoseTTAFold 和 Alphafold3 競爭,「我想,這也是我們未來的目標。」周浩教授表示。

關于周浩教授

周浩,1990 年生,博士,清華大學副研究員。研究方向是面向復雜符號系統的生成式人工智能,主要的應用包括超大規模語言模型,分子生成,蛋白質設計,新材料發現等。

曾任字節跳動研究科學家和副總監,領導搭建了字節跳動的文本生成中臺和 AI 輔助藥物設計兩個方向的研發團隊,研發產品應用于全球 20 余個國家,用戶規模超過 10 億。他長期擔任 ICML、NeurIPS,ICLR,ACL 等人工智能頂級會議的領域主席,在人工智能重要國際會議上發表論文 80 余篇。獲 2019 年度中國人工智能學會優秀博士論文獎、自然語言處理領域頂級國際會議 ACL 2021 最佳論文獎 (1/3350) 、2021 年度中國計算機學會 NLPCC 青年新銳學者獎等榮譽。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/36173.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/36173.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/36173.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

遠程過程調用(RPC)

Hi~!這里是奮斗的小羊,很榮幸您能閱讀我的文章,誠請評論指點,歡迎歡迎 ~~ 💥💥個人主頁:奮斗的小羊 💥💥所屬專欄:C語言 🚀本系列文章為個人學習…

數字AI化銀行數字化轉型實戰手冊銀行數字化轉型大客戶營銷銷售講師培訓師唐興通談存量客戶理財金融科技與場景化

推動銀行數字化轉型的五個關鍵因素 推動銀行數字化轉型的五個關鍵因素: 客戶體驗。為客戶提供便利和個性化是數字化轉型的關鍵因素。銀行應開發和實施創新的數字渠道,例如移動應用程序、網上銀行、聊天機器人等,以方便獲取金融服務并提高客戶…

基于yolo的物體識別坐標轉換

一、模型簡介: 1.1、小孔成像模型簡圖如下:不考慮實際相機中存在的場曲、畸變等問題 相對關系為: 為了表述與研究的方便,我們將像面至于小孔之前,且到小孔的距離仍然是焦距f,這樣的模型與原來的小孔模型是等價的 相對關系為: 二、坐標系簡介: **世界坐標系(world coo…

2021-2024高校畢業生的就業趨勢和變化分析

一、不同行業、地區和學歷層次的高校畢業生就業情況差異 行業差異: 教育培訓行業:受“雙減”政策影響,教育培訓機構吸納畢業生的數量明顯下降,畢業生面臨重新選擇。互聯網領域:互聯網企業的業務優化調整力度加大&…

徹底解決 macos中chrome應用程序 的 無法更新 Chrome 彈窗提示 mac自定義參數啟動 chrome.app

mac系統中的chrome app應用在每次打開是都會提示一個 “無法更新 Chrome Chrome 無法更新至最新版本,因此您未能獲得最新的功能和安全修復程序。” , 然而最新的chrome 程序似乎在某些情況下居然會出現 輸入和顯示不一致的情況,暫時不想升…

You編程__封裝ElementPlus通用組件(會持續更新...)

YOU編程__封裝ElementPlus通用組件&#xff08;會持續更新…&#xff09; 1、通用表格組件 CommonTable.vue <template><div><el-form :model"query" inline class"query-form"><el-form-item><el-input v-model"query…

htmlcss面試題總結

網絡中使用最多的圖片格式有哪些 jpg, png, svg,webp,bmp; 請簡述css盒子模型 盒子模型是指html的每個元素都像一個盒子&#xff0c;可以設置寬高&#xff0c;主要由content box&#xff0c;padding box&#xff0c;border&#xff0c; 和margin組成 視頻/音頻標簽的使用 …

js棧的隊列

// 定義 Queue 類 class Queue {constructor() {// 使用兩個棧來模擬隊列this.stack1 [];this.stack2 [];}// 入隊操作&#xff0c;將元素添加到隊列末尾enqueue(element) {// 將 stack1 中的元素移到 stack2while (this.stack1.length > 0) {this.stack2.push(this.stack…

Kithara設置專用CPU

設置專用 CPU 目錄 設置專用 CPU 點擊WINDOWS R&#xff0c;運行對話框打開&#xff0c;輸入“msconfig”并確認確定。 現在會彈出一個對話框&#xff0c;您可以在其中更改 Windows 的某些設置。打開名為“引導”的第二個選項卡。 選擇要配置為使用專用模塊的操作系統。通常…

2024年道路運輸企業主要負責人試題

1、【多選題】下列關于客運車輛管理的說法中&#xff0c;正確的有( )。(ABCE) A、道路旅客運輸企業是客運車輛技術管理的責任主體。 B、道路運輸經營者應當建立車輛技術檔案制度&#xff0c;實行一車一檔。 C、車輛所有權轉移、轉籍時&#xff0c;車輛技術檔案應當隨車移交。…

移遠通信發布兩款Wi-Fi 6模組新品:率先采用亞馬遜ACK SDK for Matter方案實現互聯互通

6月26日 &#xff0c;在MWC上海展上&#xff0c;全球領先的物聯網整體解決方案供應商移遠通信聯合亞馬遜及上海博通現場宣布&#xff0c;推出支持亞馬遜Alexa Connect Kit &#xff08;ACK&#xff09;SDK for Matter方案的MCU Wi-Fi 6模組FLM163D和FLM263D。 后續&#xff0c;…

vite vue3使用axios解決跨域問題

引入依賴 npm install axios 在main.js中全局引入 import { createApp } from vue import App from ./App.vue import axios from axiosconst app createApp(App)// 全局引入axios app.config.globalProperties.$axios axiosapp.mount(#app) 修改vite.config.js的代理配置…

VBA 利用VBA查找Excel單元格內容備忘

What后的內容是要查找的文本。 lookat是查找的模式&#xff0c;xlWhole&#xff1a;是一致匹配查找&#xff0c;xlPart&#xff1a;是部分匹配查找。 需要注意的是需要判斷查找的Range是否存在&#xff0c;不進行判斷直接用的話容易發生錯誤。 Sub FindCell()Dim rngFind As…

Embedding是什么?為什么重要?

本文為 Simon Willison 在 PyBay 上發表的演講視頻的文字改進版 原文鏈接&#xff1a; https://simonwillison.net/2023/Oct/23/embeddings/ 演講視頻鏈接&#xff1a; https://youtu.be/ArnMdc-ICCM Embedding 是一個非常巧妙的技術&#xff0c;但常常和一堆令人生畏的術…

vscode中快捷生成自定義vue3模板

需求描述 新建 vue 文件后&#xff0c;需要先寫出 vue3 的基礎架構代碼&#xff0c;手動輸入效率低下&#xff01; 期待&#xff1a;輸入 v3 按 Tab 即刻生成自定義的vue3模板&#xff08;如下圖&#xff09; 實現流程 vscode 的設置中&#xff0c;選擇 用戶代碼片段 輸入 vue…

STL中的迭代器定義類型以及優缺點?

在C的Standard Template Library (STL)中&#xff0c;迭代器&#xff08;Iterator&#xff09;是一種設計模式&#xff0c;它允許程序員遍歷容器&#xff08;如vector、list、map等&#xff09;中的所有元素&#xff0c;而無需了解容器底層的具體實現。迭代器就像一個指針&…

GPU技術全景:推動未來計算的新動力-4

7.中國廠家 在中國市場&#xff0c;也有幾家本土企業在GPU領域嶄露頭角&#xff0c;雖然市場份額相對較小&#xff0c;但在國產替代和自主可控的浪潮下發展迅速&#xff0c;包括但不限于&#xff1a; ?沐曦集成電路、壁仞科技、燧原科技、登臨科技、摩爾線程等&#xff0c…

使用dd命令測試Linux服務器IO性能

哈嘍,大家好,我是木頭左! 什么是dd命令? 在Linux系統中,dd(disk dump)是一個用于復制和轉換文件的標準工具。它可以讀取和寫入數據,支持多種不同的格式和選項。dd命令是Linux系統管理員和開發人員常用的一個命令,因為它簡單、高效、靈活。在本篇文章中,將介紹如何使…

列順序占用存儲大小的影響 in Oracle、MySQL、PostGreSQL

列順序占用存儲大小的影響 in Oracle、MySQL、PostGreSQL 在創建表時&#xff0c;如果相同的列類型&#xff0c;不同表列的順序是否會影響數據庫占用空間大小&#xff1f;使用oracle、mysql或postgresql是不是相同的表現呢&#xff1f; 不是的Postgresql近期發現空間使用會因為…

Fizz Buzz 經典問題 - 藍橋杯

基礎知識要求&#xff1a; Java&#xff1a;方法、if else語句、算術運算符、邏輯運算符、Scanner類 Python&#xff1a; 方法、if else語句、算術運算符、邏輯運算符、input() 題目&#xff1a; 思路解析&#xff1a; 讀取輸入&#xff1a; 從標準輸入或其他方式讀取一個整數…