入選頂會ICML,清華AIR等聯合發布蛋白質語言模型ESM-AA,超越傳統SOTA

作為細胞內無數生化反應的驅動力,蛋白質在細胞微觀世界中扮演著建筑師和工程師的角色,不僅催化著生命活動,更是構筑、維系生物體形態與功能的基礎構件。正是蛋白質之間的互動、協同作用,支撐起了生命的宏偉藍圖。

然而,蛋白質的結構復雜多變,傳統的實驗方法在解析蛋白質結構時既耗時又費力——蛋白質語言模型 (PLMs) 應運而生,利用深度學習技術,通過分析大量的蛋白質序列數據,學習蛋白質的生物化學規律和共進化模式,在蛋白質結構預測、適應性預測和蛋白質設計等領域取得了顯著成就,極大地推動了蛋白質工程的發展。

盡管 PLMs 在殘基尺度上取得了巨大成功,但在提供原子級信息方面的能力卻受到了限制。針對于此,清華大學智能產業研究院副研究員周浩聯合北京大學、南京大學和水木分子團隊,提出了一種多尺度的蛋白質語言模型 ESM-AA (ESM All Atom), 通過設計殘基展開、多尺度位置編碼等訓練機制,拓展出了處理原子尺度信息的能力。

ESM-AA 在靶點-配體結合等任務的性能顯著提升,超越目前 SOTA 蛋白語言模型,如 ESM-2,也超越了目前的 SOTA 分子表示學習模型 Uni-Mol 等。相關研究已經以「ESM All-Atom: Multi-scale Protein Language Model for Unified Molecular Modeling」為題,發表于機器學習頂級會議 ICML 上。

在這里插入圖片描述

論文地址:
https://icml.cc/virtual/2024/poster/35119
開源項目「awesome-ai4s」匯集了百余篇 AI4S 論文解讀,并提供海量數據集與工具:

https://github.com/hyperai/awesome-ai4s

數據集:構建了蛋白質和分子數據的混合數據集

在預訓練任務中,該研究使用了一個包含蛋白質和分子數據的組合數據集,其中包含原子坐標等結構信息。

對于蛋白質數據集,該研究使用了 AlphaFold DB ,其中包含了 800 萬條高置信度的 AlphaFold2 預測的蛋白質序列和結構。

對于分子數據集,該研究使用了由 ETKDG 和 MMFF 分子力場生成的數據,包含 1,900 萬個分子和 2.09 億種構型。

在訓練 ESM-AA 時,研究人員首先將一個蛋白質數據集 Dp 和一個分子數據集 Dm 混合在一起作為最終的數據集,即 D=Dp∪Dm 。對于來自 Dm 的分子而言,由于僅由原子組成,其代碼轉換序列 X? 就是所有原子 ā 的有序集合,并且沒有任何殘基,即 R?=?。值得注意的是,因為在預訓練中使用了分子數據,所以 ESM-AA 既可以接受蛋白質作為輸入,也可以接受分子作為輸入。

ESM-AA 模型構建:多尺度預訓練與編碼,實現統一分子建模

受多語言代碼切換方法的啟發,ESM-AA 在進行預測與蛋白質設計任務時,首先會隨機解壓縮部分殘基,從而生成多尺度代碼切換蛋白質序列,隨后通過精心設計的多尺度位置編碼對這些序列進行訓練,并且已經在殘基和原子尺度上證明了其有效性。

當處理蛋白質分子任務時,即涉及蛋白質和小分子的任務,ESM-AA 不需要任何額外模型輔助,可以充分發揮出預訓練模型的能力。

在這里插入圖片描述

多尺度預訓練框架

該研究的多尺度預訓練框架由多尺度掩碼語言建模 (masked language model, MLM) 和成對距離恢復 (pairwise distance recovery) 組成。

具體而言,在殘基尺度上,一個蛋白質 X 可以被看作是一個由 L 個殘基組成的序列,即 X = (r1,…,ri,…,rL)。每個殘基 ri 都是由 N 個原子 A 組成 Ai={a1i,…,aNi}。為了構建代碼切換蛋白序列 X?,該研究通過隨機選擇一組殘基,并將其對應的原子插入到 X 中,從而實現了一個解壓縮的過程。在這一過程中,研究人員將被解壓的原子按照順序排列,最后在將原子集合 Ai 插入到 X 中(即解壓殘基 ri)后,即可得到一個代碼切換序列 X?。

隨后,研究人員對代碼切換序列 X? 進行掩碼語言建模。

首先,隨機遮擋 X? 中的一部分原子或殘基,讓模型使用周圍上下文預測原始原子或殘基。然后,研究人員使用對偶距離恢復 (PDR) 作為另一個預訓練任務。即通過在坐標中添加噪聲來破壞原子尺度的結構信息,并使用被破壞的原子間距離信息作為模型輸入,要求模型恢復這些原子之間的準確歐幾里得距離。

考慮到跨越不同殘基的長距離結構信息與單個殘基內部的原子尺度結構信息的語義差異,研究只計算殘基內的 PDR,這也可以使 ESM-AA 學習到不同殘基內的各種結構知識。

在這里插入圖片描述

多尺度位置編碼框架

在多尺度位置編碼 (Multi-scale Position Encoding) 方面,研究人員設計了一個多尺度位置編碼 E 來對代碼切換序列中的位置關系進行編碼。E 包含一個殘基尺度的位置編碼 ER 和一個原子尺度的位置編碼 EA。

對于 ER, 研究人員擴展了現有的編碼方法,使其能夠編碼從殘基到原子的關系,同時在處理純殘基序列時保持與原始編碼的一致性。對于 EA, 為了捕捉原子之間的關系,該研究直接使用空間距離矩陣 (spatial distance matrix) 對其三維位置進行編碼。

值得一提的是,多尺度編碼方法可以確保,預訓練不會受到模糊位置關系的影響,從而使 ESM-AA 在兩個尺度上都能有效地發揮作用。

在將多尺度 PE 集成到 Transformer 時,該研究首先用殘差尺度位置編碼 ER 替換了 Transformer 中的正弦編碼,將原子尺度的位置編碼 EA,視為自注意力層的偏置值 (bias term)。

研究結果:融合分子知識,優化蛋白質理解

為了驗證多尺度統一預訓練模型的有效性,該研究在各種涉及蛋白質和小分子的任務中評估了 ESM-AA 的表現。

在這里插入圖片描述

表1:在酶-底物親和力回歸任務 (ESAR) 和酶-底物對分類任務 (ESPC) 上的性能比較

在這里插入圖片描述

表2:藥物-靶點親和力回歸任務的性能比較

如上表所示,在酶-底物親和力回歸任務、酶-底物對分類任務和藥物-靶點親和力回歸任務的性能比較中,大多數指標上,ESM-AA 都優于其他模型并達到了最先進的結果。 此外,微調策略(如 ProSmith 和 XGBoost)建立在 ESM-AA 上時,性能始終優于結合兩個獨立的分子預訓練模型與蛋白預訓練模型的版本(如表 1 和表 2 最后四行所示)。

值得注意的是,ESM-AA 甚至可以打敗使用了具有更大參數規模的預訓練模型的方法(如表 2 中第 5 行、第 7 行與最后一行的對比)。

在這里插入圖片描述

消融實驗結果

為了驗證多尺度位置編碼的有效性,該研究在兩種情況下進行了消融實驗:一種是不使用原子尺度位置編碼 (ASPE) 的情況;另一種是不使用遺傳尺度位置編碼 (RSPE) 的情況下進行。

在刪除分子或蛋白質數據時,模型性能出現顯著下降。有趣的是,刪除蛋白質數據導致的性能下降比刪除分子數據更明顯。這表明,當模型沒有經過蛋白質數據訓練時,會迅速丟失與蛋白質相關的知識,從而導致整體性能明顯下降。然而,即使沒有分子數據,模型仍然可以通過解壓縮操作獲得原子級別的信息。

在這里插入圖片描述

二級結構預測任務的性能比較

由于 ESM-AA 基于現有的 PLMs 開發,該研究希望確定其是否仍然保留了對蛋白質的全面理解,從而通過使用二級結構預測 (secondary structure prediction) 和無監督接觸預測 (unsupervised contact prediction) 任務,測試蛋白質預訓練模型在蛋白質結構理解方面的能力。

結果表明,雖然 ESM-AA 在此類研究中可能無法實現最佳性能,但其在二級結構預測和接觸預測方面與 ESM-2 的表現相似。

在這里插入圖片描述

無監督接觸預測任務的性能比較

在分子基準測試中,ESM-AA 在大多數任務中與 Uni-Mol 表現相當, 并在許多情況下優于幾個特定于分子的模型,這表明其已成為一種處理分子任務的強大方法。

在這里插入圖片描述

ESM-AA 和 ESM-2+Uni-Mol 學習表征的可視化

為了更直觀地說明 ESM-AA 獲得了更高質量的蛋白質和小分子表征,該研究在酶-底物對分類和藥物靶點親和力回歸任務中,對 ESM-AA 和 ESM-2+Uni-Mol 提取的表征進行了可視化比較。結果顯示,ESM-AA 模型能夠創建包含蛋白質和分子數據的更具內聚性的語義表征,這使得 ESM-AA 優于兩個單獨的預訓練模型。

蛋白質語言模型,大語言模型的下一段征程

大約從 1970 年代起,就有越來越多的科學家認為「二十一世紀是生物學的世紀。」去年 7 月,福布斯曾在一篇長文中暢想,LLM 令人們處于生物學領域新一輪變革的風口浪尖。生物學原來是一個可破譯、可編程,在某些方面甚至是數字化的系統,LLM 憑借其對自然語言的驚人駕馭能力,為破解生物語言提供了潛在可能, 這也讓蛋白質語言模型成為了這個時代最受關注的領域之一。

蛋白質語言模型代表了 AI 技術在生物學中的前沿應用。其通過學習蛋白質序列的模式和結構,能夠預測蛋白質的功能和形態,對于新藥開發、疾病治療和基礎生物學研究具有重大意義。

此前,蛋白質語言模型如 ESM-2 和 ESMFold 已經展現出與 AlphaFold 相媲美的準確性,并且具備更快的處理速度和對「孤兒蛋白質」更準確的預測能力。這不僅加速了蛋白質結構的預測,也為蛋白質工程提供了新的工具,使得研究人員能夠設計出具有特定功能的全新蛋白質序列。

此外,蛋白質語言模型的發展受益于所謂的「縮放法則」,即模型的性能隨著模型規模、數據集大小和計算量的增加而顯著提高。 這意味著,隨著模型參數的增加和訓練數據的積累,蛋白質語言模型的能力將得到質的飛躍。

近兩年,蛋白質語言模型在企業界也進入了快速發展時期。2023 年 7 月,百圖生科與清華大學聯合提出了一種名為 xTrimo Protein General Language Model (xTrimoPGLM) 的模型,參數量高達千億 (100B),在多種蛋白質理解任務(15 項任務中的 13 項任務)中顯著優于其他先進基線模型。在生成任務上,xTrimoPGLM 能夠生成與自然蛋白質結構類似的新蛋白質序列。

2024 年 6 月,AI 蛋白質企業途深智合宣布,將其研發的國內首個自然語言蛋白質大模型 TourSynbio? 面向所有科研人員和開發者開源。 該模型以對話的方式實現了對蛋白質文獻的理解,包括蛋白質性質、功能預測和蛋白質設計等功能,在對比蛋白質評測數據集的測評指標上,超過 GPT4,成為行業第一。

此外,以 ESM-AA 為代表技術研究的突破,或許也意味著技術的發展即將度過「萊特兄弟時刻」,迎來飛躍。同時,蛋白質語言模型的應用也將不僅限于醫療和生物制藥領域,還可能擴展到農業、工業、材料科學和環境修復等多個領域,推動這些領域的技術革新,為人類帶來前所未有的變革。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/diannao/38865.shtml
繁體地址,請注明出處:http://hk.pswp.cn/diannao/38865.shtml
英文地址,請注明出處:http://en.pswp.cn/diannao/38865.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Ubuntu DNS服務配置 深度解析

測試方法 resolvectl status dig alidns.com 修改實踐 直接用接口配置,沒用 /etc/resolv.conf,有效 /etc/netplan/01-network-manager-all.yaml,無效 /etc/systemd/resolved.conf,見link,為全局配置 [Resolve] DNS1.1.1.1 Fa…

Adobe Premiere 視頻編輯軟件下載安裝,pr全系列分享 輕松編輯視頻

Adobe Premiere,自其誕生之日起,便以其卓越的性能和出色的表現,穩坐視頻編輯領域的王者寶座,贏得了無數專業編輯人員與廣大愛好者的青睞。這款強大的視頻編輯軟件,憑借其豐富的功能和靈活的操作性,為用戶提…

2024年道路運輸安全員(企業管理人員)備考題庫資料。

46.危險貨物道路運輸隨車攜帶的單據,下列選項不屬于的是()。 A.道路運輸危險貨物安全卡 B.運單或者電子運單 C.道路危險貨物運輸從業資格證 D.車輛檢測報告 答案:D 47.危險貨物運輸駕駛人員在24小時內實際駕駛車輛時間累計不…

ROS2在rviz2中實時顯示軌跡和點

本文是將《ROS在rviz中實時顯示軌跡和點》博客中rviz軌跡顯示轉為ROS2環境中的rviz2顯示。 ros2的工作空間創建這里就不展示了。 包的創建 ros2 pkg create --build-type ament_cmake showpath --dependencies rclcpp nav_msgs geometry_msgs tf2_geometry_msgsshowpath.cpp…

Windows批處理入門:快速掌握批處理腳本的基本技巧

一、前言 在Windows操作系統中,批處理文件(Batch File)是一種非常實用的工具,它允許用戶通過簡單的命令行腳本來自動化各種任務。無論是系統管理員、開發人員,還是普通用戶,掌握批處理文件的基本知識都能極…

【漏洞復現】和豐多媒體信息發布系統 QH.aspx 任意文件上傳漏洞

0x01 產品簡介 和豐多媒體信息發布系統也稱數字標牌(Digital Signage),是指通過大屏幕終端顯示設備,發布商業、財經和娛樂信息的多媒體專業視聽系統,常被稱為除紙張媒體、電臺、電視、互聯網之外的“第五媒體”。該系…

Ansible如何控制playbook的執行順序

對 Ansible 劇本資源打標簽 在處理大型或復雜的劇本時,如果只希望運行部分劇本或部分任務。可以將標簽應用于可能要跳過或運行的特定資源。 通過標簽來標記資源,在資源上使用tags關鍵字,然后是要應用的標記列表。在Ansible中tags標記可用于下列資源: 每個任務,這…

1-4.時間序列數據建模流程范例

文章最前: 我是Octopus,這個名字來源于我的中文名–章魚;我熱愛編程、熱愛算法、熱愛開源。所有源碼在我的個人github ;這博客是記錄我學習的點點滴滴,如果您對 Python、Java、AI、算法有興趣,可以關注我的…

信息學奧賽初賽天天練-41-CSP-J2021基礎題-n個數取最大、樹的邊數、遞歸、遞推、深度優先搜索應用

PDF文檔公眾號回復關鍵字:20240701 2021 CSP-J 選擇題 單項選擇題(共15題,每題2分,共計30分:每題有且僅有一個正確選項) 4.以比較作為基本運算,在N個數中找出最大數,最壞情況下所需要的最少比…

我在中東做MCN,月賺10萬美金

圖片|Photo by Ben Koorengevel on Unsplash ©自象限原創 作者丨程心 在迪拜購物中心和世界最高建筑哈利法塔旁的主街上,徐晉已經“蹲”了三個小時,每當遇到穿著時髦的年輕男女,他都會上前詢問,有沒有意愿成為…

【計算機網絡】常見的網絡通信協議

目錄 1. TCP/IP協議 2. HTTP協議 3. FTP協議 4. SMTP協議 5. POP3協議 6. IMAP協議 7. DNS協議 8. DHCP協議 9. SSH協議 10. SSL/TLS協議 11. SNMP協議 12. NTP協議 13. VoIP協議 14. WebSocket協議 15. BGP協議 16. OSPF協議 17. RIP協議 18. ICMP協議 1…

網頁自動化測試開發中記錄pytest

1切換cmd文件目錄C:\Users\14600>D: D:\>cd D:\worksoftware D:\worksoftware>2單個py文件打包成.exe文件1.pyinstaller -F -c (項目主文件)test_01shouye.py 該路徑下存在文件名,主項目文件 test_01shouye.py 2.執行spec文件: pyinstaller -F …

C語言部分復習筆記

1. 指針和數組 數組指針 和 指針數組 int* p1[10]; // 指針數組int (*p2)[10]; // 數組指針 因為 [] 的優先級比 * 高,p先和 [] 結合說明p是一個數組,p先和*結合說明p是一個指針 括號保證p先和*結合,說明p是一個指針變量,然后指…

Web2Code :網頁理解和代碼生成能力的評估框架

多模態大型語言模型(MLLMs)在過去幾年中取得了爆炸性的增長。利用大型語言模型(LLMs)中豐富的常識知識,MLLMs在處理和推理各種模態(如圖像、視頻和音頻)方面表現出色,涵蓋了識別、推…

系統中非功能性需求的思考

概要 設計系統時不僅要考慮功能性需求,還要考慮一些非功能性需求,比如: 擴展性可靠性和冗余安全和隱私服務依賴SLA要求 下面對這5項需要考慮的事項做個簡單的說明 1. 可擴展性 數據量增長如何擴展? 流量增長如何擴展&#xf…

【LLM教程-llama】如何Fine Tuning大語言模型?

今天給大家帶來了一篇超級詳細的教程,手把手教你如何對大語言模型進行微調(Fine Tuning)!(代碼和詳細解釋放在后文) 目錄 大語言模型進行微調(Fine Tuning)需要哪些步驟? 大語言模型進行微調(Fine Tuning)訓練過程及代碼 大語言…

VuePress介紹

從本文開始,動手搭建自己的博客!希望讀者能跟著一起動手,這樣才能真正掌握。 ? VuePress 是什么 VuePress 是由 Vue 作者帶領團隊開發的,非常火,使用的人很多;Vue 框架官網也是用了 VuePress 搭建的。即…

000.二分查找算法題解目錄

000.二分查找算法題解目錄 69. x 的平方根(簡單)

4PCS點云配準算法實現

4PCS點云配準算法的C實現如下&#xff1a; #include <iostream> #include <pcl/io/pcd_io.h> #include <pcl/point_types.h> #include <pcl/common/common.h> #include <pcl/common/distances.h> #include <pcl/common/transforms.h> #in…

唯一ID:UUID 介紹與 google/uuid 庫生成 UUID

UUID 即通用唯一識別碼&#xff0c;是一種用于計算機系統中以確保全局唯一性的標識符。其標準定義于 RFC 4122 文檔中。標準形式包含 32 個 16 進制數字&#xff0c;以連字符切割為五組&#xff0c;格式為 8-4-4-4-12&#xff0c;總共 36 個字符。&#xff08;形如, d169aa7f-4…