無實驗數據指導蛋白質定向進化,上海交大洪亮課題組發表微環境感知圖神經網絡 ProtLGN

在現代生物技術和醫藥研究中,蛋白質工程扮演著至關重要的角色。通過修改蛋白質的氨基酸序列,蛋白質工程可以改善或賦予蛋白質新的生物化學性質,如增強酶的催化效率、提高藥物的親和力或改善其熱穩定性。這些改進對于開發新藥、治療疾病以及提高生物制造的效率等方面都是非常關鍵的。

蛋白質工程需要從數以萬計的候選突變體中篩選出最優突變體,其中的有利突變是指那些能夠改善蛋白質某一或多個生物化學屬性的遺傳變異,增強蛋白質的穩定性、親和力、選擇性或催化效率,使其更適合特定的應用。然而,通過實驗驗證高適應性突變體的成本大、時間長,此外,多個有益突變的組合往往會受到負表觀遺傳效應的影響, 使得蛋白質的功能因突變而降低,這些因素都在不同程度上增加了高效蛋白質設計的復雜性。

近幾年,基于深度學習的預測與篩選方法在實際應用中得到了驗證與應用:通過分析大量數據,學習蛋白質序列、結構與功能的關系,能夠提高蛋白質設計的準確性和效率。但多數方法是基于多序列比對 (MSA) 或蛋白質語言模型 (PLM) 對蛋白質序列進行特征的提取,存在諸多局限,例如依賴多序列比對的質量,受限于同源信息;或需大量數據和復雜模型,訓練成本高。此外,直接應用預訓練模型到新任務,對模型的泛化能力和表達能力更是一大挑戰。

為此,上海交通大學洪亮課題組研發了一種名為 PROTLGN 的微環境感知圖神經網絡, 能夠從蛋白質三維結構中學習并預測有益的氨基酸突變位點,指導具有不同功能白質單位點突變和多位點突變設計,超過 40% 的 PROTLGN 設計單點突變體蛋白質優于其野生型對應物。成果已發表在 JCM。

論文地址:
https://pubs.acs.org/doi/10.1021/acs.jcim.4c00036
關注公眾號,后臺回復「蛋白質設計」獲取完整 PDF

PROTLGN :輕量級圖神經去噪網絡的搭建

PROTLGN 框架:基于圖神經網絡的蛋白質學習網絡

PROTLGN 是一種基于圖神經網絡的蛋白質表征學習模型,其核心架構如下:

PROTLGN 架構

kNN 圖 (k-Nearest Neighbors Graph):

輸入蛋白質的氨基酸殘基作為圖中的節點,通過 k 臨近算法確定邊基與氨基酸殘基之間的空間距離,進而構建蛋白質的拓撲結構,為后續的圖神經網絡處理提供基礎。

等變 GNN (Equivariant Graph Neural Network):

在三維空間中,蛋白質的結構可能會發生旋轉或反射。等變 GNN 作為核心網絡層,設計成能夠識別并保持這種旋轉不變性的結構,即無論蛋白質圖形如何旋轉,網絡的輸出對于相同的蛋白質結構都應該是一致的。

節點嵌入 (Node Embedding):

在圖表示的蛋白質中,每個氨基酸殘基被表示為圖中的一個節點,以便于機器學習模型能夠捕捉和理解節點之間的復雜關系。

輸出層與得分 (read-out layer & score):

利用等變 GNN 學習到的節點表示識別有益的突變位點,預測突變對蛋白質功能或結構的潛在影響。同時作為模型的最后一層,將預測結果轉為量化評分。

驗證 (Validation):

使用實驗生物學方法,如酶聯免疫吸附試驗 (ELISA)、差示掃描熒光熱穩定性分析 (DSF) 等對模型預測的突變體進行實驗驗證,測試其生物學功能。

PROTLGN 的訓練過程:訓練-預測-微調

PROTLGN 的訓練過程如下圖所示,其中包含訓練、預測和模型微調:

PROTLGN 預訓練和預測流程

自監督預訓練 (Self-supervised Pretraining):

PROTLGN 首先在野生型蛋白質上進行自監督預訓練,任務是氨基酸類型的去噪 (AA-type-denoising)。

輸入圖中包含的三維坐標信息是節點屬性的一部分,用于更準確地表示氨基酸殘基在蛋白質三維空間中的位置。

三維坐標信息與氨基酸的物理和生化屬性(如氨基酸類型、SASA、B-factor 等),共同構成了輸入圖的節點和邊的屬性。這些屬性被用來構建 KNN 圖,其中每個節點(氨基酸殘基)根據其與其它節點的空間距離相互連接。

PROTLGN 的自監督學習過程

等變圖卷積層 (EGC):

預訓練中使用等變圖神經網絡 (equivariant graph neural networks, EGC layers),負責處理輸入的蛋白質圖,通過本層,模型能夠學習到在旋轉和平移變換下保持不變的節點嵌入,幫助處理不同蛋白質的結構。

EGC 層是圖神經網絡的核心,能夠處理圖結構數據,并且保持對蛋白質空間結構變化的敏感性,這對于理解蛋白質的三維結構至關重要。

在自監督學習過程中,EGC 層接收具有噪聲的野生型蛋白質圖作為輸入,并輸出節點的嵌入表示,這些嵌入表示考慮了氨基酸殘基之間的空間關系。

噪聲注入 (Noisy Input Attributes):

在訓練過程中,對野生型蛋白質的輸入屬性注入噪聲,模擬自然界中的隨機突變。

零樣本預測 (Zero-shot Prediction):

藍色箭頭表示當考慮蛋白質突變時,模型使用預訓練階段學到的知識來預測突變對蛋白質功能可能產生的影響。

濕實驗評估 (Wet Biochemical Assessments):

將突變體的預測與濕實驗評估相結合,可以更新預訓練模型,以更好地適應特定蛋白質和功能。

微調 (Fine-tuning):

圖示綠色箭頭部分,結合濕實驗的評估,預訓練模型可以根據特定的蛋白質和功能進行更新和優化,提高預測的準確性和適應性。

為了進一步利用生物學的先驗信息來提高模型的泛化性和表達能力,研究人員還采取了 3 個額外的措施:

  • 對輸入的氨基酸類型進行加噪,模仿自然界中的隨機突變;
  • 在氨基酸節點預測的損失函數打分機制中,引入標簽平滑來鼓勵同類氨基酸之間的置換;
  • 利用多任務學習策略,讓預訓練模型學習多種預測目標,從而訓練一個「一詞多用」的圖表示學習模型。

挖掘蛋白質定向進化潛能:PROTLGN 提供有效策略

為了驗證 PROTLGN 對蛋白質突變體活性預測的準確性,本研究在多種蛋白質的不同生物學功能上進行了廣泛的驗證工作,以確保 PROTLGN 的普適性,其中包括 VHH 抗體、多種熒光蛋白(如綠色、藍色和橙色熒光蛋白)、以及核酸內切酶 (KmAgo) 等,涵蓋了熱穩定性、結合親和力、熒光亮度和單鏈 DNA 切割活性等蛋白質工程中常見的功能改造目標。

實驗數據顯示,即使在缺乏實驗數據或僅有少量類似蛋白質實驗數據的情況下,PROTLGN 仍能達到 40% 的單點突變成功預測率,并且在某些情況下能夠同時提升多種生物學功能。

PROTLGN 與熒光蛋白:預測模型的遷移能力

研究人員采用 PROTLGN 模型,對綠色熒光蛋白 (GFP) 進行了精細調整,以開發出專門針對熒光強度優化的評分函數。從深度突變掃描 (DMS) 數據庫中隨機選取 1,000 個已標記的 GFP 突變體進行微調訓練,從而提高了模型預測熒光強度變異的準確性。

熒光蛋白實驗結果

左側展示蛋白質結構,紅色球體突出顯示了發生突變的氨基酸殘基

右側展示熒光強度數據,不同突變體與 WT 進行對比

圖 a 評估了從少量標記的綠色熒光蛋白 (GFP) 變體中學習到的特定功能適應度評分函數的實用性。在 10 個突變體中,有 5 個展現出比野生型 (WT) 更高的熒光強度,其中表現最佳的突變體熒光強度達到了 WT 的 2 倍。

此外,該實驗檢驗了同一評分函數在與 GFP 來自不同蛋白家族、活性區域不同、序列同源性約 21% 的橙色熒光蛋白 (orangeFP) 上的表現。研究人員利用微調后的 PROTLGN 對 orangeFP 的單點突變體進行排名,并挑選前 10 個變體進行濕實驗表達和檢驗。在這些突變體中,有 7 個表現出比 WT 更高的熒光強度,這一結果彰顯了模型的強大遷移能力。

PROTLGN 與 VHH 抗體:零樣本 PROTLGN 的性能

實驗人員使用 PROTLGN 模型,在沒有實驗數據的情況下,通過約 30,000 個未標記的蛋白質結構進行預訓練,選擇具有最高適應度預測的 VHH 抗體變體中的前 10 個突變體進行濕實驗評估。

PROTLGN 設計的 VHH 抗體結果

(a):左側展示 VHH 抗體的結構,右側展示 VHH 抗體及其單點突變體的結合親和力

(b):左側展示 VHH 抗體的結構,此處不同位點產生突變,右側展示 VHH 抗體及其單點突變體的熔點溫度

有 3 個突變體在結合親和力和熱穩定性兩方面都表現優異,這證實了 PROTLGN 在指導 VHH 抗體突變設計中的有效性,尤其是在提高抗體的性能方面。 PROTLGN 的自監督學習策略為蛋白質工程提供了一種強大的工具,能夠在沒有實驗數據的情況下進行準確的突變預測。

PROTLGN 與 Ago蛋白:尋找最優單點突變組合

研究人員利用 PROTLGN 對 12 個已知的單點突變進行組合評分,篩選出 2—7 個位點的前 5 個高階突變候選體,共 30 個突變體,以期通過濕實驗評估找到性能更優的 Ago 蛋白變體。

PROTLGN 設計的 KmAgo 突變體及實驗結果

  • 左上:KmAgo 蛋白的結構
  • 右上:不同數量突變位點的 KmAgo 突變體的最佳活性。這可能表明隨著突變位點的增加,活性如何變化
  • 中下:KmAgo 及其多突變位點突變體的切割活性

實驗結果顯示:

活性提升: 與野生型 (WT) 相比,90% 的突變體顯示出增強的 DNA 切割活性。

最佳突變體: 最佳的突變體是一個 7 位點突變體,其活性比 WT 高出 8 倍。

高階突變體的優勢: 無論是在最大活性提升還是平均提升方面,高階突變體往往比低階突變體展現出更高的活性。

PROTLGN 模型能夠成功地識別高增益功能突變體,并且在組合單突變位點時能夠識別出正向的上位效應。這證實了 PROTLGN 在指導 Ago 蛋白突變設計中的有效性,尤其是在提高抗體的性能方面。

將 PROTLGN 與其他自監督模型比較:更高效、更準確

在最新的研究中,科學家們利用 PROTLGN 模型對深度突變掃描 (DMS) 數據集中的蛋白質適應度進行了預測,并與其他自監督學習模型進行了比較。

微信圖片_20240603120700.png

不同模型的蛋白質預測效果

a:零樣本深度學習模型的推斷效率和效果

b:多突變位點效應預測性能

c:高階突變預測性能提升

實驗結果顯示,PROTLGN 在所有比較的模型中表現最佳,它不僅準確預測了蛋白質的適應度,而且使用的可訓練參數數量最少。 這一點非常重要,因為較少的參數意味著模型訓練和微調的成本低,同時也意味著模型可以在較少的標記數據上進行有效學習。

在實驗的最后階段,研究人員使用了部分可用的實驗標簽來增強模型的微調,進一步提高了預測的準確性,結果顯示 PROTLGN 在性能上明顯優于其他方法,尤其是在處理高階突變體時。

PROTLGN 對蛋白質亞細胞定位預測:綜合分析蛋白質的三維結構

在一項突破性的研究中,科學家們采用了 PROTLGN 模型來預測蛋白質的亞細胞定位 (protein subcellular localization, PSL),即蛋白質在細胞內的具體位置,它與蛋白質的功能密切相關。

模型對蛋白質亞細胞定位預測

研究團隊首先利用 PROTLGN 模型分析了 9,366 個標記的蛋白質,每個蛋白質由其氨基酸級別的表示組成。隨后,在 2,738 個測試蛋白質上進行了評估,以預測這些蛋白質在細胞內的 10 個可能位置。實驗結果顯示,PROTLGN 在預測準確性上顯著超越了現有的基于氨基酸序列或同源信息的基線方法。

結語:生物醫學的「AI 革命」沒有邊界

從 AlphaFold 開始,人工智能不斷刷新著生物醫學工程的認知界限,但深度學習仍受限于高質量的數據,對于這一局限,PROTLGN 的零樣本學習訓練或許給出了回答。零數據跨入 AGI 時代后,下一代結構生物學家很可能不再主要是實驗方法的專家,更多地是負責解釋、設計和執行基于結構的實驗,證明或否定生物學中的機制,或設計新的蛋白質功能與臨床治療方法。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/21539.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/21539.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/21539.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

lua vm 一: attempt to yield across a C-call boundary 的原因分析

使用 lua 的時候有時候會遇到這樣的報錯:“attempt to yield across a C-call boundary”。 1. 網絡上的解釋 可以在網上找到一些關于這個問題的解釋。 1.1 解釋一 這個 issue:一個關于 yield across a C-call boundary 的問題,云風的解釋是…

【最新鴻蒙應用開發】——實用廣告思路,可動態修改(方便運營)

鴻蒙項目加入廣告展示頁業務 廣告頁的思路——華為有廣告業務,但是我們不用- ad模塊; 想自定義廣告——場景: app啟動-有廣告需求,就打開廣告頁,沒有的話就去登錄或者主頁; 騰訊體育的廣告- 啟動有廣告頁…

適合小白學習的項目1894java開發ssm框架校園跑腿管理系統myeclipse開發mysql數據庫springMVC模式java編程計算機網頁設計

一、源碼特點 java ssm 校園跑腿管理系統是一套完善的web設計系統(系統采用SSM框架進行設計開發,springspringMVCmybatis),對理解JSP java編程開發語言有幫助,系統具有完整的源代碼和數據庫,系統主要采…

Java項目:96 springboot精品在線試題庫系統

作者主頁:舒克日記 簡介:Java領域優質創作者、Java項目、學習資料、技術互助 文中獲取源碼 項目介紹 這次開發的精品在線試題庫系統有管理員,教師,學生三個角色。 管理員功能有個人中心,專業管理,學生管理…

比較(二)利用python繪制雷達圖

比較(二)利用python繪制雷達圖 雷達圖(Radar Chart)簡介 雷達圖可以用來比較多個定量變量,也可以用于查看數據集中變量的得分高低,是顯示性能表現的理想之選。缺點是變量過多容易造成閱讀困難。 快速繪制…

Go語言 一些問題了解

一、讀取文件數據,是阻塞還是非阻塞的? 分兩種情況:常規讀取文件數據,和網絡IO讀取數據 1. 常規讀取文件數據: io.Reader 和 bufio.Reader 是同步進行的。 bufio.Reader 提供緩沖的讀取操作,意味著數據是…

網站入門:Flask用法講解

Flask是一個使用Python編寫的輕量級Web服務框架,旨在幫助開發人員快速構建和部署Web應用程序。下面將對Flask進行更為詳細的解釋說明,并展示其使用示例與注意事項: 1.解釋說明 定義及特點: Flask以其簡潔和靈活著稱,允許開發者以…

C++:list模擬實現

hello,各位小伙伴,本篇文章跟大家一起學習《C:list模擬實現》,感謝大家對我上一篇的支持,如有什么問題,還請多多指教 ! 如果本篇文章對你有幫助,還請各位點點贊!&#xf…

LeetCode題練習與總結:二叉樹展開為鏈表--114

一、題目描述 給你二叉樹的根結點 root ,請你將它展開為一個單鏈表: 展開后的單鏈表應該同樣使用 TreeNode ,其中 right 子指針指向鏈表中下一個結點,而左子指針始終為 null 。展開后的單鏈表應該與二叉樹 先序遍歷 順序相同。 …

深入探討Java字符串拼接的藝術

引言 在Java編程中,字符串是最基本的數據類型之一。字符串拼接是開發過程中一個非常常見的操作,無論是構建用戶界面的文本,還是生成日志信息,都離不開字符串的拼接。然而,字符串拼接的效率和正確性常常被開發者忽視&a…

格式化數據恢復指南:從備份到實戰,3個技巧一網打盡

朋友們!你們有沒有遇到過那種“啊,我的文件呢?”的尷尬時刻?無論是因為手滑、電腦抽風還是其他原因,數據丟失都可能會讓我們抓狂,甚至有時候,我們可能一不小心就把存儲設備格式化了,…

香橙派OrangePI AiPro測評 【運行qt,編解碼,xfreeRDP】

實物 為AI而生 打開盒子 配置 扛把子的 作為業界首款基于昇騰深度研發的AI開發板,Orange Pi AIpro無論在外觀上、性能上還是技術服務支持上都非常優秀。采用昇騰AI技術路線,集成圖形處理器,擁有8GB/16GB LPDDR4X,可以外接32…

進程通信——管道

什么是進程通信? 進程通信是實現進程間傳遞數據信息的機制。要實現數據信息傳遞就要進程間共享資源——內存空間。那么是哪塊內存空間呢?進程間是相互獨立的,一個進程不可能訪問其他進程的內存空間,那么這塊空間只能由操作系統提…

什么是RPA自動化辦公?

RPA自動化辦公:提升效率的利器 如今,自動化辦公已成為提升效率、減少錯誤、節省成本的關鍵手段。RPA(機器人流程自動化,Robotic Process Automation)作為其中的重要組成部分,正受到越來越多企業的青睞。那…

【全開源】簡單商城系統源碼(PC/UniAPP)

提供PC版本、UniAPP版本(高級授權)、支持多規格商品、優惠券、積分兌換、快遞鳥電子面單、支持移動端樣式、統計報表等 提供全部前后臺無加密源代碼、數據庫離線部署。 構建您的在線商店的基石 一、引言:為什么選擇簡單商城系統源碼? 在數字化時代&am…

【Spring Cloud Alibaba】初識Spring Cloud Alibaba

目錄 回顧主流的微服務框架Spring Cloud 版本簡介Spring Cloud以往的版本發布順序排列如下: 由停更引發的"升級慘案"哪些Netflix組件被移除了? 替換方案服務注冊中心:服務調用:負載均衡:服務降級&#xff1a…

Python—面向對象小解(6)-閉包、裝飾器

一、閉包 在Python中,閉包(closure)是一個函數對象,即使在其詞法作用域外被調用,它仍然能訪問該作用域內的變量。閉包通過“捕獲”周圍作用域的變量,保持這些變量的狀態,即使在外部函數已經返回…

干貨分享 | TSMaster 中 Hex 文件編輯器使用詳細教程

TSMaster 軟件的 Hex 文件編輯器提供了文件處理的功能,這一特性讓使用 TSMaster 軟件的用戶可以更便捷地對 Hex、bin、mot、s19 和 tsbinary 類型的文件進行處理。 本文重點講述 TSMaster 中 Hex 文件編輯器的使用方法,該編輯器能實現將現有的 Hex、bin、…

@vue-office/excel 解決移動端預覽excel文件觸發軟鍵盤

先直接上代碼 不耽誤大家時間 標明下插件庫 非常感謝作者提供預覽插件 vue-office/excel 只需要控制CSS :deep(.x-spreadsheet-overlayer) {.x-spreadsheet-selectors {display: none !important;} } :deep(.x-spreadsheet-bottombar) {li.active {user-select: none !import…

家政上門系統源碼,家政上門預約服務系統開發涉及的主要功能

家政上門預約服務系統開發是指建立一個在線平臺或應用程序,用于提供家政服務的預約和管理功能。該系統的目標是讓用戶能夠方便地預約各種家政服務,如保潔、家庭護理、月嫂、家電維修等,并實現服務供應商管理和訂單管理等功能。 以下是開發家政…