【論文筆記】| 蛋白質大模型ProLLaMA

ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing
Peking University
Theme: Domain Specific LLM

在這里插入圖片描述

Main work：

當前 ProLLM 的固有局限性：（i）缺乏自然語言能力，（ii）指令理解不足
利用低秩適應(LoRA)并采用兩階段訓練方法，將任何通用 LLM 轉換為能夠同時處理多個 PLP 任務的 ProLLM，在無條件/可控蛋白質序列生成、蛋白質屬性預測任務中取得了最先進的結果

Method：

1. Continual Learning on Protein Language

當前的 ProLLM 缺乏自然語言能力，這阻礙了多任務能力，利用預訓練的 LLAMA2 對蛋白質語言執行持續學習（類比學習新語言，模型在保留原始自然語言能力的同時學習蛋白質語言）

基于 UniRef50 構建了一個數據集，并用特定的前綴和后綴對每個蛋白質序列進行預處理。

在 LLAMA2 的每個Decoder layer，我們將 LoRA 添加至 $W_q,W_k,W_v,W_o,W_{up},W_{gate},W_{down}$ 以及 $E mb e d$ 和 $\ Head$ layers (token可能在蛋白質序列和自然語言中具有不同的含義，需要對同一token進行不同的embedding)

LoRA rank-128, AdamW optimizer, peak learning rate(cosine annealing scheduler)-0.05, training epoch-1.

2. Performing Various Tasks

對上一步中獲得的 ProLLaMA 執行指令微調，采用自回歸方式進行訓練
$\mathcal{L}(\Theta)=\mathbb{E}_{\boldsymbol{x}\sim\mathcal{D}}\left[-\sum_i\log p(x_i|\boldsymbol{u},x_0,x_1,\ldots,x_{i-1};\Theta)\right]$
LoRA rank-64, AdamW optimizer, peak learning rate(cosine annealing scheduler)-0.05, training epoch-2.

3. Expanding to More Tasks

基于上述模型針對特定任務再次進行指令微調

參考文獻

Lv L, Lin Z, Li H, et al. ProLLaMA: A Protein Large Language Model for Multi-Task Protein Language Processing[J]. arXiv preprint arXiv:2402.16445, 2024.

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/14542.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/14542.shtml
英文地址，請注明出處：http://en.pswp.cn/web/14542.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！