【大模型】大模型微調方法總結（四）

1. P-Tuning v1

1.背景

????????大模型的Prompt構造方式嚴重影響下游任務的效果。比如：GPT-3采用人工構造的模版來做上下文學習（in context learning），但人工設計的模版的變化特別敏感，加一個詞或者少一個詞，或者變動位置都會造成比較大的變化。

????????P-Tuning，在《GPT Understands, Too》中被提出，該方法將離散的Prompt轉換為可以學習的Embedding層，并用MLP+LSTM的方式來對Prompt Embedding進行一層處理，成功地實現了模版的自動構建。

2.技術原理

????????P-Tuning 提出將 Prompt 轉換為可以學習的 Embedding 層，并考慮到直接對 Embedding 參數進行優化會存在這樣兩個挑戰：

? ? ? ? 1.Discretenes：對輸入正常語料的 Embedding 層已經經過預訓練，而如果直接對輸入的 ????????????????prompt embedding進行隨機初始化訓練，容易陷入局部最優。

? ? ? ? 2.Association：沒法捕捉到 prompt embedding 之間的相關關系。

????????基于此，作者提出了P-Tuning，設計了一種連續可微的virtual token（同Prefix-Tuning類似）。該方法將Prompt轉換為可以學習的Embedding層，并用MLP+LSTM的方式來對Prompt Embedding進行一層處理。

????????相比Prefix Tuning，P-Tuning加入的可微的virtual token僅限于輸入層，沒有在每一層都加；另外，virtual token的位置也不一定是前綴，插入的位置是可選的。這里的出發點實際是把傳統人工設計模版中的真實token替換成可微的virtual token。

????????優化virtual token：經過預訓練的LM的詞嵌入已經變得高度離散，如果隨機初始化virtual token，容易優化到局部最優值；這些virtual token理論是應該有相關關聯的，要對這種關聯進行建模。作者發現的是用一個prompt encoder來編碼收斂更快，效果更好。也就是說，用一個LSTM+MLP去編碼這些virtual token以后，再輸入到模型。換言之，P-tuning并不是隨機初始化幾個新token然后直接訓練的，而是通過一個小型的LSTM模型把這幾個Embedding算出來，并且將這個LSTM模型設為可學習的。

????????選擇雙向長短期記憶網絡 (LSTM)，使用 ReLU 激活的兩層多層感知器 (MLP) 來對prompt embedding 進行一層處理來鼓勵離散性。

????????將LSTM作為prompt-encoder，并進行隨機初始化。GPT模型仍然會被全部凍結，只更新LSTM的參數。LSTM的參數是所有任務同時共享的，但是LSTM為不同的task輸出unique virtual token embeddings。virtual token embedding和Prompt Tuning以一樣的方式插入input token中。

class PromptEncoder(torch.nn.Module):......def forward(self, indices):input_embeds = self.embedding(indices)if self.encoder_type == PromptEncoderReparameterizationType.LSTM:output_embeds = self.mlp_head(self.lstm_head(input_embeds)[0])elif self.encoder_type == PromptEncoderReparameterizationType.MLP:output_embeds = self.mlp_head(input_embeds)else:raise ValueError("Prompt encoder type not recognized. Please use one of MLP (recommended) or LSTM.")return output_embeds

2.?P-Tuning v2

1.背景

????????之前的Prompt Tuning和P-Tuning等方法存在兩個主要的問題：

? ? ? ?1.缺乏模型參數規模和任務通用性。

????????缺乏規模通用性：Prompt Tuning論文中表明當模型規模超過100億個參數時，提示優化可以與全量微調相媲美。但是對于那些較小的模型（從100M到1B），提示優化和全量微調的表現有很大差異，這大大限制了提示優化的適用性。

????????缺乏任務普遍性：盡管Prompt Tuning和P-tuning在一些 NLU 基準測試中表現出優勢，但提示調優對硬序列標記任務（即序列標注）的有效性尚未得到驗證。

????????2.缺少深度提示優化，在Prompt Tuning和P-tuning中，連續提示只被插入transformer第一層的輸入embedding序列中，在接下來的transformer層中，插入連續提示的位置的embedding是由之前的transformer層計算出來的，這可能導致兩個可能的優化挑戰。

????????由于序列長度的限制，可調參數的數量是有限的。

????????輸入embedding對模型預測只有相對間接的影響。

????????考慮到這些問題，作者提出了Ptuning v2，它利用深度提示優化（如：Prefix Tuning），對Prompt Tuning和P-Tuning進行改進，作為一個跨規模和NLU任務的通用解決方案。

2.技術原理???????

?????????針對?P-Tuning v1存在的局限論文《P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks》P-Tuning v2 的目標就是要讓 Prompt Tuning 能夠在不同參數規模的預訓練模型、針對不同下游任務的結果上都達到匹敵 Fine-tuning 的結果。也就是說當前 Prompt Tuning 方法在這兩個方面都存在局限性。基于此，P-Tuning V2進行了下述改進：
????????1.在每一層都加入了Prompts tokens作為輸入，而不是僅僅加在輸入層，這與Prefix Tuning的做法相同。這樣得到了更多可學習的參數，且更深層結構中的Prompt能給模型預測帶來更直接的影響。

????????2.去掉了重參數化的編碼器。以前的方法利用重參數化功能來提高訓練速度和魯棒性（例如，用于prefix-tunning的 MLP 和用于 P-tuning的 LSTM）。在 P-tuning v2 中，作者發現重參數化的改進很小，尤其是對于較小的模型，同時還會影響模型的表現。

????????3.針對不同任務采用不同的提示長度。提示長度在提示優化方法的超參數搜索中起著核心作用。在實驗中，我們發現不同的理解任務通常用不同的提示長度來實現其最佳性能，這與Prefix-Tuning中的發現一致，不同的文本生成任務可能有不同的最佳提示長度。比如簡單分類任務下 length=20 最好，而復雜的任務需要更長的 Prompt Length。

????????4.可選的多任務學習。先在多任務的Prompt上進行預訓練，然后再適配下游任務。一方面，連續提示的隨機慣性給優化帶來了困難，這可以通過更多的訓練數據或與任務相關的無監督預訓練來緩解；另一方面，連續提示是跨任務和數據集的特定任務知識的完美載體。比如說，在NER中，可以同時訓練多個數據集，不同數據集使用不同的頂層classifer，但是prefix continuous prompt是共享的。

????????可以看到右側的p-tuning v2中，將continuous prompt加在序列前端，并且每一層都加入可訓練的prompts。在左圖v1模型中，只將prompt插入input embedding中，會導致可訓練的參數被句子的長度所限制。

? ? ? ? 另外在V2中，移除了Reparameterization，舍棄了詞匯Mapping的Verbalizer的使用，重新利用CLS和字符標簽，來增強通用性，這樣可以適配到序列標注任務。此外，作者還引入了兩項技術：

? ? ? ? 1.Deep Prompt Encoding:采用 Prefix-tuning 的做法，在輸入前面的每層加入可微調的參數。使用無重參數化編碼器對pseudo token，不再使用重參數化進行表征（如用于 prefix-tunning 的 MLP 和用于 P-tuning 的 LSTM），且不再替換pre-trained word embedding，取而代之的是直接對pseudo token對應的深層模型的參數進行微調。

? ? ? ? 2.Muliti-task learning:基于多任務數據集的Prompt進行預訓練，然后再適配到下游任務。對于pseudo token的continous prompt，隨機初始化比較難以優化，因此采用multi-task方法同時訓練多個數據集，共享continuous prompts去進行多任務預訓練，可以讓prompt有比較好的初始化。

peft_config = PrefixTuningConfig(task_type="SEQ_CLS", num_virtual_tokens=20)
model = AutoModelForSequenceClassification.from_pretrained(model_name_or_path, return_dict=True)
model = get_peft_model(model, peft_config)

Reference:

1.大模型煉丹術：大模型微調的常見方法 - 知乎?

2.大模型微調之P-tuning方法解析 | 美熙智能

3.Prompt Tuning和P-Tuning的區別在哪里？ - 知乎

4.大模型微調總結

5.詳解大模型微調方法Prompt Tuning(內附實現代碼)

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/diannao/36974.shtml
繁體地址，請注明出處：http://hk.pswp.cn/diannao/36974.shtml
英文地址，請注明出處：http://en.pswp.cn/diannao/36974.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！