大模型開發（五）：P-Tuning項目——新零售決策評價系統（下）

P-Tuning項目——新零售決策評價系統（下）

0 前言
1 P-Tuning原理
2 數據處理

0 前言

上篇文章我們介紹了使用PET方式微調BERT模型，PET屬于提示詞微調的一種，另一種比較常見的提示詞微調是P-Tuning，我們今天在相同的項目上面用P-Tuning看看。

1 P-Tuning原理

P-Tuning 的目標是減少對人工設計模板（硬模板）的依賴，使用特殊字符（特殊字符可以自由學習也可以自己指定），將模版與原始文本拼在一起輸入預訓練模型，預訓練模型會對模板中的mask做預測，得到一個label。
在這里插入圖片描述
圖中[u1][u2][u3][u4][u5][u6]都是偽標記，它們都是詞表中沒有使用過的token，所謂沒有使用，指的是沒有在訓練集和驗證集中出現過，所以構建軟模板時，要找那種肯定不會出現在訓練集和驗證集的token。也就是說，軟模板不再是人能理解的，只有模型能理解。

本項目的結構和PET大致相同，除了數據處理部分，其他代碼只需要略微修改即可，因此我們這里只講數據處理部分。

2 數據處理

數據處理的代碼在 data_handle/data_preprocess.py 中，大致過程就是先插入Mask，后插入偽標記，我做了比較詳細的注釋，代碼如下：

import torch
import numpy as np
from rich import print
from functools import partial
from datasets import load_dataset
from transformers import AutoTokenizerdef convert_example(examples: dict,tokenizer,max_seq_len: int,max_label_len: int,p_embedding_num=6,train_mode=True,return_tensor=False
) -> dict:"""將樣本數據轉換為模型接收的輸入數據。Args:examples (dict): 訓練數據樣本, e.g. -> {"text": ['娛樂	嗨放派怎么停播了','體育	世界杯為何遲遲不見宣傳',...]}max_label_len (int): 最大label長度，若沒有達到最大長度，則padding為最大長度p_embedding_num (int): p-tuning token（偽標記） 的個數train_mode (bool): 訓練階段 or 推理階段。return_tensor (bool): 是否返回tensor類型，如不是，則返回numpy類型。Returns:dict (str: np.array) -> tokenized_output = {'input_ids': [[101, 3928, ...], [101, 4395, ...]],'token_type_ids': [[0, 0, ...], [0, 0, ...]],'mask_positions': [[5, 6, ...], [3, 4, ...]],'mask_labels': [[183, 234], [298, 322], ...]}"""# 定義輸出格式（Bert模型的接收格式）tokenized_output = {'input_ids': [],'attention_mask': [],'mask_positions': [],  # 記錄label的位置（即MASK Token的位置）'mask_labels': []  # 記錄MASK Token的原始值（即Label值）}# 遍歷樣本數據，將樣本填充到模板中，并轉化為Bert模型的輸入格式for i, example in enumerate(examples['text']):try:# 將[MASK]插在[CLS]之后，[MASK]的位置可以在任何位置，但提示詞的開頭和結尾必須為[CLS]和[SEP]start_mask_position = 1if train_mode:# 如果是訓練模式，則既有樣本的label，也有樣本的文本內容label, content = example.strip().split('\t', 1) # 第二個參數為1表示最多分割1次，結果列表中最多包含2個元素else:# 如果是評估（推理）模式，則只有樣本的文本內容content = example.strip()# 將文本轉換為Bert模型的輸入格式encoded_inputs = tokenizer(text=content,truncation=True,max_length=max_seq_len,padding='max_length')# encoded_inputs包含三個鍵：'input_ids', 'token_type_ids', 'attention_mask'except:continue# 生成 MASK Tokens, 和label長度一致mask_tokens = ['[MASK]'] * max_label_len# 將 MASK Tokens 轉為 idmask_ids = tokenizer.convert_tokens_to_ids(mask_tokens)# 構建 prompt token(s)，即構建偽標記，[[unused1] [unused2] ... [unused6]]p_tokens = ["[unused{}]".format(i + 1) for i in range(p_embedding_num)]# 偽標記 轉 idp_tokens_ids = tokenizer.convert_tokens_to_ids(p_tokens)# 獲取input_idsinput_ids = encoded_inputs['input_ids']# 去掉最后的[SEP]tmp_input_ids = input_ids[:-1]# 裁剪content的長度tmp_input_ids = tmp_input_ids[:max_seq_len - len(mask_ids) - len(p_tokens_ids) - 1]# 因為要插入 p_embedding_num 個偽標記，并且標簽長度為 max_label_len，并且最后要加上[SEP]# 所以原來的 input_ids 只能保存 max_seq_len - len(mask_ids) - len(p_tokens_ids) - 1 個token# 插入[MASK]對應的idtmp_input_ids = tmp_input_ids[:start_mask_position] + mask_ids + tmp_input_ids[start_mask_position:]# 插入后，tmp_input_ids 變為 [CLS][MASK][MASK]世界杯...# 補上[SEP]input_ids = tmp_input_ids + [input_ids[-1]]# 插入偽標記input_ids = p_tokens_ids + input_ids  # [unused1][unused2]...[CLS][MASK][MASK]世界杯...[SEP]# 將 Mask Tokens 的位置記錄下來mask_positions = [len(p_tokens_ids) + start_mask_position + i for i in range(max_label_len)]# 將填充后的提示詞加入到輸出字典中tokenized_output['input_ids'].append(input_ids)# 如果輸入需要token_type_ids，可以進行添加，if 'token_type_ids' in encoded_inputs:  # 兼容不需要 token_type_id 的模型, e.g. Roberta-Basetmp = encoded_inputs['token_type_ids']if 'token_type_ids' not in tokenized_output:# 循環第一輪時，'token_type_ids'不在字典tokenized_output中，所以需要增加鍵值對tokenized_output['token_type_ids'] = [tmp]else:# 從第二輪循環開始，直接在列表里添加tokenized_output['token_type_ids'].append(tmp)# 收集Bert模型需要的其他信息tokenized_output['attention_mask'].append(encoded_inputs['attention_mask'])tokenized_output['mask_positions'].append(mask_positions)# 對于訓練模式，則需要將label轉化為Bert模型的輸入格式if train_mode:mask_labels = tokenizer(text=label)  # label token 轉 idmask_labels = mask_labels['input_ids'][1:-1]  # 丟掉[CLS]和[SEP]mask_labels = mask_labels[:max_label_len]   # 如果標簽的長度大于max_label_len，則截斷mask_labels += [tokenizer.pad_token_id] * (max_label_len - len(mask_labels))  # 將 label 補到最長tokenized_output['mask_labels'].append(mask_labels)     # 收集處理后的標簽# 將數據轉化為torch.tensor或者numpy.array格式，方便后續處理for k, v in tokenized_output.items():if return_tensor:tokenized_output[k] = torch.LongTensor(v)else:tokenized_output[k] = np.array(v)return tokenized_outputif __name__ == '__main__':# 導入數據train_dataset = load_dataset('text', data_files={'train': '../data/train.txt'})print(f'train_dataset==>{train_dataset}')print(train_dataset['train']['text'][0])print('-'*80)# 創建分詞器tokenizer = AutoTokenizer.from_pretrained('../../預訓練模型/bert-base-chinese')# 函數式編程new_func = partial(convert_example,tokenizer=tokenizer,max_seq_len=20,max_label_len=2,p_embedding_num=6)# 數據批處理new_dataset = train_dataset.map(new_func, batched=True)# 打印print(f'dataset---》{new_dataset}')for value in new_dataset['train']:# value將是一個字典，包含輸入的text、input_ids、token_type_id、attention_mask、mask_position和mask_labelprint(type(value))for k, v in value.items():print(k, v)print(len(value['input_ids']))break

輸出

train_dataset==>DatasetDict({train: Dataset({features: ['text'],num_rows: 63})
})
電腦	(1)這款筆記本外觀感覺挺漂亮的，分量嗎，對我來說不算沉。 (2)安裝了WindowsXP系統后，運行的速度挺快。發熱量沒有想象中那么大。可能尚未運行很耗資源的程序，沒有感到內存的弊病。不過，1G的內存確實有點小。 (3)附贈的包很不錯，挺有手感的。但是附贈的鼠標實在是太小了，幸好同時訂了一個雙飛燕的鼠標喲。
--------------------------------------------------------------------------------
dataset---》DatasetDict({train: Dataset({features: ['text', 'input_ids', 'attention_mask', 'mask_positions', 'mask_labels', 'token_type_ids'],num_rows: 63})
})
<class 'dict'>
text 電腦	(1)這款筆記本外觀感覺挺漂亮的，分量嗎，對我來說不算沉。 (2)安裝了WindowsXP系統后，運行的速度挺快。發熱量沒有想象中那么大。可能尚未運行很耗資源的程序，沒有感到內存的弊病。不過，1G的內存確實有點小。 (3)附贈的包很不錯，挺有手感的。但是附贈的鼠標實在是太小了，幸好同時訂了一個雙飛燕的鼠標喲。
input_ids [1, 2, 3, 4, 5, 6, 101, 103, 103, 113, 122, 114, 6821, 3621, 5011, 6381, 3315, 1912, 6225, 102]
attention_mask [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
mask_positions [7, 8]
mask_labels [4510, 5554]
token_type_ids [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
20

我個人有幾個暫時理解不了的點：

上面這段程序，構建的軟模板為：[unused1] [unused2] ... [unused5] [unused6] [CLS] [MASK] [MASK] {text} [SEP]，而start_mask_position=1，也就是說start_mask_position竟然是 [MASK] 插入到文本中的位置，假如start_mask_position不是1的話，是不是意味著要在文本中間插入？
為什么模板不是以 [CLS]開頭？我查到的資料是，P-Tuning允許 [CLS]位置調整，也可以把模板改成這樣: [CLS] [unused1] [unused2] [MASK][MASK] [unused3] [unused4] [unused5] [unused6] {text} [SEP]。
似乎[unused1] [unused2]...[unused6] [CLS] {MASK} {text} [SEP]，和前面PET的模板這是一條{MASK}評論：{textA}，沒有本質區別，都是人工構建的模板，指定偽標記為哪些token（[unused1]、[unused2]等），出現在哪些位置，指定{MASK}在什么位置（{textA}的前面），這些都是人工指定的，并不是模型生成的。既然都是人配置的，它為什么能比硬模板效果好呢？我的理解是，在微調之前，模板中的每個token，模型都是理解的，而軟模板在微調之前，里面的[unused1] [unused2]模型并不認識，是在微調過程中，模型逐漸理解了；而硬模板的話，預訓練模型本來就知道你的硬模板的token是什么意思，他們之間本來就存在一些聯系。
很多人都說軟模版是一種可學習模板，但模板好像從訓練開始到結束，始終沒改變過，這個“可學習”該如何理解？