P-Tuning項目——新零售決策評價系統(下)
- 0 前言
- 1 P-Tuning原理
- 2 數據處理
0 前言
上篇文章我們介紹了使用PET方式微調BERT模型,PET屬于提示詞微調的一種,另一種比較常見的提示詞微調是P-Tuning,我們今天在相同的項目上面用P-Tuning看看。
1 P-Tuning原理
P-Tuning 的目標是減少對人工設計模板(硬模板)的依賴,使用特殊字符(特殊字符可以自由學習也可以自己指定),將模版與原始文本拼在一起輸入預訓練模型,預訓練模型會對模板中的mask做預測,得到一個label。
圖中[u1][u2][u3][u4][u5][u6]
都是偽標記,它們都是詞表中沒有使用過的token,所謂沒有使用,指的是沒有在訓練集和驗證集中出現過,所以構建軟模板時,要找那種肯定不會出現在訓練集和驗證集的token。也就是說,軟模板不再是人能理解的,只有模型能理解。
本項目的結構和PET大致相同,除了數據處理部分,其他代碼只需要略微修改即可,因此我們這里只講數據處理部分。
2 數據處理
數據處理的代碼在 data_handle/data_preprocess.py
中,大致過程就是先插入Mask,后插入偽標記,我做了比較詳細的注釋,代碼如下:
import torch
import numpy as np
from rich import print
from functools import partial
from datasets import load_dataset
from transformers import AutoTokenizerdef convert_example(examples: dict,tokenizer,max_seq_len: int,max_label_len: int,p_embedding_num=6,train_mode=True,return_tensor=False
) -> dict:"""將樣本數據轉換為模型接收的輸入數據。Args:examples (dict): 訓練數據樣本, e.g. -> {"text": ['娛樂 嗨放派怎么停播了','體育 世界杯為何遲遲不見宣傳',...]}max_label_len (int): 最大label長度,若沒有達到最大長度,則padding為最大長度p_embedding_num (int): p-tuning token(偽標記) 的個數train_mode (bool): 訓練階段 or 推理階段。return_tensor (bool): 是否返回tensor類型,如不是,則返回numpy類型。Returns:dict (str: np.array) -> tokenized_output = {'input_ids': [[101, 3928, ...], [101, 4395, ...]],'token_type_ids': [[0, 0, ...], [0, 0, ...]],'mask_positions': [[5, 6, ...], [3, 4, ...]],'mask_labels': [[183, 234], [298, 322], ...]}"""# 定義輸出格式(Bert模型的接收格式)tokenized_output = {'input_ids': [],'attention_mask': [],'mask_positions': [], # 記錄label的位置(即MASK Token的位置)'mask_labels': [] # 記錄MASK Token的原始值(即Label值)}# 遍歷樣本數據,將樣本填充到模板中,并轉化為Bert模型的輸入格式for i, example in enumerate(examples['text']):try:# 將[MASK]插在[CLS]之后,[MASK]的位置可以在任何位置,但提示詞的開頭和結尾必須為[CLS]和[SEP]start_mask_position = 1if train_mode:# 如果是訓練模式,則既有樣本的label,也有樣本的文本內容label, content = example.strip().split('\t', 1) # 第二個參數為1表示最多分割1次,結果列表中最多包含2個元素else:# 如果是評估(推理)模式,則只有樣本的文本內容content = example.strip()# 將文本轉換為Bert模型的輸入格式encoded_inputs = tokenizer(text=content,truncation=True,max_length=max_seq_len,padding='max_length')# encoded_inputs包含三個鍵:'input_ids', 'token_type_ids', 'attention_mask'except:continue# 生成 MASK Tokens, 和label長度一致mask_tokens = ['[MASK]'] * max_label_len# 將 MASK Tokens 轉為 idmask_ids = tokenizer.convert_tokens_to_ids(mask_tokens)# 構建 prompt token(s),即構建偽標記,[[unused1] [unused2] ... [unused6]]p_tokens = ["[unused{}]".format(i + 1) for i in range(p_embedding_num)]# 偽標記 轉 idp_tokens_ids = tokenizer.convert_tokens_to_ids(p_tokens)# 獲取input_idsinput_ids = encoded_inputs['input_ids']# 去掉最后的[SEP]tmp_input_ids = input_ids[:-1]# 裁剪content的長度tmp_input_ids = tmp_input_ids[:max_seq_len - len(mask_ids) - len(p_tokens_ids) - 1]# 因為要插入 p_embedding_num 個偽標記,并且標簽長度為 max_label_len,并且最后要加上[SEP]# 所以原來的 input_ids 只能保存 max_seq_len - len(mask_ids) - len(p_tokens_ids) - 1 個token# 插入[MASK]對應的idtmp_input_ids = tmp_input_ids[:start_mask_position] + mask_ids + tmp_input_ids[start_mask_position:]# 插入后,tmp_input_ids 變為 [CLS][MASK][MASK]世界杯...# 補上[SEP]input_ids = tmp_input_ids + [input_ids[-1]]# 插入偽標記input_ids = p_tokens_ids + input_ids # [unused1][unused2]...[CLS][MASK][MASK]世界杯...[SEP]# 將 Mask Tokens 的位置記錄下來mask_positions = [len(p_tokens_ids) + start_mask_position + i for i in range(max_label_len)]# 將填充后的提示詞加入到輸出字典中tokenized_output['input_ids'].append(input_ids)# 如果輸入需要token_type_ids,可以進行添加,if 'token_type_ids' in encoded_inputs: # 兼容不需要 token_type_id 的模型, e.g. Roberta-Basetmp = encoded_inputs['token_type_ids']if 'token_type_ids' not in tokenized_output:# 循環第一輪時,'token_type_ids'不在字典tokenized_output中,所以需要增加鍵值對tokenized_output['token_type_ids'] = [tmp]else:# 從第二輪循環開始,直接在列表里添加tokenized_output['token_type_ids'].append(tmp)# 收集Bert模型需要的其他信息tokenized_output['attention_mask'].append(encoded_inputs['attention_mask'])tokenized_output['mask_positions'].append(mask_positions)# 對于訓練模式,則需要將label轉化為Bert模型的輸入格式if train_mode:mask_labels = tokenizer(text=label) # label token 轉 idmask_labels = mask_labels['input_ids'][1:-1] # 丟掉[CLS]和[SEP]mask_labels = mask_labels[:max_label_len] # 如果標簽的長度大于max_label_len,則截斷mask_labels += [tokenizer.pad_token_id] * (max_label_len - len(mask_labels)) # 將 label 補到最長tokenized_output['mask_labels'].append(mask_labels) # 收集處理后的標簽# 將數據轉化為torch.tensor或者numpy.array格式,方便后續處理for k, v in tokenized_output.items():if return_tensor:tokenized_output[k] = torch.LongTensor(v)else:tokenized_output[k] = np.array(v)return tokenized_outputif __name__ == '__main__':# 導入數據train_dataset = load_dataset('text', data_files={'train': '../data/train.txt'})print(f'train_dataset==>{train_dataset}')print(train_dataset['train']['text'][0])print('-'*80)# 創建分詞器tokenizer = AutoTokenizer.from_pretrained('../../預訓練模型/bert-base-chinese')# 函數式編程new_func = partial(convert_example,tokenizer=tokenizer,max_seq_len=20,max_label_len=2,p_embedding_num=6)# 數據批處理new_dataset = train_dataset.map(new_func, batched=True)# 打印print(f'dataset---》{new_dataset}')for value in new_dataset['train']:# value將是一個字典,包含輸入的text、input_ids、token_type_id、attention_mask、mask_position和mask_labelprint(type(value))for k, v in value.items():print(k, v)print(len(value['input_ids']))break
輸出
train_dataset==>DatasetDict({train: Dataset({features: ['text'],num_rows: 63})
})
電腦 (1)這款筆記本外觀感覺挺漂亮的,分量嗎,對我來說不算沉。 (2)安裝了WindowsXP系統后,運行的速度挺快。發熱量沒有想象中那么大。可能尚未運行很耗資源的程序,沒有感到內存的弊病。不過,1G的內存確實有點小。 (3)附贈的包很不錯,挺有手感的。但是附贈的鼠標實在是太小了,幸好同時訂了一個雙飛燕的鼠標喲。
--------------------------------------------------------------------------------
dataset---》DatasetDict({train: Dataset({features: ['text', 'input_ids', 'attention_mask', 'mask_positions', 'mask_labels', 'token_type_ids'],num_rows: 63})
})
<class 'dict'>
text 電腦 (1)這款筆記本外觀感覺挺漂亮的,分量嗎,對我來說不算沉。 (2)安裝了WindowsXP系統后,運行的速度挺快。發熱量沒有想象中那么大。可能尚未運行很耗資源的程序,沒有感到內存的弊病。不過,1G的內存確實有點小。 (3)附贈的包很不錯,挺有手感的。但是附贈的鼠標實在是太小了,幸好同時訂了一個雙飛燕的鼠標喲。
input_ids [1, 2, 3, 4, 5, 6, 101, 103, 103, 113, 122, 114, 6821, 3621, 5011, 6381, 3315, 1912, 6225, 102]
attention_mask [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
mask_positions [7, 8]
mask_labels [4510, 5554]
token_type_ids [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
20
我個人有幾個暫時理解不了的點:
- 上面這段程序,構建的軟模板為:
[unused1] [unused2] ... [unused5] [unused6] [CLS] [MASK] [MASK] {text} [SEP]
,而start_mask_position=1
,也就是說start_mask_position
竟然是[MASK]
插入到文本中的位置,假如start_mask_position
不是1的話,是不是意味著要在文本中間插入? - 為什么模板不是以
[CLS]
開頭?我查到的資料是,P-Tuning允許[CLS]
位置調整,也可以把模板改成這樣:[CLS] [unused1] [unused2] [MASK][MASK] [unused3] [unused4] [unused5] [unused6] {text} [SEP]
。 - 似乎
[unused1] [unused2]...[unused6] [CLS] {MASK} {text} [SEP]
,和前面PET的模板這是一條{MASK}評論:{textA}
,沒有本質區別,都是人工構建的模板,指定偽標記為哪些token([unused1]
、[unused2]
等),出現在哪些位置,指定{MASK}
在什么位置({textA}
的前面),這些都是人工指定的,并不是模型生成的。既然都是人配置的,它為什么能比硬模板效果好呢?我的理解是,在微調之前,模板中的每個token,模型都是理解的,而軟模板在微調之前,里面的[unused1] [unused2]
模型并不認識,是在微調過程中,模型逐漸理解了;而硬模板的話,預訓練模型本來就知道你的硬模板的token是什么意思,他們之間本來就存在一些聯系。 - 很多人都說軟模版是一種可學習模板,但模板好像從訓練開始到結束,始終沒改變過,這個“可學習”該如何理解?
AI鄰域的很多問題搞不明白很正常,上面的部分解釋很牽強,但這種方式卻能起作用,這可能就是這個學科的特點吧。