every blog every motto: Although the world is full of suffering, it is full also of the overcoming of it
0. 前言
對bert進行梳理
論文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
時間: 2018.10.11
作者: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
1. 正文
1.1 整體理解
Transformer的第一版時2017.6.12
bert(用到Transformer的Encoder)的第一版arxiv上的文章時間時2018.10.11
GPT1(用到Transformer的Decoder)在arxiv上沒找到對應的文章,但是第一版的bert中就有把GPT1作為參考,所以GPT1的時間應該是在2018.10.11之前
動作不得不說快阿!!!
下圖展示了三種模型的不同
bert: 雙向(Transformer Encoder)
GPT1:從左到右單向(Transformer Decoder)
ELMo:單獨訓練從左到右
和從右到左
,再結合(bert雙向也是借鑒于此,ELMo基礎單元是LSTM,這是一個比較早的東東了)
具體來說,bert使用Transformer的encoder部分作為基礎單元進行堆疊,而GPT使用decoder部分作為基礎單元進行堆疊。
Bert有兩個版本,一個是base (12層),一個是large(24層),base的參數量是110M,large的參數量是340M。
base的作用是為了和GPT1作對比。
base:
L:12; H:768; A:12
large:
L:24; H:1024; A:16
說明: 編碼器層數L,注意力頭數A,隱藏層數H.
1.2 和GPT1的對比
和GPT1相比的話,主要有兩點不同,一個是bert是雙向,另一個是預訓練。
其中GPT1預訓練,是預測一個句子的下一個詞是什么(這個在NLP中我們也稱作Language Modeling(LM)),如下:
而bert的預訓練是以下兩個:
1.2.1 任務一:“完型填空”
不同于常規思路預測下一詞。
上面說了bert是雙向的,如果預測下一個詞,那將是沒有意義。所以對輸入的詞進行mask,即遮住,然后讓模型去預測遮住的詞是什么。(是不是和我們做的完形填空一樣!!!),論文中將這個稱為:“masked LM” (MLM)
如下,將hairy進行Mask以后去預測:
my dog is hairy → my dog is [MASK]
然后對網絡的輸出結果相應位置進行softmax,得到每個詞的概率分布,然后取概率最大的詞作為預測結果。如下圖:
但是存在一個問題,mask15%比例比較高,這會造成某些詞在微調(fine-tuning)時候沒有見過,此外,微調的時候是沒有mask的,為了讓預訓練和微調匹配,做了一些調整。
每一個句子會預測15%token,在這其中,
- 80%的token被替換成
[MASK]
,my dog is hairy → my dog is [MASK]
- 10%的token被替換成隨機詞,
my dog is hairy → my dog is apple
- 10%的token保持不變,
my dog is hairy → my dog is hairy
1.2.2 任務二:預測下一個句子
在NLP中的某些任務當中,需要將兩個句子作為輸入(如,問答系統),所以bert中的預訓練添加了一個的新的訓練方式----Next Sentence Prediction,下一個句子預測。
具體的是一次輸入兩個句子,最后有一個輸入,判斷是否相似。如下圖:
其中, 50%的輸入數據B是A的下一個句子,50%的數據B是從語料庫中隨機選取的。
1.2.3 小結
現在我們看下面這個圖應該比較好理解了。
在pre-training階段,輸出的第一位是用于判斷是否是下一個句子(NSP,任務二,二分類)后續輸出是做
完型填空(MLM,任務一,多分類)。
關于輸入,需要注意的是,輸入的是一個序列(sequence),一個sequence可能是一個句子(sentence)也可能是兩個句子(sentence,為了適應下游的問題任務)。
而一個句子setence,更準確是一段連續的文本,不是我們常規的“句子”。
1.3 小結
除了論文中提到的base和large,github上還有其他版本。
- BERT-tiny, L = 2 , H = 128 L=2,H=128L=2,H=128
- BERT-mini, L = 4 , H = 256 L=4,H=256L=4,H=256
- BERT-small, L = 4 , H = 512 L=4,H=512L=4,H=512
- BERT-medium, L = 8 , H = 512 L=8,H=512L=8,H=512
主要貢獻:
- 引入了Masked LM,使用雙向LM做模型預訓練。
- 為預訓練引入了新目標NSP,它可以學習句子與句子間的關系。
- 進一步驗證了更大的模型效果更好: 12 --> 24 層。
- 為下游任務引入了很通用的求解框架,不再為任務做模型定制。
- 刷新了多項NLP任務的記錄,引爆了NLP無監督預訓練技術。
1.4 關于輸入
bert的是輸入是一個序列(sequence,包含多個句子(sentence)),而網絡的最小處理單元是一個詞,就是token。關于bert中具體的分詞方式我們暫時按下不表。
我們先看一個例子。 若我們一個序列是:
Sentence A: Paris is a beautiful city.
Sentence B: I love Paris.
1.4.1 token
先將句子進行分詞,轉換成一個個token以后,如下:
[CLS] Paris is a beautiful city . [SEP] I love Paris . [SEP]
其中,
- [CLS]放在序列第一個位置,用于分類(NSP,下一個句子預測)
- [SEP]放在每個句子(sentence)結尾,用于區分句子和句子。
1.4.2 segment
由于我們一次會輸入兩個句子(sentence),所以需要區分是句子A還是句子B,所以bert中引入了segment,用于區分句子A和句子B。
- 句子A的segment id為0
- 句子B的segment id為1
1.4.3 position
由于bert的輸入是一個序列,而序列的長度是有限的,所以需要將序列進行截斷,而截斷以后,我們無法知道每個詞在句子中的位置,所以bert中引入了position,用于表示每個詞在句子中的位置。
1.4.4 最終的輸入
最終的輸入是將上面的token、segment和position相加
1.5 分詞:WordPiece
bert中的分詞采用的是WorPiece,是Google在2016年提出的,它將詞拆分成更小的子詞,比如,將“unhappiness”拆分成“un”和“-happy”,這樣就可以避免OOV問題。
具體做法:檢查單詞是否在詞表(vocabulary)中,如果在則標記;否則,拆分成子詞,
對子詞繼續重復前面的過程(然后檢查子詞是否在詞表中,如果在則標記;否則,繼續拆分,直到拆分出來的子詞在詞表中。)
Bert的詞表有30k標記。
比如:
"Let us start pretraining the model."
其中pretraining不在詞表中,所以會被拆分成pre
、##train
和##ing
。
前面的#表示這個單詞為一個子詞,并且它前面有其他單詞。現在我們檢查子詞##train和##ing是否出現在詞表中。因為它們正好在詞表中,所以我們不需要繼續拆分。
所以上述句子會被拆分成:
tokens = [let, us, start, pre, ##train, ##ing, the, model]
增加[CLS]和[SEP]后是:
tokens = [ [CLS], let, us, start, pre, ##train, ##ing, the model, [SEP] ]
1.6 預處理代碼
我們的原始數據是文本,而所謂的神經網絡訓練本質是對數字進行數學運算。
所以我們需要將文本轉換為數字,而轉換的過程就是預處理。下面我們看下代碼
1.6.1 步驟
本次使用的是抱臉的transformers庫
pip install transformers
1. 導入庫
導入庫,加載預訓練的模型和分詞器。
from transformers import BertModel, BertTokenizer
import torch
model = BertModel.from_pretrained('bert-base-uncased')
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
離線情況下
model_path = './model_path'
bert = BertModel.from_pretrained(pretrained_model_name_or_path=model_path)
將下圖中需要的文件下載到本地即可
2. 分詞
sentence = 'I love Paris'
tokens = tokenizer.tokenize(sentence)
print(tokens)
3. 添加CLS、SEP
tokens = ['[CLS]'] + tokens + ['[SEP]']
print(tokens)
4. 添加pad
正常的bert的輸入是個固定長度,如果長度超過這個固定長度進行截斷,小于該固定長度添加pad。
假設固定長度是7,現在我們的tokens長度位5,所以需要添加pad
tokens = tokens + ['[PAD]'] + ['[PAD]']
tokens
5. mask
bert中的encoder內部是注意力機制,我們需要傳入一個mask,用于區分正常詞和pad。
attention_mask = [1 if i!= '[PAD]' else 0 for i in tokens]
attention_mask
6. 轉為id
不管是中文還是英文句子都是字符,而神經網絡是對數字進行訓練。所以需要將字符轉化為數字。
不管是中文還是英文句子都是字符,而神經網絡是對數字進行訓練。所以需要將字符轉化為數字。
不管是中文還是英文句子都是字符,而神經網絡是對數字進行訓練。所以需要將字符轉化為數字。
token_ids = tokenizer.convert_tokens_to_ids(tokens)
token_ids
本質是從一個大的字典里面找到每次詞對應的id。
7. 轉為tensor
import torch
token_ids = torch.tensor(token_ids).unsqueeze(0)
attention_mask = torch.tensor(attention_mask).unsqueeze(0)print(token_ids.shape)
print(token_ids)
我們輸入是一個句子,每個句子的長度是7。
8. 輸入模型
hidden_rep, cls_head = bert(token_ids, attention_mask=attention_mask,return_dict=False)print(hidden_rep.shape,cls_head.shape)
hidden_rep : 是bert中最后一個encoder的輸出,維度是[1,7,768]
cls_head : 是cls的輸出,維度是[1,768]
對于hidden_rep,1表示一個1個句子,7表示句子的長度,768表示每個詞的向量維度 (一個詞用一個長度為768的向量表示)。
1.6.2 小結
我們處理的是句子,而所謂的神經網絡訓練本質是對數字進行加減乘除運算。所以實際輸入網絡的是數字。
原始的是文本,輸入網絡的是經過字典映射的數字。
1.7 關于embedding
如果看論文,會發現bert的輸入是embedding,而我們上面的預處理最終的結果好像是token_ids(只是索引而已),這二者有什么關系呢?
在說embedding之前,我們先看下one-hot編碼。
1.7.1 one-hot編碼
one-hot編碼是機器學習中最常用的編碼方式,對于每個詞,我們用長度為n的向量表示,其中n是詞表的大小,向量中只有一個1,其余都是0。
比如中文有5000個詞,為了方便我們簡化一下,現在詞典里面有5個詞。[‘我’,‘是’,‘中’,‘國’,‘人’]。
'我們人’可以用如下向量表示:
我:[1 0 0 0 0 ]
是:[0 1 0 0 0 ]
人:[0 0 0 0 1 ]
看起來也比較直觀,但是別忘了我們這里詞典大小是5,如果5000呢?那么我
這個詞的向量就是5000維的,如果50000呢?50000維的向量,是不是有點太大了?
這會導致我們的結果非常的稀疏!
其次,one-hot編碼之間的向量是正交的,詞和詞之間沒有關系,比如’我’和’是’之間沒有關系,'中’和’國’之間也沒有關系,這顯然是不合理的。
所以就出現了embedding
1.7.2 embedding
embedding是一個詞典,更通俗的說一個二維向量。
我們的embedding現在是(5000,768),5000表示詞表大小,768表示每個詞的向量維度。
啥意思?就是我們的詞表里面有5000個詞,每個詞用一個長度為768的向量表示。
現在我們要表示我
,只需要根據我
這個詞對應的索引,在5000個詞中找到對應的向量即可。而這個向量是一個長度為768的向量。
768相比之前的5000小了不少。同時詞和詞和詞之間也有有關系的。
1.7.3 代碼示例
構建一個含有10個詞的詞表,每個詞用一個長度為3的向量表示。
import torch
import torch.nn as nn# 創建 Embedding 層
num_embeddings = 10 # 詞匯表大小
embedding_dim = 3 # 嵌入向量的維度
embedding_layer = nn.Embedding(num_embeddings, embedding_dim)
embedding_layer
我們看下詞表里面的值是個啥
embedding_layer.weight
現在我們有詞索引如下:
# 示例輸入
input_indices = torch.LongTensor([1, 2, 3, 4])
print('input.shape: ',input_indices.shape)
print("Input indices:", input_indices)
現在我們根據對應的詞到詞表中查找我們的詞對應的向量。
# 獲取嵌入向量
output_vectors = embedding_layer(input_indices)
print('output.shape: ',output_vectors.shape)
print("Output vectors:", output_vectors)
這個值是從詞表中來的。
1.7.4 bert官方部分代碼
1.7.5 小結
embedding正式表述是詞表,或是或是詞典。更本質來說是一個二維向量。
通過“查表”我們獲得了每一個詞的向量表示。這樣的表示相比one-hot編碼更稠密。同時,也能表達詞和詞之間的關系。
開始是我們的embedding參數是隨機的,通過不斷的訓練,含義更加準確。
1.8 小結
bert 借鑒了GPT1和ELMo,使用Transformer的encoder部分進行堆疊。
兩種預訓練(MLM和NSP)能夠更有效的獲取語義信息。
參考
- https://cloud.tencent.com/developer/article/2058413
- https://blog.csdn.net/jiaowoshouzi/article/details/89073944
- https://blog.csdn.net/yjw123456/article/details/120211601
- https://blog.csdn.net/weixin_42029738/article/details/139578563
- https://helloai.blog.csdn.net/article/details/120211601
- https://www.cnblogs.com/JuggyZhan/p/18249075
- https://cloud.tencent.com/developer/article/2348457
- https://cloud.tencent.com/developer/article/2336439
- https://blog.csdn.net/magicyangjay111/article/details/132665098
- https://www.cnblogs.com/zackstang/p/15387549.html
- https://blog.csdn.net/yjw123456/article/details/120232707
- https://people.ee.duke.edu/~lcarin/Dixin2.22.2019.pdf