ROCm上運行預訓練BERT

14.10. 預訓練BERT — 動手學深度學習 2.0.0 documentation (d2l.ai)

下載數據集

在d2l-zh/pytorch/data目錄解壓：

~/d2l-zh/pytorch/data$ unzip wikitext-2-v1.zip 
Archive:  wikitext-2-v1.zipcreating: wikitext-2/inflating: wikitext-2/wiki.test.tokens  inflating: wikitext-2/wiki.valid.tokens  inflating: wikitext-2/wiki.train.tokens

代碼

import torch
from torch import nn
from d2l import torch as d2lbatch_size, max_len = 512, 64
train_iter, vocab = d2l.load_data_wiki(batch_size, max_len)net = d2l.BERTModel(len(vocab), num_hiddens=128, norm_shape=[128],ffn_num_input=128, ffn_num_hiddens=256, num_heads=2,num_layers=2, dropout=0.2, key_size=128, query_size=128,value_size=128, hid_in_features=128, mlm_in_features=128,nsp_in_features=128)
devices = d2l.try_all_gpus()
loss = nn.CrossEntropyLoss()#@save
def _get_batch_loss_bert(net, loss, vocab_size, tokens_X,segments_X, valid_lens_x,pred_positions_X, mlm_weights_X,mlm_Y, nsp_y):# 前向傳播_, mlm_Y_hat, nsp_Y_hat = net(tokens_X, segments_X,valid_lens_x.reshape(-1),pred_positions_X)# 計算遮蔽語言模型損失mlm_l = loss(mlm_Y_hat.reshape(-1, vocab_size), mlm_Y.reshape(-1)) *\mlm_weights_X.reshape(-1, 1)mlm_l = mlm_l.sum() / (mlm_weights_X.sum() + 1e-8)# 計算下一句子預測任務的損失nsp_l = loss(nsp_Y_hat, nsp_y)l = mlm_l + nsp_lreturn mlm_l, nsp_l, l
def train_bert(train_iter, net, loss, vocab_size, devices, num_steps):net = nn.DataParallel(net, device_ids=devices).to(devices[0])trainer = torch.optim.Adam(net.parameters(), lr=0.01)step, timer = 0, d2l.Timer()animator = d2l.Animator(xlabel='step', ylabel='loss',xlim=[1, num_steps], legend=['mlm', 'nsp'])# 遮蔽語言模型損失的和，下一句預測任務損失的和，句子對的數量，計數metric = d2l.Accumulator(4)num_steps_reached = Falsewhile step < num_steps and not num_steps_reached:for tokens_X, segments_X, valid_lens_x, pred_positions_X,\mlm_weights_X, mlm_Y, nsp_y in train_iter:tokens_X = tokens_X.to(devices[0])segments_X = segments_X.to(devices[0])valid_lens_x = valid_lens_x.to(devices[0])pred_positions_X = pred_positions_X.to(devices[0])mlm_weights_X = mlm_weights_X.to(devices[0])mlm_Y, nsp_y = mlm_Y.to(devices[0]), nsp_y.to(devices[0])trainer.zero_grad()timer.start()mlm_l, nsp_l, l = _get_batch_loss_bert(net, loss, vocab_size, tokens_X, segments_X, valid_lens_x,pred_positions_X, mlm_weights_X, mlm_Y, nsp_y)l.backward()trainer.step()metric.add(mlm_l, nsp_l, tokens_X.shape[0], 1)timer.stop()animator.add(step + 1,(metric[0] / metric[3], metric[1] / metric[3]))step += 1if step == num_steps:num_steps_reached = Truebreakprint(f'MLM loss {metric[0] / metric[3]:.3f}, 'f'NSP loss {metric[1] / metric[3]:.3f}')print(f'{metric[2] / timer.sum():.1f} sentence pairs/sec on 'f'{str(devices)}')train_bert(train_iter, net, loss, len(vocab), devices, 50)def get_bert_encoding(net, tokens_a, tokens_b=None):tokens, segments = d2l.get_tokens_and_segments(tokens_a, tokens_b)token_ids = torch.tensor(vocab[tokens], device=devices[0]).unsqueeze(0)segments = torch.tensor(segments, device=devices[0]).unsqueeze(0)valid_len = torch.tensor(len(tokens), device=devices[0]).unsqueeze(0)encoded_X, _, _ = net(token_ids, segments, valid_len)return encoded_Xtokens_a = ['a', 'crane', 'is', 'flying']
encoded_text = get_bert_encoding(net, tokens_a)
# 詞元：'<cls>','a','crane','is','flying','<sep>'
encoded_text_cls = encoded_text[:, 0, :]
encoded_text_crane = encoded_text[:, 2, :]
encoded_text.shape, encoded_text_cls.shape, encoded_text_crane[0][:3]tokens_a, tokens_b = ['a', 'crane', 'driver', 'came'], ['he', 'just', 'left']
encoded_pair = get_bert_encoding(net, tokens_a, tokens_b)
# 詞元：'<cls>','a','crane','driver','came','<sep>','he','just',
# 'left','<sep>'
encoded_pair_cls = encoded_pair[:, 0, :]
encoded_pair_crane = encoded_pair[:, 2, :]
encoded_pair.shape, encoded_pair_cls.shape, encoded_pair_crane[0][:3]

代碼解析

這個代碼實現了基于Transformers模型業務的BERT（Bidirectional Encoder Representations from Transformers）的訓練，以及在預訓練過程中如何將BERT模型應用于兩個NLP任務：遮蔽語言模型（Masked Language Model，MLM）和下一個句子預測（Next Sentence Prediction，NSP）。具體來說，它進行了以下步驟：
1. 加載數據集:

train_iter, vocab = d2l.load_data_wiki(batch_size, max_len)

? ?這行代碼將會加載一個預處理過的維基百科數據集作為BERT的訓練數據，每個批次的大小為512，最大長度為64個詞元。
2. 創建BERT模型:

? ?net = d2l.BERTModel(len(vocab), ...)

? ?這里定義了一個BERT模型實例，其中包含有幾種參數配置：詞匯表大小、隱藏特征表示的維數、前饋神經網絡層的參數等。
3. 設定損失函數和訓練設備:
? ?- 損失函數使用了交叉熵損失。
? ?- 訓練設備可以是GPU（如果可用）。
4. 定義BERT的批量損失計算函數`_get_batch_loss_bert`:
? ?計算給定批次數據的損失值，包括遮蔽語言模型損失和下一個句子預測損失。
5. 定義BERT的訓練函數`train_bert`:
? ?設置BERT模型訓練的相關參數和流程。
6. 執行訓練:

? ?train_bert(train_iter, net, loss, len(vocab), devices, 50)

? ?運行訓練函數，進行50步訓練。
7. 用`get_bert_encoding`函數獲得BERT模型編碼的詞元表示:
? ?函數接受一對句子（tokens_a和tokens_b），對它們進行編碼，并返回編碼后的詞元表示。如果只有一個句子，tokens_b=None，默認tokens_b不提供。
8. 最后，通過編碼兩個示例句子，展示如何使用BERT模型來獲取詞元的嵌入表示。
注意，完整的代碼實現了從數據準備、模型構建、訓練到獲取嵌入表示的整個過程。在實際使用時需要對應相應的數據集、網絡參數和訓練步驟進行適當的設置。此外，由"#<save>"標記的部分，是保存函數定義的提示，便于以后的復用。注意，該代碼塊可能需要根據實際環境和數據集導入額外的包和模塊。

要在ROCm上運行預訓練的BERT模型，您需要確保您的系統已經安裝了支持ROCm的TensorFlow版本，并且已經正確配置了相關的環境。以下是一些關鍵步驟和注意事項：

安裝Anaconda：首先，您需要在您的Linux系統上安裝Anaconda，這是一個用于科學計算的Python發行版，它包含了運行BERT所需的許多庫和工具。
安裝TensorFlow：在ROCm上運行BERT需要使用TensorFlow的特定版本，即支持ROCm的版本。您可以從TensorFlow官方網站或者通過其他渠道獲取適合ROCm的TensorFlow版本。
硬件配置：確保您的硬件配置滿足運行BERT的要求。一般來說，需要有足夠的GPU內存和計算能力。例如，有案例使用了配置為4*V100 (16G)，8核CPU，128G內存的硬件配置。
數據準備：根據您的NLP任務需求，準備或收集相應的訓練數據。如果是特定的領域，如金融領域，您可能需要金融新聞、研究報告等數據。
模型調整：由于BERT是一個大規模的模型，您可能需要根據實際情況對模型進行調整，比如調整模型的大小、學習率等參數，以適應您的硬件條件和訓練數據。
性能優化：在預訓練過程中，您可能需要對性能進行優化，這包括使用混合精度訓練、優化器選擇等技術來提高訓練效率和速度。
訓練和評估：最后，您需要實際運行預訓練過程，并在完成后對模型進行評估和調優，以確保其在您的特定任務上能夠達到最佳性能。

請注意，上述步驟是一個大致的指南，具體操作可能需要根據您的實際情況和需求進行調整。此外，由于ROCm和BERT都是不斷發展的技術，建議您查閱最新的官方文檔和社區討論，以獲取最準確的安裝和運行指南。

在ROCm（AMD的開源GPU加速計算平臺）上運行預訓練的BERT模型，通常涉及以下幾個步驟：

安裝ROCm：首先，你需要在你的AMD GPU支持的機器上安裝ROCm。這包括安裝驅動程序、運行時庫、編譯器（如HIP）等。確保你按照ROCm的官方文檔進行了正確的安裝和配置。
選擇深度學習框架：選擇一個支持ROCm的深度學習框架，如PyTorch或TensorFlow。這些框架提供了在GPU上運行深度學習模型的接口。你需要安裝這些框架的ROCm版本。
下載預訓練的BERT模型：從可靠的來源（如Hugging Face的Transformers庫）下載預訓練的BERT模型。確保你選擇了與你的深度學習框架兼容的模型版本。
加載預訓練的BERT模型：使用你選擇的深度學習框架加載預訓練的BERT模型。這通常涉及調用框架提供的特定函數或API來加載模型的權重和配置。
準備數據和預處理：準備你要用于自然語言處理任務的數據，并進行必要的預處理，如分詞、編碼等。確保你的數據格式與BERT模型的輸入要求相匹配。
在ROCm上運行BERT模型：將你的數據和BERT模型傳遞給深度學習框架，并指定使用ROCm作為計算后端。這通常涉及設置環境變量或調用框架的特定函數來指定GPU加速。然后，你可以運行你的自然語言處理任務，并觀察BERT模型在ROCm上的性能。

請注意，具體的實現細節可能會因你使用的深度學習框架和BERT模型版本而有所不同。因此，建議參考你選擇的框架和模型的官方文檔以獲取更詳細的指導和示例代碼。

另外，由于ROCm是AMD的開源項目，其社區支持和資源可能不如NVIDIA的CUDA生態系統豐富。因此，在使用ROCm時可能會遇到一些挑戰和限制。如果你遇到任何問題或困難，建議查閱相關的論壇、社區和文檔以獲取幫助。

找到了第 1 篇資料：AMD顯卡配置深度學習環境（ROCm-pytorch） - 知乎

找到了第 2 篇資料：無需配環境，讓你跟顯卡嘮嘮嗑：AMD ROCm大語言模型 ...

找到了第 3 篇資料：面向中文的BERT預訓練模型 - 知乎

找到了第 4 篇資料：BERT模型從訓練到部署全流程_部署bert模型-CSDN博客

找到了第 5 篇資料：ROCm上運行深度卷積神經網絡（AlexNet）-CSDN博客

找到了第 6 篇資料：AMD ROCM有沒有明顯的坑？ - 電腦討論(新) - Chiphell ...

找到了第 7 篇資料：Posts tagged BERT — ROCm Blogs

找到了第 8 篇資料：ROCm 6.0.0 Release · ROCm ROCm · Discussion #2729

找到了第 9 篇資料：零基礎用 Bert 訓練并部署文本分類模型 - 知乎

找到了第 10 篇資料：深度解析BERT：從理論到Pytorch實戰-騰訊云開發者社區-騰訊云

找到了第 11 篇資料：BERT模型：從訓練到部署的完整指南-百度開發者中心

找到了第 12 篇資料：BERT簡單使用：從預訓練到部署的完整指南-百度開發者中心

在ROCm上運行預訓練的BERT模型主要涉及以下幾個步驟：

安裝ROCm環境：確保你的系統已經安裝了ROCm，包括所需的內核驅動、ROCm平臺和相關的依賴庫。根據 22，可以通過 amdgpu-install 命令來安裝ROCm環境。
安裝支持ROCm的深度學習框架：選擇一個與ROCm兼容的深度學習框架，比如PyTorch。根據 22，建議使用AMD提供的Docker鏡像來安裝PyTorch，這樣可以確保與ROCm的兼容性。
獲取BERT預訓練模型：你可以從Hugging Face的模型庫或其他資源獲取預訓練的BERT模型。根據 24，有多種中文BERT預訓練模型可供選擇。
轉換模型格式：如果BERT模型不是為ROCm優化的格式，你可能需要將其轉換為ROCm兼容的格式。這可能涉及到將模型權重從一種格式轉換為另一種格式，比如從TensorFlow的.ckpt轉換為ONNX或直接支持ROCm的PyTorch模型格式。
在ROCm上運行BERT模型：加載模型并在ROCm加速的GPU上運行推理或進一步的訓練。根據 23，可以使用專為大型語言模型設計的部署工具LM Studio，它支持ROCm加速。
性能優化：利用ROCm提供的性能分析工具，如rocprof、roctracer等，來分析和優化模型的性能。