在當今的自然語言處理(NLP)領域,情緒識別是一個非常重要的應用場景。無論是在智能客服、社交媒體分析,還是在情感計算領域,準確地識別用戶的情緒都能夠極大地提升用戶體驗和系統的智能化水平。BERT(Bidirectional Encoder Representations from Transformers)作為一種強大的預訓練語言模型,已經在多個NLP任務中展示了其卓越的性能。在這篇博客中,我們將詳細介紹如何基于MindSpore框架,利用BERT模型實現對話情緒識別。通過一步步的代碼示例和詳細解釋,幫助你掌握這一技術。
模型簡介
BERT(Bidirectional Encoder Representations from Transformers)是一種基于Transformer的雙向編碼器表征模型。它主要通過兩種預訓練任務來捕捉詞語和句子級別的表征:Masked Language Model(MLM)和Next Sentence Prediction(NSP)。
- Masked Language Model:隨機將語料庫中15%的單詞進行掩碼操作,模型需要預測這些被掩碼的單詞。
- Next Sentence Prediction:模型需要預測兩個句子之間是否存在順序關系。
BERT預訓練后,可以用于多種下游任務,如文本分類、相似度判斷、閱讀理解等。
數據集準備
在數據集準備部分,我們下載并解壓了百度飛槳團隊提供的機器人聊天數據集。這個數據集已經過預處理,并包含了情緒標簽。每一行數據由一個標簽和一個經過分詞處理的文本組成。標簽表示情緒類別(0表示消極,1表示中性,2表示積極),文本則是用戶的對話內容。通過使用這種結構化的數據,我們可以更方便地進行情感分類任務。
# 下載數據集
!wget https://baidu-nlp.bj.bcebos.com/emotion_detection-dataset-1.0.0.tar.gz -O emotion_detection.tar.gz
!tar xvf emotion_detection.tar.gz
數據集格式如下:
label--text_a
0--誰罵人了?我從來不罵人,我罵的都不是人,你是人嗎 ?
1--我有事等會兒就回來和你聊
2--我見到你很高興謝謝你幫我
數據加載和預處理
數據加載和預處理是機器學習流程中至關重要的一步。我們使用了GeneratorDataset
來加載數據,并通過映射操作將文本轉換為模型可以接受的格式。具體來說,我們使用了BertTokenizer
將文本Tokenize成詞匯ID,并進行填充(Pad)操作。這樣做的目的是確保所有輸入序列的長度一致,從而提高訓練效率和模型性能。
import numpy as np
from mindspore.dataset import text, GeneratorDataset, transforms
from mindnlp.transformers import BertTokenizerdef process_dataset(source, tokenizer, max_seq_len=64, batch_size=32, shuffle=True):is_ascend = mindspore.get_context('device_target') == 'Ascend'column_names = ["label", "text_a"]dataset = GeneratorDataset(source, column_names=column_names, shuffle=shuffle)type_cast_op = transforms.TypeCast(mindspore.int32)def tokenize_and_pad(text):if is_ascend:tokenized = tokenizer(text, padding='max_length', truncation=True, max_length=max_seq_len)else:tokenized = tokenizer(text)return tokenized['input_ids'], tokenized['attention_mask']dataset = dataset.map(operations=tokenize_and_pad, input_columns="text_a", output_columns=['input_ids', 'attention_mask'])dataset = dataset.map(operations=[type_cast_op], input_columns="label", output_columns='labels')if is_ascend:dataset = dataset.batch(batch_size)else:dataset = dataset.padded_batch(batch_size, pad_info={'input_ids': (None, tokenizer.pad_token_id), 'attention_mask': (None, 0)})return datasettokenizer = BertTokenizer.from_pretrained('bert-base-chinese')
dataset_train = process_dataset(SentimentDataset("data/train.tsv"), tokenizer)
dataset_val = process_dataset(SentimentDataset("data/dev.tsv"), tokenizer)
dataset_test = process_dataset(SentimentDataset("data/test.tsv"), tokenizer, shuffle=False)
模型構建
在模型構建部分,我們使用了BertForSequenceClassification
來進行情感分類任務。這個預訓練模型已經在大規模語料上進行了訓練,具有強大的語言理解能力。通過加載預訓練權重,我們可以顯著提升模型在情感分類任務上的表現。同時,我們使用了自動混合精度(auto mixed precision)技術,這不僅可以加速訓練過程,還能減少顯存使用,從而在有限的硬件資源下實現更高效的訓練。
優化器和評價指標是模型訓練中的重要組件。我們選擇了Adam優化器,因為它在處理大規模數據和復雜模型時表現優異。評價指標方面,我們使用了準確率(Accuracy)來衡量模型的性能。通過這些設置,我們可以確保模型在訓練過程中不斷優化,并在驗證集上取得良好的表現。
回調函數在模型訓練過程中發揮著重要作用。我們設置了兩個回調函數:CheckpointCallback
和BestModelCallback
。前者用于定期保存模型的權重,后者則自動加載表現最好的模型權重。通過這些回調函數,我們可以確保在訓練過程中不會丟失重要的模型參數,并且始終使用表現最佳的模型進行推理和評估。
from mindnlp.transformers import BertForSequenceClassification
from mindspore import nn
from mindnlp._legacy.amp import auto_mixed_precisionmodel = BertForSequenceClassification.from_pretrained('bert-base-chinese', num_labels=3)
model = auto_mixed_precision(model, 'O1')optimizer = nn.Adam(model.trainable_params(), learning_rate=2e-5)
metric = Accuracy()
ckpoint_cb = CheckpointCallback(save_path='checkpoint', ckpt_name='bert_emotect', epochs=1, keep_checkpoint_max=2)
best_model_cb = BestModelCallback(save_path='checkpoint', ckpt_name='bert_emotect_best', auto_load=True)trainer = Trainer(network=model, train_dataset=dataset_train,eval_dataset=dataset_val, metrics=metric,epochs=5, optimizer=optimizer, callbacks=[ckpoint_cb, best_model_cb])
trainer.run(tgt_columns="labels")
模型驗證
在模型驗證部分,我們使用驗證數據集來評估模型的性能。通過計算模型在驗證集上的準確率,我們可以了解模型的泛化能力和實際效果。這一步驟非常重要,因為它可以幫助我們發現模型在訓練過程中可能存在的問題,并進行相應的調整和優化。
evaluator = Evaluator(network=model, eval_dataset=dataset_test, metrics=metric)
evaluator.run(tgt_columns="labels")
模型推理
模型推理部分展示了如何使用訓練好的模型對新數據進行情感分類。我們定義了一個predict
函數,通過輸入文本進行情感預測,并輸出預測結果。這個步驟展示了模型的實際應用能力,并驗證了模型的泛化性能。
dataset_infer = SentimentDataset("data/infer.tsv")def predict(text, label=None):label_map = {0: "消極", 1: "中性", 2: "積極"}text_tokenized = Tensor([tokenizer(text).input_ids])logits = model(text_tokenized)predict_label = logits[0].asnumpy().argmax()info = f"inputs: '{text}', predict: '{label_map[predict_label]}'"if label is not None:info += f" , label: '{label_map[label]}'"print(info)for label, text in dataset_infer:predict(text, label)
自定義推理數據
最后,我們展示了如何使用模型對自定義輸入進行情感識別。這一步驟不僅展示了模型的實際應用能力,還驗證了模型在不同輸入下的表現。通過這種方式,我們可以進一步了解模型的泛化能力和實際效果。
predict("家人們咱就是說一整個無語住了 絕絕子疊buff")