生成式人工智能實戰 | 自回歸模型詳解與實現
-
- 0. 前言
- 1. 文本生成模型分析
- 2. 數據處理
-
- 2.1 數據預處理
- 2.2 創建訓練數據批次
- 3. 模型構建與訓練
-
- 3.1 構建 LSTM 模型
- 3.2 訓練 LSTM 模型
- 4. 生成文本
-
- 4.1 通過預測下一個 token 生成文本
- 4.2 控制文本生成的創意性
0. 前言
本節通過訓練一個基于長短期記憶 (Long Short-Term Memory, LSTM) 網絡的文本生成模型,系統介紹了自然語言處理 (Natuarl Language Processing
, NLP
) 任務的核心技術流程。首先對《安娜·卡列尼娜》文本進行分詞和索引化處理,構建詞元到整數的映射關系。模型采用序列到序列的訓練方式,通過預測下一個詞元來學習文本特征。在生成階段,模型以自回歸方式逐步生成文本,并可通過溫度和 Top-K
采樣調控生成結果的隨機性與創造性。雖然 LSTM
模型存在長程依賴等局限性,但該實踐完整涵蓋了分詞、詞嵌入、序列預測等 NLP
基礎技術,為后續學習 Transformer
和注意力機制等高級模型奠定基礎。
1. 文本生成模型分析
訓練文本的選擇取決于期望的輸出內容。本節將以一部長篇小說作為訓練文本,它其豐富的內容使模型能夠有效地學習和模仿特定的寫作風格,大量的文本數據有助于提升模型對文本風格的掌握能力。同時,小說的篇幅通常不會過長,這有助于控制訓練時間。對于本節的長短期記憶 (Long Short-Term Memory, LSTM) 網絡模型訓練,我們將使用小說《安娜·卡列尼娜》的文本。
LSTM
模型無法直接處理原始文本。因此,我們需要將文本轉換為數值形式。首先將文本分解為較小的片段,這一過程稱為分詞 (tokenization
),每個片段稱為一個