大語言模型(LLM)一般訓練過程
數據收集與預處理
- 收集:從多種來源收集海量文本數據,如互聯網的新聞文章、博客、論壇,以及書籍、學術論文、社交媒體等,以涵蓋豐富的語言表達和知識領域。例如,訓練一個通用型的LLM時,可能會收集數十億甚至上百億字的文本數據.
- 清洗:去除數據中的噪聲和無關信息,如HTML標簽、特殊字符、錯誤數據、重復項等,還會刪除個人敏感信息 。比如,將文本中的“ ”等HTML實體編碼替換為對應的空格,刪除包含大量亂碼或明顯錯誤的文本段落.
- 分詞與標記化:將文本分割成詞語或子詞的序列,并為每個詞語或子詞分配一個唯一的標識符。例如,使用空格、標點符號或特定規則將句子“我正在學習自然語言處理”分詞為“我”“正在”“學習”“自然語言處理”等 tokens.
- 構建樣本:根據任務需求,將數據組織成訓練樣本。比如對于語言模型預測下一個詞的任務,可以從文本中滑動窗口提取連續的序列作為輸入樣本,目標是預測下一個詞語。假設窗口大小為5,輸入樣本可以是“我正在學習自然語言”,目標詞語則是“處理”.