在增量預訓練過程中通常需要設置三類或四類參數,模型參數,數據參數,訓練參數,額外參數。
下面分別針對這四種參數進行說明。
歡迎關注公眾號
模型參數
- model_type
模型類型,例如bloom,llama,baichuan,qwen等。
- model_name_or_path
模型名稱或者路徑。
- tokenizer_name_or_path
分詞器名稱或者路徑。如果進行了詞表擴充或裁剪,則tokenizer_name_or_path
和model_name_or_path
不同。
- load_in_8bit
是否以8bit加載模型。
- load_in_4bit
是否以4bit加載模型。
- use_fast_tokenizer
是否使用快速分詞器。
- torch_dtype
張量數值類型
- device_map
設置指定設備(也就是在哪張顯卡上)
數據參數
- dataset_name
數據集的名稱&#