大模型增量預訓練參數說明

大模型增量預訓練參數說明

news/2025/8/12 2:57:45/文章來源:https://blog.csdn.net/weixin_48030475/article/details/134587698

在增量預訓練過程中通常需要設置三類或四類參數，模型參數，數據參數，訓練參數，額外參數。

下面分別針對這四種參數進行說明。

歡迎關注公眾號

模型參數

model_type

模型類型，例如bloom,llama，baichuan，qwen等。

model_name_or_path

模型名稱或者路徑。

tokenizer_name_or_path

分詞器名稱或者路徑。如果進行了詞表擴充或裁剪，則tokenizer_name_or_path和model_name_or_path不同。

load_in_8bit

是否以8bit加載模型。

load_in_4bit

是否以4bit加載模型。

use_fast_tokenizer

是否使用快速分詞器。

torch_dtype

張量數值類型

device_map

設置指定設備（也就是在哪張顯卡上）

數據參數

dataset_name

數據集的名稱&#

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/164585.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/164585.shtml
英文地址，請注明出處：http://en.pswp.cn/news/164585.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

JS數組常用的20種方法詳解（每一個方法都有例子，超全面，超好理解的教程，干貨滿滿）

JS數組常用的20種方法詳解（每一個方法都有例子，超全面，超好理解的教程，干貨滿滿）

目錄 1.會改變原數組的方法（7種） 1.push() 2.pop() 3.unshift() 4.shift() 5.reverse() 6.sort() 7.splice() 2.不改變原數組的方法（13種，返回的新數組是從原數組淺拷貝來的） 1.concat() 2.join() 3.slice…

閱讀更多...

12個最佳WordPress投票插件

12個最佳WordPress投票插件

您是否正在為您的網站尋找WordPress投票插件？ WordPress投票插件可讓您輕松地在您的網站上進行民意調查，用戶可以投票。這是在收集見解的同時建立用戶參與度的有效策略。在本文中，我們精心挑選了最好的WordPress投票插件，可幫助…

閱讀更多...

代碼隨想錄算法訓練營第五十二天|300.最長遞增子序列 674. 最長連續遞增序列 718. 最長重復子數組

代碼隨想錄算法訓練營第五十二天|300.最長遞增子序列 674. 最長連續遞增序列 718. 最長重復子數組

文檔講解：代碼隨想錄視頻講解：代碼隨想錄B站賬號狀態：看了視頻題解和文章解析后做出來了 300.最長遞增子序列 class Solution: # 2516 ms, faster than 64.96%def lengthOfLIS(self, nums: List[int]) -> int:n len(nums)dp [1] * n…

閱讀更多...

從Discord的做法中學習 — 使用Golang進行請求合并

從Discord的做法中學習 — 使用Golang進行請求合并

正如你可能之前看到的，Discord去年發布了一篇有價值的文章，討論了他們成功存儲了數萬億條消息。雖然有很多關于這篇文章的YouTube視頻和文章，但我認為這篇文章中一個名為“數據服務為數據服務”的部分沒有得到足夠的關注。在這篇文章中&#…

閱讀更多...

QT項目移植到VS+QT（RTI-DDS）

QT項目移植到VS+QT（RTI-DDS）

QT中.pro文件中include(./xxx.pri) pri文件如下定義 unset(FILENAMES)for(FILENAME, FILENAMES) {HEADERFILE $$PWD/$${FILENAME}.hif(exists($$HEADERFILE)) {HEADERS * $$HEADERFILE}SOURCEFILE $$PWD/$${FILENAME}.cppif(exists($$SOURCEFILE)) {SOURCES * $$SOURCEFILE}…

閱讀更多...

CSS-鼠標屬性篇

CSS-鼠標屬性篇

屬性名：cursor 功能：設置鼠標光標的樣式屬性值： pointer：小手move：移動圖標text：文字選擇器crosshair：十字架wait：等待help：幫助 eg.html{ cursor: wait;}(此處使用css改…

閱讀更多...

SpringBoot——MVC原理

SpringBoot——MVC原理

優質博文：IT-BLOG-CN 一、SpringMVC自動配置 SpringMVC auto-configuration：SpringBoot自動配置好了SpringMVC。以下是SpringBoot對SpringMVC的默認配置：[WebMvcAutoConfiguration] 【1】包括ContentNegotiatingViewResolver和BeanNameView…

閱讀更多...

Keil工程打開發現目標芯片無法選擇解決方案

Keil工程打開發現目標芯片無法選擇解決方案

買了一個開發板，配套有一些底層驅動的例程，打開后發現目標芯片無法選擇，對應的下載Flash FLM文件也無法選擇。從提示框中可以知道所提供的例程是Keil4的例程，我電腦上安裝的Keil版本是Keil版本，估計是這個原因導致工程…

閱讀更多...

C# 執行Excel VBA宏工具類

C# 執行Excel VBA宏工具類

寫在前面在Excel文檔的自動化處理流程中，有部分值需要通過已定義的宏來求解，所以延伸出了用C# 調用Excel中的宏代碼的需求。首先要從NuGet中引入Microsoft.Office.Interop.Excel 類庫 using Excel Microsoft.Office.Interop.Excel; 代碼實現 /// &l…

閱讀更多...

HashMap,1.7與1.8的區別，HashMap的擴容方式有哪些

HashMap,1.7與1.8的區別，HashMap的擴容方式有哪些

HashMap,1.7與1.8的區別底層數據結構的區別 JDK 1.8之前： 1）JDK1.8 之前HashMap 底層是數組和鏈表結合在一起使用也就是鏈表散列。 2）HashMap 通過key 的hashCode 經過擾動函數處理過后得到hash 值，然后通過(n - 1&#xff09…

閱讀更多...

修改el-radio-group樣式,自定義單選組件

修改el-radio-group樣式,自定義單選組件

修改el-radio-group樣式,自定義單選組件自定義組件 MyRadioGroup.vue <template><div class"btnsBox"><el-radio-group v-model"activeIndex" change"handleClick"><el-radio-buttonv-for"(item, index) in list&qu…

閱讀更多...

CSS3動畫

CSS3動畫

在CSS3中新增了一個很有意思的東西，那就是動畫，有了動畫我們可以做很多的事情，讓我為大家介紹一下動畫吧！ 本篇文章關于介紹動畫，利用小球移動為你們介紹一下動畫默認樣式： <!DOCTYPE html> <ht…

閱讀更多...

普通話考試相關（一文讀懂）

普通話考試相關（一文讀懂）

文章目錄： 一：相關常識 1.考試報名時間 2.報名地方費用證件 3.考試流程 4.普通話等級說明二：題型三：技巧 1.前三題 2.命題說話四：普通話考試題庫 1.在線題庫 2.下載題庫一：相關常識 …

閱讀更多...

JavaEE(SpringMVC)期末復習

JavaEE(SpringMVC)期末復習

文章目錄 JavaEE期末復習一、單選題： JavaEE期末復習一、單選題： 1.Spring的核?技術是（ A ）？ A依賴注入 B.JdbcTmplate C.聲明式事務 D.資源訪問 Spring的核心技術包括依賴注入（Dependency Injection&am…

閱讀更多...

【前端】js通過canvas獲取瀏覽器的唯一指紋可以當做唯一標識

【前端】js通過canvas獲取瀏覽器的唯一指紋可以當做唯一標識

【前端】js通過canvas獲取瀏覽器的唯一指紋可以當做唯一標識 <!DOCTYPE html> <html><head> <meta charset"utf-8" /> <meta name"viewport" content"widthdevice-width" /> <title>JS Bin</title> &…

閱讀更多...

解決Emmy Lua插件在IDEA或 Reder 沒有代碼提示的問題(設置文件關聯增加對.lua.txt文件的支持)

解決Emmy Lua插件在IDEA或 Reder 沒有代碼提示的問題(設置文件關聯增加對.lua.txt文件的支持)

目錄 Reder版本2019.x Reder版本2021.1.5x Reder版本2019.x 解決Emmy Lua插件在IDEA或 Reder 沒有代碼提示的問題(設置文件關聯增加對.lua.txt文件的支持) Reder版本2021.1.5x 解決Emmy Lua插件在IDEA或 Reder 沒有代碼提示的問題(設置文件關聯增加對.lua.txt文件的支持)…

閱讀更多...

java游戲制作-王者榮耀游戲

java游戲制作-王者榮耀游戲

一.準備工作首先創建一個新的Java項目命名為“王者榮耀”，并在src下創建兩個包分別命名為“com.sxt"、”com.stx.beast",在相應的包中創建所需的類。創建一個名為“img”的文件夾來儲存所需的圖片素材。二.代碼呈現 package com.sxt;import javax.sw…

閱讀更多...

Netty Review - 探索ByteBuf的內部機制

Netty Review - 探索ByteBuf的內部機制

文章目錄概念ByteBuf VS Java NIO BufferByteBuf實現類HeapByteBuf vs DirectByteBufPooledByteBuf vs UnpooledByteBuf其他 ByteBuf的實現機制概念 ByteBuf是Netty中用于處理二進制數據的緩沖區 Netty的ByteBuf是一個可用于高效存儲和操作字節數據的數據結構。與傳統的Byt…

閱讀更多...

跳躍游戲[中等]

跳躍游戲[中等]

優質博文：IT-BLOG-CN 一、題目給你一個非負整數數組nums，你最初位于數組的第一個下標。數組中的每個元素代表你在該位置可以跳躍的最大長度。判斷你是否能夠到達最后一個下標，如果可以，返回true；否則，返…

閱讀更多...

阿里入局鴻蒙！鴻蒙原生應用再添兩員新丁

阿里入局鴻蒙！鴻蒙原生應用再添兩員新丁

今日HarmonyOS微博稱，阿里釘釘、螞蟻集團旗下的移動開發平臺mPaaS與華為達成合作，宣布啟動鴻蒙原生應用的開發！相關應用將以原生方式適配#HarmonyOS NEXT#系統。 #HarmonyOS#市場或迎來爆發式增長！ 阿里釘釘阿里釘釘與華為達成合…

閱讀更多...

最新文章