大模型SFT用chat版還是base版 SFT后災難性遺忘怎么辦

大模型SFT用chat版還是base版 SFT后災難性遺忘怎么辦

bicheng/2025/7/28 3:48:50/文章來源:https://blog.csdn.net/taoqick/article/details/147169702

大模型SFT用chat版還是base版

進行 SFT 時，基座模型選用 Chat 還是 Base 模型？

選 Base 還是 Chat 模型，首先先熟悉 Base 和 Chat 是兩種不同的大模型，它們在訓練數據、應用場景和模型特性上有所區別。

在訓練數據方面，Base 模型是基于海量語料庫進行的無監督學習。它從大量文本中學習語言模式和知識，而不需要人工標注或監督。

相比之下，Chat 模型則是在指令微調的有監督學習下進行訓練的。這意味著它使用人工標注的數據集進行訓練，以便更好地理解和響應特定指令。

在應用場景上，Base 模型主要用于無監督學習任務，如文本分類、情感分析、摘要生成等。這些任務主要關注文本內容的理解和處理，而不需要對特定指令做出響應。

相反，Chat 模型則主要用于指令學習任務，如問答系統、對話生成、智能客服等。在這些任務中，模型需要理解和響應人類的指令，以提供準確和有用的信息。

在模型特性上，Base 模型預訓練之后沒有做任何調整。它提供了基本的語言理解和生成能力，但可能需要針對特定任務進行微調或優化。

而 Chat 模型則是在 Base 模型上進行微調的版本，它通過指令微調和人工反饋強化學習等方法，使模型更加符合人類的價值觀和指令要求。

另一種說法是 base 模型可以更方便做知識注入，而 chat 版本是做過對其的，不好做知識注入。

所以基于 base 的 SFT 可以做的上限更高，更方便做知識的注入，而基于 chat 模型的 SFT 是做的樣式學習或者指令學習。

但是 base 也存在沒有對其的風險，輸出可能和希望有差距，需要更多的調優和對齊。

SFT后災難性遺忘怎么辦

1. 更改模型結構和參數高效微調（PEFT）

通過部分參數調整保留預訓練知識，降低對原始模型權重的破壞：

LoRA：通過低秩矩陣更新權重，僅訓練少量新增參數，保留大部分預訓練參數。
Adapter-Tuning：在模型各層插入小型適配器模塊，僅訓練適配器參數。
LoRAMoE：結合混合專家（MoE）與LoRA，將專家分為兩組，分別處理通用知識和新任務，通過路由機制動態分配權重，減少參數沖突。
彈性權重固化（EWC,Elastic Weight Consolidation）：通過引?正則化項，限制模型參數的變動范圍，以保護之前學習到的知識。這種?法可以在微調過程中平衡新任務和舊任務之間的重要性

2. 數據策略優化

調整訓練數據的分布和結構以平衡新舊知識：

混合通用數據：在SFT數據中保留一定比例的通用任務數據（如對話、問答），防止模型過度偏向特定領域。
多任務聯合訓練：同時微調多個任務（如翻譯、摘要、推理），增強模型的泛化能力。
數據重放（Replay）：定期將通用數據重新輸入模型進行訓練，類似“知識復習”。

3. 訓練方式

通過架構設計緩解遺忘：

SDFT（自我蒸餾）：利用原始模型對任務數據生成回復，構建自我蒸餾數據集，使任務數據分布更接近原始模型，減少分布偏移。
漸進式訓練：分階段微調，先訓練適配層，再逐步解凍部分預訓練層，避免一次性全參數更新。

參考文檔

SFT索命14問，給跪了
?模型（LLMs）基礎

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/76616.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/76616.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/76616.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

【圖像生成之21】融合了Transformer與Diffusion，Meta新作Transfusion實現圖像與語言大一統

【圖像生成之21】融合了Transformer與Diffusion，Meta新作Transfusion實現圖像與語言大一統

論文：Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 地址：https://arxiv.org/abs/2408.11039 類型：理解與生成 Transfusion模型?是一種將Transformer和Diffusion模型融合的多模態模型，旨…

閱讀更多...

動態多目標進化算法：基于知識轉移和維護功能的動態多目標進化算法（KTM-DMOEA）求解CEC2018（DF1-DF14）

動態多目標進化算法：基于知識轉移和維護功能的動態多目標進化算法（KTM-DMOEA）求解CEC2018（DF1-DF14）

一、KTM-DMOEA介紹在實際工程和現實生活中，許多優化問題具有動態性和多目標性，即目標函數會隨著環境的變化而改變，并且存在多個相互沖突的目標。傳統的多目標進化算法在處理這類動態問題時面臨著一些挑戰，如收斂速度慢、難以跟蹤…

閱讀更多...

部署NFS版StorageClass(存儲類)

部署NFS版StorageClass(存儲類)

部署NFS版StorageClass存儲類 NFS版PV動態供給StorageClass(存儲類)基于NFS實現動態供應下載NFS存儲類資源清單部署NFS服務器為StorageClass(存儲類)創建所需的RBAC部署nfs-client-provisioner的deployment創建StorageClass使用存儲類創建PVC NFS版PV動態供給StorageClass(存儲…

閱讀更多...

Vue使用el-table給每一行數據上面增加一行自定義合并行

Vue使用el-table給每一行數據上面增加一行自定義合并行

// template <template><el-table:data"flattenedData":span-method"objectSpanMethod"borderclass"custom-header-table"style"width: 100%"ref"myTable":height"60vh">&l…

閱讀更多...

vue項目使用html2canvas和jspdf將頁面導出成PDF文件

vue項目使用html2canvas和jspdf將頁面導出成PDF文件

一、需求： 頁面上某一部分內容需要生成pdf并下載二、技術方案： 使用html2canvas和jsPDF插件三、js代碼 // 頁面導出為pdf格式 import html2Canvas from "html2canvas"; import jsPDF from "jspdf"; import { uploadImg } f…

閱讀更多...

大模型LLM表格報表分析：markitdown文件轉markdown，大模型markdown統計分析

大模型LLM表格報表分析：markitdown文件轉markdown，大模型markdown統計分析

整體流程：用markitdown工具文件轉markdown，然后大模型markdown統計分析 markitdown https://github.com/microsoft/markitdown 在線體驗：https://huggingface.co/spaces/AlirezaF138/Markitdown 安裝： pip install markitdown…

閱讀更多...

Linux 第二講 --- 基礎指令（二）

Linux 第二講 --- 基礎指令（二）

前言這是基礎指令的第二部分，但是該部分的講解會大量使用到基礎指令（一）的內容，為了大家的觀感，如果對Linux的一些基本指令不了解的話，可以先看基礎指令（一），同樣的本文…

閱讀更多...

python格式化字符串漏洞

python格式化字符串漏洞

什么是python格式化字符串漏洞 python中，存在幾種格式化字符串的方式，然而當我們使用的方式不正確的時候，即格式化的字符串能夠被我們控制時，就會導致一些嚴重的問題，比如獲取敏感信息 python常見的格式化字符串百…

閱讀更多...

LLaMA-Factory雙卡4090微調DeepSeek-R1-Distill-Qwen-14B醫學領域

LLaMA-Factory雙卡4090微調DeepSeek-R1-Distill-Qwen-14B醫學領域

unsloth單卡4090微調DeepSeek-R1-Distill-Qwen-14B醫學領域后，跑通一下多卡微調。 1，準備2卡RTX 4090 2，準備數據集醫學領域 pip install -U huggingface_hub export HF_ENDPOINThttps://hf-mirror.com huggingface-cli download --resum…

閱讀更多...

React Hooks: useRef，useCallback，useMemo用法詳解

React Hooks: useRef，useCallback，useMemo用法詳解

1. useRef（保存引用值） useRef 通常用于保存“不會參與 UI 渲染，但生命周期要長”的對象引用，比如獲取 DOM、保存定時器 ID、WebSocket等。新建useRef.js組件，寫入代碼： import React, { useRef, useSt…

閱讀更多...

Spring AI 結構化輸出詳解

Spring AI 結構化輸出詳解

一、Spring AI 結構化輸出的定義與核心概念 Spring AI 提供了一種強大的功能，允許開發者將大型語言模型（LLM）的輸出從字符串轉換為結構化格式，如 JSON、XML 或 Java 對象。這種結構化輸出能力對于依賴可靠解析輸出值的下游應用程…

閱讀更多...

THM Billing

THM Billing

1. 信息收集 (1) Nmap 掃描 bashnmap -T4 -sC -sV -p- 10.10.189.216 輸出關鍵信息： PORT STATE SERVICE VERSION22/tcp open ssh OpenSSH 8.4p1 Debian 5deb11u380/tcp open http Apache 2.4.56 (Debian) # MagnusBilling 應用3306/tcp open …

閱讀更多...

布局決定終局：基于開源AI大模型、AI智能名片與S2B2C商城小程序的戰略反推思維

布局決定終局：基于開源AI大模型、AI智能名片與S2B2C商城小程序的戰略反推思維

摘要：在商業競爭日益激烈的當下，布局與終局預判成為企業成功的關鍵要素。本文探討了布局與終局預判的智慧性，強調其雖無法做到百分之百準確，但能顯著提升思考能力。終局思維作為重要戰略工具，并非一步到位的戰略部署&a…

閱讀更多...

貪心算法 day08（加油站+單調遞增的數字+壞了的計算機）

貪心算法 day08（加油站+單調遞增的數字+壞了的計算機）

目錄 1.加油站 2.單調遞增的數字 3.壞了的計算器 1.加油站鏈接：. - 力扣（LeetCode） 思路： gas[index] - cost[index]，ret 表示的是在i位置開始循環時剩余的油量 a到達的最大路徑假設是f那么我們可以得出 a b …

閱讀更多...

【技術派部署篇】云服務器部署技術派

【技術派部署篇】云服務器部署技術派

1 環境搭建 1.1 JDK安裝 # ubuntu sudo apt update # 更新apt apt install openjdk-8-jdk # 安裝JDK安裝完畢之后，執行 java -version 命令進行驗證： 1.2 Maven安裝 cd ~ mkdir soft cd soft wget https://dlcdn.apache.org/maven/maven-3/3.8.8/bina…

閱讀更多...

Linux:35.其他IPC和IPC原理+信號量入門

Linux:35.其他IPC和IPC原理+信號量入門

通過命名管道隊共享內存的數據發送進行保護的bug： 命名管道掛掉后，進程也掛掉了。 6.systemV消息隊列原理:進程間IPC:原理->看到同一份資源->維護成為一個隊列。過程： 進程A,進程B進行通信。讓操作系統提供一個隊列結構，…

閱讀更多...

【數據結構】紅黑樹超詳解 ---一篇通關紅黑樹原理（含源碼解析+動態構建紅黑樹）

【數據結構】紅黑樹超詳解 ---一篇通關紅黑樹原理（含源碼解析+動態構建紅黑樹）

一.什么是紅黑樹紅黑樹是一種自平衡的二叉查找樹，是計算機科學中用到的一種數據結構。1972年出現，最初被稱為平衡二叉B樹。1978年更名為“紅黑樹”。是一種特殊的二叉查找樹，紅黑樹的每一個節點上都有存儲表示節點的顏色。每一個節點可以是…

閱讀更多...

2024年第十五屆藍橋杯CC++大學A組--成績統計

2024年第十五屆藍橋杯CC++大學A組--成績統計

2024年第十五屆藍橋杯C&C大學A組--成績統計題目： 動態規劃， 對于該題，考慮動態規劃解法，先取前k個人的成績計算其方差，并將成績記錄在數組中，記錄當前均值，設小藍已檢查前i-1個人的成績&…

閱讀更多...

vue2使用ezuikit-js播放螢石視頻

vue2使用ezuikit-js播放螢石視頻

需求：需要在大屏上播放螢石視頻，用到官方的ezuikit-js插件實現，并實現視頻播放切換功能。有個問題至今沒有解決，就是螢石視頻的寬高是固定的，不會根據大屏縮放進行自適應。我這邊做了簡單的刷新自適應。 1.下載ezuikit…

閱讀更多...

愛普生TG-5510CA和TG-5510CB晶振成為服務器中的理想之選

愛普生TG-5510CA和TG-5510CB晶振成為服務器中的理想之選

在數字化時代，服務器作為數據存儲、處理與傳輸的核心樞紐，其性能的優劣直接影響著整個信息系統的運行效率與穩定性。從企業內部的數據中心到云計算服務提供商的大規模集群，服務器需要應對海量數據的高速處理與頻繁交互。而在服務器復雜精密的…

閱讀更多...

最新文章