強化微調：以Swift框架進行GRPO多模態模型強化微調為例

強化微調：以Swift框架進行GRPO多模態模型強化微調為例

web/2025/9/4 6:06:49/文章來源:https://blog.csdn.net/lovep1/article/details/150940443

一、TL；DR

整體介紹：強化微調RFT的原因、步驟、作用以及常見的rft方式
dmeo舉例：以Swift給的Qwen2.5-Math-7B-Instruct為例介紹了整個RFT的流程和代碼細節
實際強化微調：以qwen/internVL為例完成一次指令微調并且使用強化學習進一步提升指標

二、整體介紹

2.1 為什么要做強化微調

掉點/回退現象：

基礎MLLM經過含有CoT訓練集上做SFT后，發現在test集上掉點，可以通過強化微調來確保不會發生這種情況

在LLaMA3上，使用gsm8k訓練集訓練llama3.1-8b-instruct，對生成的ckpt使用test集進行評測，會發現掉點。

原因：

模型的知識遺忘，舉例如下：

正常流程：在微調的時候會加入非常多的CoT數據集
造成結果：在繼續訓練通用任務后，知識遺忘破壞了模型原有能力，導致了掉點。
原因分析：當模型在解決數學任務的時候，用到的能力很有可能不是來自于math數據集，而是來自arc數據集，

2.2 什么時候可以使用強化微調

當有如下條件之一時使用強化微調：

已經微調過模型，能力不滿足需求
需要更強的CoT能力
對基模型訓練通用能力，而原始數據集已經導致模型效果無法提升
對應query的輸出結果可以相對準確地評估好壞，例如結果清晰（數學，代碼），過程清晰（翻譯，風格）等

強化微調非常依賴于reward評估是否準確。如果評估結果不準確，可能導致模型訓練原地震蕩，甚至越訓越差。

2.3 強化微調的步驟

2.3.1?使用某個模型生成數據/進行原始數據擴充然后采樣

大模型生成數據：使用GPT、Qwen-Max、DeepSeek-V3/R1等生成和擴充數據，則該強化微調可以理解為蒸餾
模型本身生成數據：可以理解為自我提升（self-improvement）微調
采樣過程-on-policy算法：采樣一個batch，然后通過KL散度和reward進行擬合訓練并不斷循環
采樣算法：包含蒙特卡洛采樣、do_sample采樣、group beam search、dvts等
采樣過程額外引入細節：可以引入ORM（結果判斷），PRM（過程打分），多樣性過濾，語種過濾等

2.3.2?使用數據訓練目標模型

訓練的方式：

如果使用SFT，則稱為拒絕采樣微調
如果是強化學習，則稱為強化學習微調

2.3.3?根據需要判斷是否重復上述過程

如果使用更大的模型蒸餾，例如更大模型的蒙特卡洛采樣蒸餾，一般不會有循環
如果使用本模型進行采樣，或者PPO等算法，則會有循環

2.4 常見的強化微調方式

蒸餾：使用蒙特卡洛、do_sample等方式從超大模型中采樣大量優質數據，訓練小模型
自我提升：從本模型中采樣部分優質數據，篩選后訓練本模型，循環執行
on-policy RL：使用PPO、GRPO等方式循環訓練

2.5 ms-swift的展示demo

SFT和RFT的區別：

使用competition_math直接SFT后，instruct模型的掉點十分嚴重。而RFT后模型能力有提升，即使對Qwen2.5_math_7b_instruct這個SOTA的math模型也同樣有一定提升空間。

同樣可以發現，Qwen2.5這個模型經過RFT后在原有的其他數據集gsm8k上也沒有出現大幅度回退（這就是為什么比SFT好的原因，新數據集上有效果，舊數據集上不坍塌）。

參考資料：強化微調 — swift 3.8.0.dev0 文檔

三、demo代碼分析

3.1 main函數分析

遵循第二節的流程：

先采樣；
再做RLT
再做循環-5次

注意：以上這些流程都是使用python拼接輸入命令行，不是一個函數就搞定了所有的代碼哈，核心的這些命令行的功能都被swift封裝在框架里面了，尤其是PRM模型的選取這些。

3.2 do-sample采樣函數

如下圖所示，過程獎勵模型使用了Qwen2.5-Math-PRM-7B模型，為每一塊GPU上生成了一個采樣的RFT數據集

PRM模型和PRM_threshold如何配合形成采樣數據集：

3.3 do_train訓練函數

直接將rlhf的訓練type寫入啟動腳本，開始強化微調：

代碼參考：https://github.com/modelscope/ms-swift/blob/main/examples/train/rft/rft.py

四、實際項目舉例

閑下來再寫吧這個要記錄自己的實驗結果，我后續截圖補充再寫

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/web/95455.shtml
繁體地址，請注明出處：http://hk.pswp.cn/web/95455.shtml
英文地址，請注明出處：http://en.pswp.cn/web/95455.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

時序數據：使用關系數據庫 vs 時序數據庫存儲的核心區別是什么？

時序數據：使用關系數據庫 vs 時序數據庫存儲的核心區別是什么？

一、時序數據使用關系數據庫 vs 時序數據庫存儲的核心區別時序數據（Time Series Data）是指隨時間連續產生的數據（如傳感器讀數、服務器指標、交易記錄等），其核心特點是高頻寫入、時間有序、量大且查詢模式集中于時間范…

閱讀更多...

ansible判斷

ansible判斷

ansible判斷一、判斷運算符 “” “!” “>” “<” “>” “<” “and” “or” “not” is in 每次執行完一個任務，不管成功與失敗，都會將執行的結果進行注冊，可以使用這個注冊的變量來判斷 when&#…

閱讀更多...

接口設計標準化流程，結合RESTful最佳實踐和實際開發經驗，涵蓋從需求分析到部署的全過程

接口設計標準化流程，結合RESTful最佳實踐和實際開發經驗，涵蓋從需求分析到部署的全過程

目錄一、接口設計流程二、需求分析階段1. 功能需求2. 非功能性需求三、接口設計規范四、詳細實現步驟1. 選擇Web框架2. 接口路由設計3. 請求參數定義4. 請求參數驗證5. 業務邏輯分層6. 錯誤處理機制7. 異步任務處理8. 安全策略9. 接口文檔10. 測試策略11. 服務部署11.1 生產環境…

閱讀更多...

LeetCode 1023.駝峰式匹配

LeetCode 1023.駝峰式匹配

給你一個字符串數組 queries，和一個表示模式的字符串 pattern，請你返回一個布爾數組 answer 。只有在待查項 queries[i] 與模式串 pattern 匹配時， answer[i] 才為 true，否則為 false。如果可以將小寫字母插入模式串 pattern 得…

閱讀更多...

【IQA技術專題】無參考自然圖像IQA：NIQE

【IQA技術專題】無參考自然圖像IQA：NIQE

無參考自然圖像IQA：NIQE：Making a “Completely Blind” Image Quality Analyzer（2012 IEEE）專題介紹一、研究背景二、NIQE方法2.1 NSS model2.2 Patch Selection2.3 Characterizing Image Patches2.4 Multivariate Gaussian Mode…

閱讀更多...

變位齒輪：分度圓、節圓與中心距的 “特殊關聯”

變位齒輪：分度圓、節圓與中心距的 “特殊關聯”

接著上回的話題，在標準齒輪中，我們追求的是“節圓與分度圓重合”的理想狀態。但當實際工程提出更苛刻的要求時，比如：需要避免齒輪根切（齒數過少時）。要配湊一個非標準的中心距。需要大幅提高小齒輪的強度和…

閱讀更多...

Spring Boot集成Kafka常見業務場景最佳實踐實戰指南

Spring Boot集成Kafka常見業務場景最佳實踐實戰指南

一、基礎集成與核心組件解析 （一）環境搭建與依賴配置在 Spring Boot 項目中集成 Kafka，首先需通過 Maven 添加核心依賴： <dependency> <groupId>org.springframework.kafka</groupId> <artifactId>…

閱讀更多...

黑芝麻智能與云深處科技達成戰略合作，共推具身智能平臺全球市場應用

黑芝麻智能與云深處科技達成戰略合作，共推具身智能平臺全球市場應用

8月28日，智能汽車計算芯片引領者黑芝麻智能與具身智能創新技術與行業應用引領者云深處科技達成戰略合作。雙方將圍繞具身智能控制平臺開發、行業智能解決方案共建與國際市場拓展三大方向展開深度合作，攜手推進高性能機器人在多行業場景的規模化落地與應用…

閱讀更多...

AI零售創業公司：零眸智能

AI零售創業公司：零眸智能

零眸智能公司分析引言 “這次融資與合作，讓我們的全球化節奏更堅實也更有確定性。秉持‘讓熱愛與科技成就無限可能’，我們堅持真誠合作、長期主義與價值共享，把行業垂直AI能力按里程碑推進并沉淀為可復制的標準。” —— 零眸智能CEO樊凌云①…

閱讀更多...

學習插入排序+希爾排序并使用java寫代碼

學習插入排序+希爾排序并使用java寫代碼

目錄插入排序例子時間復雜度java代碼希爾排序（縮小增量排序） 例子時間復雜度java代碼相關文章學習數據結構理論算法時間復雜度學習有序二叉樹平衡二叉樹紅黑樹學習冒泡排序選擇排序并使用java寫代碼學習插入排序希爾排序并使用java寫代碼學習堆…

閱讀更多...

win10虛擬機報錯打不開和ubuntu空間不足

win10虛擬機報錯打不開和ubuntu空間不足

ubuntu主機安裝的win10虛擬機報錯如下，導致虛擬機無法打開解決辦法如上圖，找到ubuntu主機home目錄中win10的路徑，將紅色框的文件刪除，然后將綠色框中的文件.prev后綴去掉，如下圖所示。重新打開虛擬機就可以了 ubuntu空…

閱讀更多...

指紋手機技術：破解亞馬遜多賬號運營痛點的底層邏輯與實踐

指紋手機技術：破解亞馬遜多賬號運營痛點的底層邏輯與實踐

在亞馬遜平臺運營中，賬號關聯、行為異常、網絡不合規是賣家繞不開的三大核心風險。隨著亞馬遜反作弊系統（如 A9 算法）對設備指紋、操作軌跡、網絡特征的識別精度持續提升，傳統 “普通手機 VPN” 的多賬號運營模式已頻繁觸發風控&…

閱讀更多...

《UE5_C++多人TPS完整教程》學習筆記46 ——《P47 蹲伏行走（Crouching Walking）》

《UE5_C++多人TPS完整教程》學習筆記46 ——《P47 蹲伏行走（Crouching Walking）》

本文為B站系列教學視頻《UE5_C多人TPS完整教程》 —— 《P47 蹲伏行走（Crouching Walking）》的學習筆記，該系列教學視頻為計算機工程師、程序員、游戲開發者、作家（Engineer, Programmer, Game Developer, Author） S…

閱讀更多...

TiDB v8.5.3 單機集群部署指南

TiDB v8.5.3 單機集群部署指南

前言最近在做 TiDB 的恢復演練，需要在單臺 Linux 服務器上部署一套 TiDB 最小的完整拓撲的集群，本文記錄一下安裝過程。環境準備開始部署 TiDB 集群前，準備一臺部署主機，確保其軟件滿足需求： 推薦安裝 CentOS 7…

閱讀更多...

ClickHouse常見問題——ClickHouseKeeper配置listen_host后不生效

ClickHouse常見問題——ClickHouseKeeper配置listen_host后不生效

ClickHouseKeeper配置listen_host后不生效ClickHouseKeeper配置listen_host后不生效ClickHouseKeeper配置listen_host后不生效 3節點部署ClickHouse集群后，ClickHouse Server執行報錯： Poco::Exception. Code: 1000, e.code() 111, Connection refuse…

閱讀更多...

《Python × MongoDB 實戰指南：從連接到查詢，構建高效數據操作流程》

《Python × MongoDB 實戰指南：從連接到查詢，構建高效數據操作流程》

《Python MongoDB 實戰指南：從連接到查詢，構建高效數據操作流程》一、引言：當 Python 遇上 MongoDB 在當今數據驅動的開發世界里，MongoDB 以其靈活的文檔結構、強大的查詢能力和良好的擴展性，成為 NoSQL 數據庫中的佼佼者。而 Python，作為一門簡潔優雅、生態豐富的編…

閱讀更多...

【Flask + Vue3 前后端分離管理系統】

【Flask + Vue3 前后端分離管理系統】

Flask Vue3 前后端分離管理系統項目概述本項目是一個基于 Flask 后端和 Vue3 前端的前后端分離管理系統。項目實現了用戶管理、角色管理、菜單管理、權限控制等完整的后臺管理功能。技術棧后端技術棧： Flask 3.0.0 - Python Web框架Flask-SQLAlchemy 3.1.1 - O…

閱讀更多...

51c視覺~3D~合集5

51c視覺~3D~合集5

自己的原文哦~ https://blog.51cto.com/whaosoft/14165531 #AnimateAnyMesh 文本驅動通用網格動畫新范式，實現高效高質量4D內容生成 4D 內容生成，即包含時間維度信息的 3D 內容創建，在 VR/AR、游戲等領域具有廣闊的應用前景。…

閱讀更多...

開悟篇Docker從零到實戰一篇文章搞定

開悟篇Docker從零到實戰一篇文章搞定

目錄一：概述 1：why docker 2：Docker是什么？ 3：Docker核心概念二：初步體驗 1：Docker核心架構圖 2：準備工作 1：服務器 2：Docker安裝 3：阿里云docker安裝 4：鏡像加速三：Docker命令和幫助文檔的使用 1：幫助文檔 2：鏡像的基本操作 1：查看本地…

閱讀更多...

LINUX驅動篇（二）驅動開發

LINUX驅動篇（二）驅動開發

系列文章目錄文章目錄系列文章目錄總結介紹字符設備驅動工作原理驅動框架加載卸載注冊注銷設備號詳解打開關閉等操作實例分析led驅動編寫地址映射LED驅動改進驅動方式總結自動注冊注銷設備號自動創建設備節點設備樹設備樹LED驅動實驗pinctrl和gpio并發和競爭原子操作自旋鎖塊設…

閱讀更多...

最新文章