大模型之微調篇——指令微調數據集準備

大模型之微調篇——指令微調數據集準備

bicheng/2025/6/23 1:37:11/文章來源:https://blog.csdn.net/qq_46035581/article/details/148798929

寫在前面

高質量數據的準備是微調大模型的重中之重，一些高質量的數據集可能遠比模型性能更佳重要。

我是根據自己的數據照著B站up code花園LLaMA Factory 微調教程：如何構建高質量數據集？_嗶哩嗶哩_bilibili做的。

數據集格式

在LLaMA Factory中，支持Alpaca 格式和 ShareGPT 兩種格式，詳細可以自行去查查，下面是兩個格式的示例。

Alpaca 數據格式

? ShareGPT?數據格式

采用Easy Dataset制作數據集

Easy Dataset是一個專門創建大型語言模型數據集的程序。它能將行業領域的語料庫轉換為結構化的數據集。

安裝

安裝教程見官方文檔https://docs.easy-dataset.com/

Easy Dataset工具使用

打開程序，然后創建項目

進入模型配置，這里我旋轉qwen模型（主要是阿里大氣，學生認證免費送300代金卷），注意需要配置對應平臺的api key。

任務配置可以更具需求設置

提示詞配置可以不做，如果生成的有問題在調整提示詞。

文獻處理，這里先選擇模型，再選擇需要處理的文獻，然后就可以開始處理文獻了，

可以查看右方的GA對，GA對可以參考https://zhuanlan.zhihu.com/p/1916488453228561713。主要意思就是針對不同群里設置的不同深度語氣格式的數據集。

查看分割和領域分析數據是否生成合理，如果不合理需要人工干預

一切就緒之后開始提取問題

右上方有任務進行進度，整個過程都是并發運行，可以切換到其他界面操作。一些就緒之后進入問題管理界面查看問題，然后切換模型到推理效果好的deepseek-R1模型，就可以生成答案了.

然后等待生成。幸好deepseek便宜，一個小時才花5塊錢，而且硅基流動也有學生認證，認證送50代金卷。

還能用數據蒸餾增加數據集，這個步驟等待時間較長，生成的數據集也多。

等數據生成結束之后，進入數據集管理界面，導出數據，這里可以導出在LLaMA Factory中使用，會得到一個配置文件。

進入這個文件路徑，打開dataset_info文件發現就是LLaMA Factory要求的格式。

在LLaMA Factory直接將數據路徑粘貼到數據集路徑那里

最后配置好LLaMA Factory的參數就可以開始訓練了。

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/bicheng/85860.shtml
繁體地址，請注明出處：http://hk.pswp.cn/bicheng/85860.shtml
英文地址，請注明出處：http://en.pswp.cn/bicheng/85860.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

LVS—DR模式

LVS—DR模式

LVS—DR模式 LVS DR 模式詳細簡介一、模式定義與核心原理 LVS DR（Direct Routing）模式，即直接路由模式，是 Linux Virtual Server（LVS）實現負載均衡的經典模式之一，工作于網絡四層&#xff0…

閱讀更多...

寶玉分享VibeCoding構建Agent

寶玉分享VibeCoding構建Agent

借助 Claude Code 完成的一個翻譯智能體 (Translator Agent)。你只需輸入一段文字、一個網址或一個本地文件路徑，它就能自動提取內容并完成翻譯。更酷的是，它還能修正原文中的拼寫錯誤，確保譯文的準確流暢。到底什么是“真正的”AI Agent&a…

閱讀更多...

在spring boot中使用Logback

在spring boot中使用Logback

在 Spring Boot 中使用 Logback 作為日志框架是開發中的常見需求，因其高性能和靈活配置而廣受青睞。以下是詳細實踐指南，結合了配置方法、代碼示例及最佳實踐： 🔧 一、依賴配置 Spring Boot 默認集成了 Logback，無需手…

閱讀更多...

騰訊云 Lighthouse 輕量應用服務器：數據驅動的架構選型指南

騰訊云 Lighthouse 輕量應用服務器：數據驅動的架構選型指南

摘要：騰訊云 Lighthouse 作為面向輕量級應用場景的優化解決方案，通過高性價比套餐式售賣、開箱即用應用模板及流量包計費模式，顯著降低中小企業與開發者的上云門檻。本文基于性能測試與橫向對比，量化分析其核心優勢與適用邊界。 …

閱讀更多...

Linux TCP/IP協議棧中的TCP輸入處理：net/ipv4/tcp_input.c解析

Linux TCP/IP協議棧中的TCP輸入處理：net/ipv4/tcp_input.c解析

在網絡通信領域，TCP（傳輸控制協議）因其可靠的面向連接特性而被廣泛應用。Linux內核的TCP/IP協議棧實現了對TCP協議的高效處理，其中net/ipv4/tcp_input.c文件扮演著關鍵角色，負責處理TCP數據包的輸入邏輯。下面是對該文件核心功能的深入剖析。一、TCP數據包接收與處理（…

閱讀更多...

物聯網傳輸網關、RTU、DTU及SCADA系統技術解析

物聯網傳輸網關、RTU、DTU及SCADA系統技術解析

目錄摘要一、引言二、物聯網傳輸網關 1. 定義 2. 類型 3. 分類 4. 工作原理 5. 差異分析總結： 三、RTU（遠程終端單元） 1. 定義 2. 工作原理 3. 特點 4. 應用場景四、DTU（數據傳輸單元） 1. 定義 …

閱讀更多...

【unity游戲開發——熱更新】YooAsset簡化資源加載、打包、更新等流程

【unity游戲開發——熱更新】YooAsset簡化資源加載、打包、更新等流程

注意：考慮到熱更新的內容比較多，我將熱更新的內容分開，并全部整合放在【unity游戲開發——熱更新】專欄里，感興趣的小伙伴可以前往逐一查看學習。文章目錄前言1、什么是YooAsset？2、系統需求3、系統特點一、下載安裝…

閱讀更多...

AWS RDS/Aurora 開啟 Database Insights 高級模式全攻略

AWS RDS/Aurora 開啟 Database Insights 高級模式全攻略

想要深入了解數據庫性能問題？AWS Database Insights 高級模式為您提供強大的性能分析工具。本文詳細對比標準模式與高級模式的功能差異，并提供完整的啟用指南和實戰測試結果。一、Database Insights 模式對比 AWS CloudWatch Database Insights 提供兩種模式：標準模式和高…

閱讀更多...

XML SimpleXML

XML SimpleXML

XML SimpleXML 引言 XML（可擴展標記語言）是一種用于存儲和傳輸數據的標記語言，它被廣泛應用于Web服務和數據交換。SimpleXML是PHP中一個處理XML數據非常便捷的庫。本文將詳細介紹SimpleXML庫的基本用法，幫助讀者快速掌握XML數據…

閱讀更多...

Docker簡單介紹與使用以及下載對應鏡像（項目前置）

Docker簡單介紹與使用以及下載對應鏡像（項目前置）

DockerDocker安裝Docker卸載Docker配置鏡像源配置鏡像加速 Docker服務命令1.鏡像操作命令2.容器操作命令安裝Mysql**數據卷掛載** Docker 在linux中軟件安裝說起: 以前在linux中安裝軟件,是直接安裝在linux操作系統中,軟件和操作系統耦合度很高,不方便管理. 因為linux版本不…

閱讀更多...

MyBatis 簡介

MyBatis 簡介

MyBatis 簡介 MyBatis 是一款優秀的持久層框架，它支持定制化 SQL、存儲過程以及高級映射，能夠幫助開發者將 Java 對象與數據庫表進行靈活映射，簡化數據持久化操作。以下從多個維度詳細介紹 MyBatis： 一、核心定位與優勢輕量級…

閱讀更多...

自監督學習在合成孔徑聲吶目標識別中的應用之論文閱讀

自監督學習在合成孔徑聲吶目標識別中的應用之論文閱讀

自監督學習在合成孔徑聲吶目標識別中的應用 BW Sheffield 美國巴拿馬城海軍水面作戰中心 1 引言在自主水下航行器（AUVs）中應用計算機視覺面臨著獨特的挑戰，因為海洋環境往往條件不可預測且極為嚴苛。傳統計算機視覺研究主要依賴光學相機成像，而在光照不足、懸浮沉積物及水…

閱讀更多...

進程間通信2（命名管道）linux

進程間通信2（命名管道）linux

1 命名管道前面講到匿名管道，有一個很大的限制，那就是只有具有相同祖先（具有親緣關系）的進程間才能進行通信，但是如果想實現不同進程間的通信，這個時候命名管道就發揮著巨大作用。命名管道是一種特殊類…

閱讀更多...

簡單通過SenseVoice給自己配置一個語音轉文字服務

簡單通過SenseVoice給自己配置一個語音轉文字服務

首先把代碼下載下來 gitgithub.com:FunAudioLLM/SenseVoice.git 然后寫一個docker文件 FROM ubuntu:latestRUN apt-get update -y RUN apt-get install -y python3-full python3-pip RUN mkdir -p /SenseVoice WORKDIR /SenseVoice RUN python3 -m venv . ENV USE_CUDA0 EXP…

閱讀更多...

網絡釣魚攻擊

網絡釣魚攻擊

?根據2023年Proofpoint年度網絡釣魚報告顯示：91%的針對性攻擊始于釣魚郵件，平均每30秒就有一個企業成為攻擊目標，全球損失超過$6.5B? 一、釣魚攻擊技術深度解析 1. 釣魚攻擊核心技術架構 2. 現代釣魚技術演進 ?攻擊向量升級路線? ?當前…

閱讀更多...

uvicorn api:app --host 0.0.0.0 --port 7777容器運行失敗

uvicorn api:app --host 0.0.0.0 --port 7777容器運行失敗

docker logs pycorrector-container-gpu 你這個報錯的核心是： ERROR: Error loading ASGI app, Could not import module "api".這說明： uvicorn api:app 沒有找到 api.py 文件，或者沒法導入 app 對象。 🔍 一步步排查…

閱讀更多...

熱成像儀測MOSFET溫度

熱成像儀測MOSFET溫度

熱成像儀測MOSFET溫度根據提供的搜索結果，熱測量方法主要分為非接觸式和接觸式兩大類，針對不同材料特性和測量場景各有優勢。以下是核心方法的總結及關鍵技術要點： 🔥 一、非接觸式熱測量方法紅外熱成像技術原理：通…

閱讀更多...

Dagster資產元數據與標簽：數據治理的利器

Dagster資產元數據與標簽：數據治理的利器

在現代數據棧中，有效的數據治理至關重要。Dagster作為領先的數據編排平臺，提供了強大的資產元數據和標簽功能，幫助團隊更好地理解、組織和跟蹤數據資產。本文將深入探討Dagster中的資產元數據和標簽功能，展示如何利用這些功能提升…

閱讀更多...

基于物聯網的智能飲水機系統設計

基于物聯網的智能飲水機系統設計

標題:基于物聯網的智能飲水機系統設計內容:1.摘要隨著物聯網技術的快速發展，智能設備在日常生活中的應用越來越廣泛。本研究的目的是設計一種基于物聯網的智能飲水機系統，以提高飲水機的使用便捷性和智能化程度。方法上，通過傳感器實時監測…

閱讀更多...

DP讀書：NEC年終小結和顯示器【明基rd28u】

DP讀書：NEC年終小結和顯示器【明基rd28u】

一點真實體驗_寫在ROBOCON2025國賽前很久沒有寫這種關于感受的博客了，就用真實感受的角度來看看一次眾測的經歷，哈哈^ 差不多一個月前，我收到了明基的28寸顯示器，體驗了差不多2周左右，一直把顯示器掛在實驗室倉庫La…

閱讀更多...

最新文章