【自然語言處理與大模型】如何獲取特定領域的微調數據集?

? ? ? ? 在特定領域中,數據集通常由提出需求的一方提供。然而,在某些情況下,如果他們未能提供所需的數據,或者你正在獨立開展一個項目,并且需要相應的數據來推進工作,這時你應該怎么辦呢?本文提供一種思路,幫助你在僅擁有少量樣本的情況下,擴展并構建特定領域的微調數據集。希望本文的內容能夠成為大家前進道路上的鋪路石。

一、思路介紹

????????在少量原始對話樣本的基礎上,通過調用大模型 API(如 GLM 系列) 自動生成大量風格一致、語義合理的對話數據,用于擴充訓練集或提升下游任務表現。

二、數據生成流程

# 第一步:注冊在線大模型API# 第二步:風格模版配置style_config = {"溫柔": {"system_prompt": "你是一個溫柔體貼的聊天助手,說話時總是充滿關懷,使用一下特征:\n1.包含'呢、呀、啦'等語氣詞\n2.使用(`?ω?′)、(*・ω< )、(^_?)☆、?(^_-? 、(・ω<)、☆(*?′╰╯`?)、(。?ˇ?ˇ?)等顏文字溫暖表情\n3.主動詢問用戶感受。","examples": [{"role": "user", "content": "今天好累啊"},{"role": "assistant", "content": "辛苦啦~ 要給自己泡杯熱茶放松一下嗎?(^_?)☆"},{"role": "user", "content": "考試沒考好..."},{"role": "assistant", "content": "沒關系的呀~ 下次一定會更好!需要我陪你聊聊天嗎?(`?ω?′)"}],"temperature": 0.3},"毒舌": {"system_prompt": "你是一個喜歡用犀利吐槽表達關心的朋友,需滿足:\n1. 使用網絡流行語(如'栓Q''退退退')\n2. 包含夸張比喻('你這速度堪比樹懶')\n3. 結尾隱藏關心\n4.使用!!!∑(゚Д゚ノ)ノ、(゚ロ゚ノ)ノ、( ̄へ ̄)、[?ヘ??]等顏文字夸張表情","examples": [{"role": "user", "content": "又胖了5斤!"},{"role": "assistant", "content": "好家伙!你這是要把體重秤壓成分子料理?(゚ロ゚ノ)ノ"},{"role": "user", "content": "游戲又輸了"},{"role": "assistant", "content": "菜就多練練!需要給你推薦《從零開始的電競之路》?[?ヘ??]"}],"temperature": 0.7},
}# 第三步:初始化模型
from zhipuai import ZhipuAI
from sentence_transformers import SentenceTransformer
# 初始化模型
client = ZhipuAI(api_key="9d6183d4d0174ff5bc3673935c1a4f3e.q7E6bKrgmFEiAC56"
)
# 加載 embedding 模型
style_model = SentenceTransformer("./text2vec-base-chinese")# 第四步:生成數據并進行審核
import random
import numpy as np
from numpy.linalg import normdef is_valid_reply(style, user_msg, reply):# 基礎判空檢查if not reply or len(reply.strip()) == 0:return False# 回復長度檢查if len(reply) < 5 or len(reply) > 150:return False# 風格關鍵詞檢查style_kewords = {"溫柔": ["呢", "呀", "啦"],"毒舌": ["!", "好家伙", "栓Q"],}if not any(kw in reply for kw in style_kewords.get(style, [])):return False# 語義相似度檢查try:ref_text = next(msg["content"] for msg in style_config[style]["examples"] if msg["role"] == "assistant")ref_vec = style_model.encode(ref_text)reply_vec = style_model.encode(reply)similarity = np.dot(ref_vec, reply_vec) / (norm(ref_vec) * norm(reply_vec))print("similarity:", similarity)return similarity > 0.40except:return Falsedef generate_style_data(style_name, num_samples=50):config = style_config[style_name]data = []# 構建消息上下文(包括系統提示和示例對話)messages = [{"role": "system", "content": config["system_prompt"]},*config["examples"]]# 用戶輸入庫(可自定義擴展)user_inputs = ["今天心情不太好", "推薦個電影吧", "怎么才能早睡早起","養貓好還是養狗好", "工作壓力好大", "最近總是失眠"]for _ in range(num_samples):try:# 隨機選擇用戶輸入user_msg = random.choice(user_inputs)# 添加當前用戶消息current_msg = messages + [{"role": "user", "content": user_msg}]# 調用APIresponse = client.chat.completions.create(model="glm-4-flash-250414",messages=current_msg,temperature=config["temperature"],max_tokens=100)# 獲取回復內容reply = response.choices[0].message.contentprint("reply:", reply)# 審核數據質量if is_valid_reply(style_name, user_msg, reply):data.append({"user": user_msg,"assistant": reply,"style": style_name})print("choice reply:", reply)time.sleep(1.5)except Exception as e:print("generate_style_data函數出錯!", e)return data# 第五步:執行數據生成
all_data = []print("開始生成溫柔風格數據")
data1 = generate_style_data("溫柔", 50)
all_data.extend(data1)print("開始生成毒舌風格數據")
data2 = generate_style_data("毒舌", 50)
all_data.extend(data2)print(all_data)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/79124.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/79124.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/79124.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Map系列之ConcurrentHashMap源碼分析:高并發場景下的性能密碼

引言&#xff1a;當線程安全成為剛需 1.1 并發時代的Map困境 經典案例&#xff1a;電商秒殺系統超賣事故分析&#xff08;附線程堆棧截圖&#xff09;傳統方案缺陷&#xff1a;synchronizedMap的吞吐量陷阱&#xff08;JMH測試數據對比&#xff09;ConcurrentHashMap的定位&a…

URP - 序列圖動畫的實現

效果&#xff1a; 【太妃糖耶】更新了一條視頻&#xff0c;快來圍觀&#xff01; 序列圖動畫的實現 首先先了解下序列圖樣式的紋理圖片 如上圖一可在Shader中使用該圖片制作燃燒的火的動畫&#xff0c;但是如何實現呢&#xff1f;接下來一起來看一下吧 序列圖動畫的實現原理大…

python中 str.strip() 是什么意思

在 Python 中&#xff0c;str.strip() 是字符串&#xff08;str&#xff09;類型的一個方法&#xff0c;用于移除字符串兩端的空白字符&#xff08;默認情況下&#xff09;或指定字符&#xff0c;并返回處理后的新字符串。 語法&#xff1a; str.strip([chars])chars&#xf…

記錄idea可以運行但是maven install打包卻找不到問題

解決idea使?maven多模塊install報依賴模塊的包找不到的問題 如果被依賴項?是springboot項?&#xff0c;那么可以把相關的springboot的東西移除掉&#xff0c;改造成普通項?。如果不想改造項?&#xff0c;那就添加部分的配置&#xff0c;因為springboot項?打包的時候會?…

uniapp如何獲取安卓原生的Intent對象

通過第三方app喚起&#xff0c;并且獲取第三方app喚起時攜帶的參數 因為應用a喚起應用b時&#xff0c;應用b第一時間就要拿到參數token&#xff0c;所以需要將獲取參數的方法寫在APP.vue中的onLaunch鉤子里,如果其他地方要用可以選擇vuex或者采用本地緩存。 uniapp中plus.run…

《多端統一的終極答案:X5內核增強版的渲染優化全解析》

跨端應用的需求呈爆發式增長&#xff0c;無論是電商購物、社交互動&#xff0c;還是金融理財類應用&#xff0c;都期望能夠在不同平臺上為用戶提供一致且流暢的體驗。而在這一過程中&#xff0c;跨端渲染技術成為了關鍵瓶頸。騰訊X5內核增強版的出現&#xff0c;猶如一道曙光&a…

深入理解算力:從普通電腦到宏觀計算世界

在科技飛速發展的當下&#xff0c;“算力” 一詞頻繁出現在我們的視野中&#xff0c;無論是前沿的人工智能領域&#xff0c;還是新興的區塊鏈世界&#xff0c;算力都扮演著至關重要的角色。但對于大多數普通人來說&#xff0c;算力仿佛是一個既熟悉又陌生的概念。今天&#xff…

Paramiko復用 Transport 連接解析

1. 什么是 Transport 連接&#xff1f; 在 Paramiko 中&#xff0c;Transport 是負責底層 SSH 協議通信的核心類&#xff0c;它封裝了以下功能&#xff1a; 加密通信&#xff1a;處理 SSH 協議的加密和解密。會話管理&#xff1a;維護與遠程服務器的 TCP 連接。多路復用&…

sd webui 安裝插件sd-webui-EasyPhoto依賴安裝失敗解決辦法

在最新版的SD webui中&#xff0c;可以安裝easyphoto插件&#xff0c;官方建議通過github安裝&#xff0c;對無法科學上網的用戶很不友好。對我自己來說是通過地址&#xff1a; https://gitee.com/wowai/sd-webui-EasyPhoto.git 分支&#xff1a;anyid 點擊安裝即可。 在安裝…

WEBSTORM前端 —— 第2章:CSS —— 第3節:背景屬性與顯示模式

目錄 1.Emmet寫法 2.背景屬性 &#xff08;1&#xff09; background-color &#xff08;2&#xff09; background-image &#xff08;3&#xff09; background-repeat &#xff08;4&#xff09;background-position &#xff08;5&#xff09;background-size &…

【android bluetooth 協議分析 01】【HCI 層介紹 2】【Malformed Packet 介紹】

在實際工作中遇到了 malformed packet , 我這里來分析一下。 遇到這種問題的處理思路。 1. Malformed packet 36982 2025-04-29 14:15:34.899760 controller host HCI_EVT 4 Rcvd Role Change[Malformed Packet]Frame 36982: 4 bytes on wire (32 bits), 4 bytes captured (32…

【視頻生成模型】通義萬相Wan2.1模型本地部署和LoRA微調

目錄 1 簡介2 本地部署2.1 配置環境2.2 下載模型 3 文生視頻3.1 運行命令3.2 生成結果 4 圖生視頻4.1 運行命令4.2 生成結果 5 首尾幀生成視頻5.1 運行命令5.2 生成結果 6 提示詞擴展7 LoRA微調 1 簡介 通義萬相 2.1 在 2025 年 1 月推出&#xff0c;2 月 25 日阿里巴巴宣布全…

模式識別的基本概念與理論體系

前面在討論專家系統時曾經說過&#xff0c;為了使計算機具有自動獲取知識的能力&#xff0c;除了應使它具有學習能力外&#xff0c;還應使它具有能識別諸如文字、圖形、圖象、聲音等的能力&#xff0c;計算機的這種識別能力是模式識別研究的主要內容。當然&#xff0c;模式識別…

樹的序列化 - 學習筆記

樹的序列化可以有很多種類&#xff1a;可以變成 dfs 序&#xff0c;可以變成歐拉序&#xff0c;還有什么括號序的科技。 但是除了第一個以外其他的都沒什么用&#xff08;要么也可以被已有的算法給替代掉&#xff09;。所以表面上是講樹的序列化&#xff0c;實際上還是講的 df…

KBEngine 源代碼分析(三):組網邏輯

machine 服務 machine 服務是 KBEngine 用來做服務治理的 每個節點上都需要部署 machine 服務 machine 服務使用 UDP 進行通信 服務發現的方法是其他服務使用 UDP 廣播的方式,通知所有 machine 服務 machine 服務啟動初始化 mahcine 服務初始化過程,主要做了監聽 UDP 端…

git 怎樣把本地倉庫推送到新建的遠程倉庫

將本地 Git 倉庫推送到一個新的遠程倉庫是一個常見的操作。以下是詳細的步驟&#xff1a; 步驟 1: 創建一個新的遠程倉庫 首先&#xff0c;你需要在 GitHub、GitLab 或其他代碼托管平臺上創建一個新的遠程倉庫。 例如&#xff0c;在 GitHub 上創建一個新倉庫&#xff1a; 登…

SPSS PCA+判別分析

1&#xff0c; 主成分分析PCA 我們只要對數化的變量數據&#xff1a; &#xff08;1&#xff09;對數據進行標準化處理&#xff1a; 選擇【分析】—【描述統計】—【描述】 添加要標準化的變量&#xff0c;勾選【將標準化值另存為變量(Z)】&#xff0c;再點確定 SPSS軟件本身不…

XWPFDocument生成word文檔介紹(格式 .docx)

以下是針對 XWPFDocument 的詳細解析&#xff0c;涵蓋其核心功能、常見用法及實際開發中的關鍵點&#xff1a; XWPFDocument 1. XWPFDocument 簡介2. 核心結構與類3. 核心操作詳解**3.1 段落與文本****3.2 表格操作****3.3 列表與編號****3.4 圖片插入** 4. 高級功能**4.1 頁眉…

crashpad 編譯

一環境配置 1.1設置系統UTF8編碼 1.2vs2017語言環境設置英文包 二.獲取depot_tools&#xff08;此步驟可以跳過 最新工具包已上傳下載使用即可&#xff09; windows下載壓縮包&#xff0c;然后放到系統PATH中 下載完以后&#xff0c;基本就是靠depot_tools這個工具集合了&am…

基于標注數據的情感分析模型研究

標題:基于標注數據的情感分析模型研究 內容:1.摘要 隨著互聯網的快速發展&#xff0c;大量文本數據蘊含著豐富的情感信息&#xff0c;對其進行情感分析具有重要的商業和社會價值。本研究的目的是構建基于標注數據的情感分析模型&#xff0c;以準確識別文本中的情感傾向。方法上…