意圖數據集HWU、Banking預處理

當談到意圖數據集時,HWU、Banking和Clinc是三個常見的數據集。以下是關于這三個數據集的介紹:

目錄

一、數據集介紹

HWU數據集

Banking數據集

Clinc數據集

二、數據集預處理

數據處理?

數據存儲

數據類別分析

句子長度統計


一、數據集介紹

HWU數據集

  • 來源與用途:HWU數據集通常用于自然語言處理和任務型對話系統的研究中,特別是在意圖識別和對話狀態追蹤方面。
  • 內容特點:該數據集包含多種用戶意圖和對應的語句,這些語句旨在反映真實世界中用戶可能提出的各種請求和查詢。
  • 使用場景:研究人員可以使用HWU數據集來訓練和測試他們的模型,以準確識別用戶的意圖,并據此作出相應的響應。

Banking數據集

  • 專注領域:Banking數據集(以BANKING77為例)專注于銀行領域的對話意圖識別。它包含了與銀行服務相關的各種用戶查詢和意圖。
  • 數據構成:這個數據集通常包含大量的用戶提問樣本,每個樣本都標注了具體的意圖類別,如查詢余額、轉賬、查詢交易記錄等。
  • 應用價值:對于開發智能銀行助理或金融領域的自然語言處理應用來說,Banking數據集是一個寶貴的資源。它可以幫助模型更好地理解和響應用戶在銀行業務方面的需求。

Clinc數據集

  • 廣泛覆蓋:Clinc數據集(以CLINC150為例)是一個相對大型的數據集,涵蓋了廣泛的用戶意圖和場景,不僅限于特定領域。
  • 意圖多樣性:該數據集包含多達150種不同的意圖,這些意圖涉及各種日常活動和信息查詢,如播放音樂、查詢天氣、設置提醒等。
  • 研究價值:由于Clinc數據集的多樣性和廣泛性,它成為了研究通用意圖識別和對話系統的重要資源。研究人員可以利用這個數據集來開發和測試更加通用和健壯的自然語言處理模型。

總的來說,HWU、Banking和Clinc這三個數據集在意圖識別和對話系統研究中各有側重,共同為研究人員提供了豐富的數據和場景來訓練和測試他們的模型。

二、數據集預處理

數據處理?

python讀取數據

import pandas as pd
from datasets import load_from_disk
raw_datasets = load_from_disk("./banking77/")

展示數據

raw_datasets

DatasetDict({train: Dataset({features: ['text', 'label'],num_rows: 10003})test: Dataset({features: ['text', 'label'],num_rows: 3080})
})

可以看到,數據集是json格式?,我們要把它轉換成tsv或者csv格式,一列內容,一列標簽的格式。

# 轉換 train 數據集為 DataFrame
train_df = raw_datasets['train'].to_pandas()# 轉換 test 數據集為 DataFrame
test_df = raw_datasets['test'].to_pandas()
train_df.head(2)

?

從打印前兩行可知,數據已成功轉換為text和label兩列并轉換為tsv格式方便讀取。?

數據存儲

train_df.to_csv('./banking77/banking_train.tsv',index=False,sep='\t')
test_df.to_csv('./banking77/banking_dev.tsv',index=False,sep='\t')

數據類別分析

import pandas as pd
df = pd.read_csv('./HWU/HWU_train_data.tsv', sep='\t')
# # df = pd.read_csv('./SST-2/dev.tsv', sep='\t')
df.head()
# # 統計 label 列的種類數量
label_counts = df['label'].value_counts()
print(label_counts)# # 輸出種類數量
print(f"label 列共有 {len(label_counts)} 種不同的取值。")

label
9     1216
48    1014
27     920
67     894
53     892... 
34      35
41      21
5       18
23      18
10       5
Name: count, Length: 68, dtype: int64
label 列共有 68 種不同的取值。

句子長度統計

import csv# 讀取CSV文件
filename = './HWU/HWU_dev_data.tsv'  # 請替換成你的CSV文件路徑
with open(filename, 'r', newline='', encoding='utf-8') as csvfile:reader = csv.reader(csvfile)next(reader)  # 跳過標題行word_counts = [len(row[0].split()) for row in reader]  # 假設你想要獲取第二列句子的單詞個數# 統計單詞個數
total_sentences = len(word_counts)
average_words = sum(word_counts) / total_sentences# 打印結果
print("句子總數:", total_sentences)
print("平均單詞數:", average_words)

句子總數: 2000
平均單詞數: 6.8565

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/39943.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/39943.shtml
英文地址,請注明出處:http://en.pswp.cn/web/39943.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

嵌入式硬件電路常用設計軟件

目錄 1. Cadence Allegro 2. PADS 3. Altium Designer 4. Multisim 5. Protues 1. Cadence Allegro 功能: Cadence Allegro是Cadence公司推出的先進PCB(Printed Circuit Board,印刷電路板)設計布線工具,也是目前…

華為HCIP Datacom H12-821 卷26

1.單選題 在VRRP中,同一備份組的設備在進行VRRP報文認證時,以下哪一參數不會影響Master設備和Backup設備認證協商結果 A、認證字 B、優先級 C、認證方式 D、VRRP版本 正確答案: B 解析: 優先級只會影響誰是主誰是備&…

AI產品經理能力模型的重點素質:人文素養和靈魂境界

在AI產品經理的能力模型中,我最想提的差異化關鍵點,就是“人文素養和靈魂境界”。 1 為什么“人文素養和靈魂境界”非常重要? 一、“人文素養和靈魂境界”如何影響AI產品設計? 例1:面對一個具體的AI場景&#xff0…

25考研,數二全程跟的張宇老師請問660(做了一半)880和張宇1000題應該怎么選擇?

跟張宇老師,也可以做其他的題集,不一定非要做1000題 我當初考研復習的時候,也聽了張宇老師的課程,但是我并沒有做1000題 因為1000題對于我來說太難了。做了一章之后,就換成其他的題目了。 對于大家來說,…

【機器學習實戰】Baseline精讀筆記

比賽用到的庫 numpy:提供(多維)數組操作 pandas:提供數據結構、數據分析 catboost:用于機器學習的庫,特別是分類和回歸任務 sklearn.model_selection:包含模型選擇的多種方法,如交…

Android 監聽網絡狀態變化(無切換中間態版)

需求: 獲取當前的網絡狀態與類型(WIFI、數據流量)監聽網絡狀態真正變化監聽網絡類型發生變化 業務場景: 用戶打開 App 時、使用過程中,出現無網絡時,顯示 Toast 提示。但當 wifi、數據流量 互相切換的過…

ppt接單渠道大公開??

PPT 接單主要分兩種:PPT 模板投稿和PPT 定制接單,我們先從簡單的 PPT 模板投稿說起。 PPT 模板投稿 利用業余時間,做一些 PPT 模板上傳到平臺,只要有人下載你的模板,你就有收入。如果模板質量高,簡直就是一…

【設計模式】觀察者模式(定義 | 特點 | Demo入門講解)

文章目錄 定義結構Demo | 代碼Subject目標類Observer抽象觀察者觀察者1 | CPU監聽器觀察者2 | 內存監聽器客戶端 | Client 優點適合場景 定義 所謂觀察者模式就是你是被觀察的那個對象,你爸爸媽媽就是觀察者,一天24h盯著你,一旦你不聽話&…

【BUUCTF-PWN】7-[第五空間2019 決賽]PWN5

參考:BUU pwn [第五空間2019 決賽]PWN5 //格式化字符串漏洞 - Nemuzuki - 博客園 (cnblogs.com) 格式化字符串漏洞原理詳解_printf 任意內存讀取-CSDN博客 32位小端排序,有棧溢出保護 運行效果: 查看main函數 存在格式化字符串漏洞 輸…

SQL二次注入原理分析

二次注入在測試的時候比較少見,或者說很難被測出來,因為測的時候首先要去找注入的位置,其次是去判斷第一次執行的SQL語句,然后還要去判斷第二次進行調用的 SQL 語句。而關鍵問題就出在第二次的調用上面。 下面以一個常用過濾方法…

macos下搭建minikube dashboard的啟動

背景 最近在復習一下k8s環境相關的知識,需要在自己電腦上搭建一個minikube的環境供自己使用。但是因為docker的鏡像倉庫最近被墻了,因此在執行minikube dashboard的時候,拉不到相應的鏡像,就導致頁面看不到相應的一些信息因此本文…

【PYG】dataloader和densedataloader

DenseDataLoader 是專門用于處理稠密圖數據的,而 DataLoader 通常用于處理稀疏圖數據。兩者的主要區別在于它們的輸入數據格式和處理方式。DenseDataLoader 適合處理固定大小的鄰接矩陣和節點特征矩陣的數據,而 DataLoader 更加靈活,可以處理…

flask中解決圖片不顯示的問題(很細微的點)

我在編寫flask項目的時候,在編寫html的時候,發現不管我的圖片路徑如何變化,其就是顯示不出來。如下圖我框中的地方。 我嘗試過使用瀏覽器打開,是可以的。 一旦運行這個flask項目,就無法顯示了。 我查閱資料后。發現…

簡易版async/await

參考:https://juejin.cn/post/7007031572238958629?searchId20240704101813568E9B5B1013C881A239#heading-15 總結一下async/await的知識點 1、 await只能在async函數中使用,不然會報錯 2、 async函數返回的是一個Promise對象,有無值看有…

泛微開發修煉之旅--29用計劃任務定時發送郵件提醒

文章鏈接:29用計劃任務定時發送郵件提醒

[單master節點k8s部署]17.監控系統構建(二)Prometheus安裝

prometheus server安裝 創建sa賬號,對prometheus server進行授權。因為Prometheus是安裝在pod里面,以pod的形式去運行的,因此需要創建sa,并對他做rbac授權。 apiVersion: v1 kind: ServiceAccount metadata:name: monitornamesp…

k8s-第九節-命名空間

命名空間 如果一個集群中部署了多個應用,所有應用都在一起,就不太好管理,也可以導致名字沖突等。 我們可以使用 namespace 把應用劃分到不同的命名空間,跟代碼里的 namespace 是一個概念,只是為了劃分空間。 # 創建命…

LeetCode熱題100刷題4:76. 最小覆蓋子串、239. 滑動窗口最大值、53. 最大子數組和、56. 合并區間

76. 最小覆蓋子串 滑動窗口解決字串問題。 labuladong的算法小抄中關于滑動窗口的算法總結&#xff1a; class Solution { public:string minWindow(string s, string t) {unordered_map<char,int> need,window;for(char c : t) {need[c];}int left 0, right 0;int …

2.8億東亞五國建筑數據分享

數據是GIS的血液&#xff01; 我們現在為你分享東亞5國的2.8億條建筑輪廓數據&#xff0c;該數據包括中國、日本、朝鮮、韓國和蒙古5個東亞國家完整、高質量的建筑物輪廓數據&#xff0c;你可以在文末查看領取方法。 數據介紹 雖然開源的全球的建筑數據已經有微軟的建筑數據…

elementUI中table組件固定列時會渲染兩次模板內容問題

今天在使用elementUI的table組件時&#xff0c;由于業務需要固定表格的前幾項列&#xff0c;然后獲取表格對象時發現竟然有兩個對象。 查閱資料發現&#xff0c;elementUI的固定列的實現原理是將兩個表格拼裝而成&#xff0c;因此獲取的對象也是兩個。對于需要使用對象的方法的…