uci數據集_干貨收藏!三大領域常用十大開源數據集

全文共1144字,預計學習時長2分鐘

ef35b64a43edea2c9be0827a6ce1f70a.png

機器學習的研究與實現離不開大數據。知曉通用的開源數據集,一方面可以驗證自己算法,另一方面也可以與其他算法進行比較。本文介紹了計算機視覺、自然語言處理和語音識別三大領域的十個開源數據集以供你參考,絕對值得收藏!

05b314469dcbcfae578f23abea3b8c29.png

計算機視覺

MNIST

MNIST 數據集來自美國國家標準與技術研究所,National Institute of Standards and Technology (NIST)。訓練集 (training set) 由來自250個不同人手寫的數字構成,其中 50% 是高中學生,50% 來自人口普查局 (the Census Bureau) 的工作人員。測試集(test set) 也是同樣比例的手寫數字數據。

鏈接:http://pjreddie.com/projects/mnist-in-csv/

CIFAR 10

CIFAR-10數據集由10個類的60000個32x32彩色圖像組成,每個類有6000個圖像。有50000個訓練圖像和10000個測試圖像。數據集分為五個訓練批次和一個測試批次,每個批次有10000個圖像。測試批次包含來自每個類別的恰好1000個隨機選擇的圖像。訓練批次以隨機順序包含剩余圖像,但一些訓練批次可能包含來自一個類別的圖像比另一個更多。總體來說,五個訓練集之和包含來自每個類的5000張圖像。

鏈接:https://www.cs.toronto.edu/~kriz/cifar.html

ImageNet

圖像處理界最有名的圖像數據集之一,一般情況下只用子數據集就可以。ImageNet數據集是為了促進計算機圖像識別技術的發展而設立的一個大型圖像數據集。其圖片數量最多,分辨率最高,含有的類別更多,有上千個圖像類別。每年ImageNet的項目組織都會舉辦一場ImageNet大規模視覺識別競賽,從而會誕生許多圖像識別模型。

鏈接:http://image-net.org/

Visual Genome

非常詳細的視覺知識庫,并帶有100K圖像的深字幕。相較于ImageNet數據集,這個數據集每張圖片所包含的信息更加豐富,將對象、屬性之間的關系做注解,是這套數據集的核心。Visual Genome數據集采用了微軟COCO的圖片庫,用極豐富的細節對這十萬張圖片做了注解。

鏈接:http://visualgenome.org/

05b314469dcbcfae578f23abea3b8c29.png

NLP

WikiText

WikiText 英語詞庫數據(The WikiText Long Term Dependency Language Modeling Dataset)是一個包含1億個詞匯的英文詞庫數據,這些詞匯是從Wikipedia的優質文章和標桿文章中提取得到,包括WikiText-2和WikiText-103兩個版本,相比于著名的 Penn Treebank (PTB) 詞庫中的詞匯數量,前者是其2倍,后者是其110倍。每個詞匯還同時保留產生該詞匯的原始文章,這尤其適合當需要長時依賴(longterm dependency)自然語言建模的場景。

鏈接:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

SQuAD

SQuAD 是斯坦福大學于2016年推出的數據集,一個閱讀理解數據集,給定一篇文章,準備相應問題,需要算法給出問題的答案。此數據集所有文章選自維基百科,數據集的量為當今其他數據集(例如,WikiQA)的幾十倍之多。一共有107,785問題,以及配套的 536 篇文章。

鏈接:https://rajpurkar.github.io/SQuAD-explorer/

UCI’s Spambase

來自UCI的經典垃圾電子郵件數據集。這是一個大型垃圾郵件數據集,用于垃圾郵件過濾。

鏈接:https://archive.ics.uci.edu/ml/datasets/Spambase

05b314469dcbcfae578f23abea3b8c29.png

語音

LibriSpeech

該數據集是包含大約1000小時的英語語音的大型語料庫。這些數據來自LibriVox項目的有聲讀物。它已被分割并正確對齊,如果你正在尋找一個起點,請查看已準備好的聲學模型,這些模型在http://kaldi-asr.org和語言模型上進行了訓練,適合評估。

鏈接:http://www.openslr.org/12/

2000 HUB5 English

只包含英語的語音數據。最近一次被使用是百度的深度語音論文。

鏈接:https://catalog.ldc.upenn.edu/LDC2002T43

VoxForge

帶口音英語的清晰語音數據集。如果你需要有強大的不同口音、語調識別能力,會比較有用,可以提高系統的魯棒性。

鏈接:http://www.voxforge.org/

e264b118e78cebf38420c5531d340463.png

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/271145.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/271145.shtml
英文地址,請注明出處:http://en.pswp.cn/news/271145.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

系統設計知識:系統設計的基本原理介紹

1、抽象抽象主要用來將復雜的現象簡化到可以分析、實驗或者可以理解的程度。抽象的最低層就是實現該軟件的源程序代碼。在進行模塊化設計也可以有多個抽象層次,最高抽象層次的模塊用概括的方式描述問題的解決方案。較低層次的模塊是對更高抽象層次模塊對問題描述的細…

Wpf Binding.Path設置

Binding.Path 獲取或設置綁定源屬性的路徑。 每個綁定通常都具有四個組件:綁定目標對象、目標屬性、綁定源,以及要使用的綁定源值的路徑。有關這些數據綁定概念的更多信息,請參見數據綁定概述。 使用 Path 屬性可以指定您要綁定到的源值&…

java內存溢出怎樣查找代碼_JVM - 內存溢出,問題查找

當內存溢出會拋出 java.lang.OutOfMemoryError: Java heap space 的異常,那這個時候怎樣去分析到底哪里導致內存溢出呢?我們可以通過在vm的參數, -XX:HeapDumpOnOutOfMemoryError 記住這個理是大寫XX。當內存溢出后,顯示java.lang…

系統設計知識:系統模塊結構設計知識筆記

1、什么是模塊?模塊可以認為是組成系統的基本單位,它具有可組合、分解、更換的特點。系統中任何一個處理功能都能看成是一個模塊。模塊根據具體化的程度可劃分為邏輯模塊和物理模塊。模塊的要素:輸入輸出:模塊的輸入來源和去向都是…

安卓掃一掃自動跳轉軟件_ipad軟件使用技巧

適用于三款ipadipad pro 1ipad pro2ipad 2018三個ipad軟件分別是notability、goodnotes、和MarginNote,這三個軟件各有特點。其中notability、goodnotes是筆記軟件,同樣都可以自己創立筆記本配合蘋果筆像手寫一樣做筆記,也可以導入pdf作為閱讀…

第12章 使用Samba或NFS實現文件共享

章節簡述: 本章節為讀者講述文件共享系統的作用,了解Samba與NFS服務程序的開發背景以及用法。 詳細逐條講解Samba服務配置參數,演示安全共享文件的配置策方法,并使用autofs服務程序自動掛載設備, 學會后即可實現Linux…

ExtClassLoader和AppClassLoader是Launcher類的兩個內部類

sun.misc.Launcher他是一個java虛擬機的入口應用 看下Launcher類 ExtClassLoader和AppClassLoader是Launcher類的兩個內部類

Java后端帶參跨域訪問_java后端解決請求跨域

跨域跨域:指的是瀏覽器不能執行其他網站的腳本。它是由瀏覽器的同源策略造成的,是瀏覽器對javascript施加的安全限制。例如:a頁面想獲取b頁面資源,如果a、b頁面的協議、域名、端口、子域名不同,所進行的訪問行動都是跨…

系統輸入輸入出設計相關知識介紹

1、輸出設計輸出設計主要包括:確定輸出內容、選擇輸出設備與介質、確定輸出格式三個方面的內容。確定輸出內容:輸出內容的設計首先要確定用戶在使用信息方面的需求,然后設計輸出信息的內容,包信息形式(括文字、圖形、表…

計算機知識:電腦系統盤文件夾詳解

今天給大家介紹一下電腦系統盤(C盤)的相關知識。C盤變紅,是存儲空間告急。C盤里通常都是安裝的系統文件,一般情況下不放其他文件,如果放了可以轉移到其他盤里去。還有一個就是電腦桌面,通常也是屬于C盤空間…

python json dumps utf8_Python2操作JSON出現亂碼的解決方案

其實剛剛寫過一整篇Python編碼問題的解決方案,由于JSON又是一種特殊案例(與庫相關,與語言本身無關)所以就單獨提出來說。我們來看一個從網上獲取json并又存到本地文件的例子import requests,jsonr requests.get(https://api.github.com/repos/solomonxi…

【代碼筆記】iOS-字體抖動動畫

一,效果圖。 二,代碼。 ViewController.m #import "ViewController.h"interface ViewController ()endimplementation ViewController- (void)viewDidLoad {[super viewDidLoad];// Do any additional setup after loading the view, typicall…

java for循環如何優化_java for循環及其優化

for循環1.首先知道,for循環的3個表達式的意思:表達式1: 一般為賦值表達式,給控制變量賦初值;表達式2: 關系表達式或邏輯表達式,循環控制條件;表達式3: 一般為賦值表達式&…

ElementUI+VUE 日期控件禁用用法

今天給大家整理一下ElementUIVUE 日期控件禁用用法&#xff0c;希望對大家有所幫助&#xff01;HTML文件<el-date-pickerv-model"value"type"date":editable"false"placeholder"開始日期"value-format"yyyy-MM-dd":picke…

利用rfcomm實現樹莓派與手機通信_工業物聯網 | 怎么用NodeRed實現樹莓派與阿里云物聯網平臺通信?虹科告訴你!...

想獲取更多IIOT干貨請點擊藍字&#xff0c;關注我們虹科工業樹莓派高性能多接口寬溫--適應惡劣環境★★★★★Node-RED是構建物聯網(IoT)應用程序的強大工具&#xff0c;它使用可視化的編程方法&#xff0c;允許開發人員將預定義的代碼塊(稱為“節點”)連接在一起以執行任務。當…

關于“using namespace std”

http://www.cnblogs.com/uniqueliu/archive/2011/07/10/2102238.html轉載于:https://www.cnblogs.com/prayer521/p/5762948.html

mysql的mtr是指什么_MySQL中MTR的概念

MTR全稱是Mini-Transaction&#xff0c;顧名思義&#xff0c;可以理解為"最小的事務"&#xff0c;MySQL中把對底層頁面的一次原子訪問的過程稱之為一個Mini-Transaction&#xff0c;這里的原子操作&#xff0c;指的是要么全部成功&#xff0c;要么全部失敗&#xff0…

前端:Element UI 多選框組用法筆記

今天給大家分享一下Element UI 多選框組用法筆記&#xff0c;直接上代碼&#xff01;<html><head></head><body><el-form> <el-form-item label"興趣愛好:"> <el-checkbox-group v-model"form.checkList"> <…