機器學習之必知開源數據集

之前看到的不錯的文章,玩機器學習數據是關鍵,有了這些東西,你就不必再為沒有數據而苦惱。
轉自:https://www.toutiao.com/i6432197108580745730/

  • 目錄
    • UCI
    • GoogleTrends
    • Kaggle
    • AWS公用數據集
    • Imagenet
    • MINIST
    • /r/數據集
    • 其他數據集

目錄

機器學習的研究與實現,離不開大數據。知曉通用的開源數據集,一方面可以驗證自己算法,而另一方面也可以與其他算法進行比較。

不少開源工具和框架都會含有默認的數據集,使學習者能很快上手。比如scikit-learn就直接支持iris、digits等數據集,通過datasets.load_iris()、datasets.load_digits()就可以直接載入數據進行分析。

除了工具默認支持的數據集外,還有很多知名的開源數據集,供機器學習相關人員使用。

UCI

UCI肯定是最知名的開源數據集(庫)之一,它是加州大學歐文分校所維護的一個數據集(庫),里面包含373個數據集,并且還在持續增長。數據集的類別也很豐富多樣并且歸類清晰,有專門針對聚類的數據集,專門針對回歸研究的數據集;從數據類型緯度,有文本類型的,有時序相關類型的。
這里寫圖片描述

同時其數據的獲取也很簡單,直接點擊需要的數據集,進入下載頁面直接壓在壓縮包,解壓即可使用。數據一般按照特定格式組織成文本形式。

在UCI項目中,最常用的數據集包括iris、wine、soybean、zoo:

  • iris,鳶尾數據集,其包含3個類,每個類50個元素,每個元素有5個屬性,用來代表不同的鳶尾花
  • wine,酒水數據庫,其中包含3個類,共178個元素,每個元素有3個屬性,常用于聚類研究
  • soybean,大豆疾病數據集,其中包含4個類,共47個元素,但每個元素有35個屬性
  • zoo,動物園數據集,其中包含7個類,共101個元素,每個元素16個屬性

項目地址:http://archive.ics.uci.edu/ml/index.php

GoogleTrends

GoogleTrends開源出來的數據集不一定是非常知名、用途廣泛的數據集,但是由于其數據來源于互聯網,具有很強的時間感,社會屬性,并且也能很快檢測算法的準確性,畢竟互聯網數據的產生速度要遠遠大于傳統數據。
這里寫圖片描述

該數據集中數據組織形式也非常直接,csv文件,這樣無論是人工查看,還是程序處理都非常方便,畢竟現在絕大多數框架都支持直接載入csv文件。

項目地址:http://googletrends.github.io/data/

Kaggle

Kaggle本身是為開發商和數據科學家提供舉辦機器學習競賽、托管數據庫、編寫和分享代碼的平臺。而各種機器學習競賽中用到的數據集則可以在改平臺上下載,這對于驗證、對比自身算法的優劣大有裨益。
這里寫圖片描述

其中覆蓋了分類、回歸、排名、推薦系統以及圖像分析等各個非常使用的領域,但是不好之處在于有些數據集是收費的。

項目地址:https://www.kaggle.com/competitions

AWS公用數據集

這個數據集是AWS集成的,必須通過AWS API訪問的數據集,其中包含了人類基因組項目、Common Crawl網頁語料庫、維基百科數據和Google BooksNgrams等形形色色的數據集。

使用該數據庫最大問題是它默認支持的格式是通過AWS相關的操作,包括建實例等,對于離線分析,或者不想購買云資源的用戶來說,不那么方便直接。

項目地址:https://aws.amazon.com/cn/public-datasets/

Imagenet

Imagenet是圖像領域最出名的數據集之一,各種圖像處理相關的算法都會在該數據集上驗證其先進性,也有各種研究人員針對該數據集做研究以及優化。
這里寫圖片描述

在深度學習異常火爆的當下,Imagenet也起了非常大的推動作用。深度學習領域大牛Hilton的論文《ImageNet Classification with Deep Convolutional Neural Networks》,其使用的就是Imagenet數據集,后來者們也都紛紛使用該數據集進行算法的研究和優化。

該數據集有1400W圖片,涵蓋有豐富的類別,帶標注數據也超過百萬,這使得該數據集在圖像處理,定位,檢測等研究工作中占據很大的地盤,其機會成為了目前深度學習圖像領域算法性能檢驗的標準數據庫。

項目地址:http://image-net.org/download

MINIST

深度學習領域的“Hello World!”,入門必備!MNIST是一個手寫數字數據庫,它有60000個訓練樣本集和10000個測試樣本集,每個樣本圖像的寬高為28*28。此數據集是以二進制存儲的,不能直接以圖像格式查看,不過很容易找到將其轉換成圖像格式的工具。最早的深度卷積網絡LeNet便是針對此數據集的,當前主流深度學習框架幾乎無一例外將MNIST數據集的處理作為介紹及入門第一教程,其中Tensorflow關于MNIST的教程非常詳細。

這里寫圖片描述
項目地址:http://yann.lecun.com/exdb/mnist/

/r/數據集

Reddit的/r/數據集是一個大伙分享、請求的數據集平臺,在此平臺上能分享、下載甚至討論大量的數據集,從普通數據集到用于深度分析的數據集,不一而足。

項目地址:https://www.reddit.com/r/datasets/

其他數據集

麻省理工大學人臉識別,http://vis-www.cs.umass.edu/fddb/

歌曲數據庫,http://labrosa.ee.columbia.edu/millionsong/

圖像處理COCO,http://mscoco.org/

視頻數據集youtube,https://research.google.com/youtube8m/

此外,還有大量的針對某個領域的數據集,比如圖像分隔、地質數據、政府數據等等,不一而足。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/456648.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/456648.shtml
英文地址,請注明出處:http://en.pswp.cn/news/456648.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

PHP中header函數的用法及其注意重點是什么呢

1、使用header函數進行跳轉頁面; header(Location:.$url);  其中$url就是將要跳轉的url了。 這種用法的注意事項有以下幾點: ?Location和":"之間不能有空格,否則會出現錯誤(注釋:我剛測試了,在…

《計算機科學概論》—第3章3.3節文本表示法

本節書摘來自華章出版社《計算機科學概論》一書中的第3章,第3.3節文本表示法,作者[美]內爾黛爾(Nell Dale)約翰路易斯(John Lewis),更多章節內容可以訪問云棲社區“華章計算機”公眾…

習題

# -*- coding: utf-8 -*- # Time : 2019/08/08 17:38 # Author : Liu # File : zuoye.py# 一、 # 將此功能定義成一個函數, # 電腦隨機生成1~100隨機數,用戶輸入一個數字,電腦提示用戶大或者小,猜錯,繼續提示&a…

經典技術面試指南

目錄計算機基礎知識數據結構算法操作系統計算機網絡數據庫海量數據處理C語言基礎Java基礎Java高級Java Web設計模式知識的綜合能力工具使用項目相關技術熱情表達能力思考方式其他推薦閱讀 目錄 最近看到一份不錯的面試總結,也是每位程序猿都應該掌握的基礎&#x…

Linux 共享內存詳解一

共享內存段被多個進程附加的時候,如果不是所有進程都已經調用shmdt,那么刪除該共享內存段時,會出現一個臨時的不完整的共享內存段(key值是0),無法徹底刪除。只有當所有進程都調用shmdt,這個臨時…

python 魔術方法

python 魔術方法 常用魔術方法 魔術方法就是一個類的特殊方法,和普通方法唯一的不同時,普通方法需要調用!而魔術方法由系統自動調用。 1.__init__ 初始化魔術方法 觸發時機:初始化對象時觸發(不是實例化觸發&#xf…

Storm ack和fail機制再論

之前對這個的理解有些問題,今天用到有仔細梳理了一遍,記錄一下 首先開啟storm tracker機制的前提是, 1. 在spout emit tuple的時候,要加上第3個參數messageid 2. 在配置中acker數目至少為1 3. 在bolt emit的時候,要加…

Storm編程模型總結

目錄前言:1、Storm編程模型2、對應的的WordCount案例總結: 目錄 前言: 對于Storm的編程模型有必要做一個詳細的介紹(配合WC案例來介紹) 1、Storm編程模型 上圖中組件的解釋: DataSource:外…

13_觀察者模式

【觀察者模式】 也叫作發布/訂閱模式,使用較為頻繁。 定義了對象間一種一對多的依賴關系,當一個對象改變狀態時,則所有依賴于它的對象都會得到通知并被自動更新。 觀察者模式由以下幾個角色組成: * Subject 被觀察者 定義被觀察者…

【python】內建異常類的層次

內建異常類的層次 BaseException-- SystemExit-- KeyboardInterrupt-- GeneratorExit-- Exception-- StopIteration-- StopAsyncIteration-- ArithmeticError| -- FloatingPointError| -- OverflowError| -- ZeroDivisionError-- AssertionError-- AttributeError-- …

《黑客秘笈——滲透測試實用指南》—第2章2.3節 外部或內部的主動式信息收集...

本節書摘來自異步社區《黑客秘笈——滲透測試實用指南》一書中的第2章2.3節 外部或內部的主動式信息收集,作者【美】Peter Kim(彼得 基姆),更多章節內容可以訪問云棲社區“異步社區”公眾號查看。 2.3 外部或內部的主動式信息收集黑客秘笈——…

Storm集群的安裝及簡單使用

目錄前言:1、集群部署的基本流程2、Storm常用操作命令(了解)3、Storm集群的進程及日志熟悉(知道對應的日志的位置出了問題知道去哪找原因)4、Storm源碼目錄分析(重要)總結: 目錄 前…

【python】錯誤、異常和文件---復習筆記

錯誤、異常和文件 1. 異常處理 錯誤指的是代碼有語法問題,無法解釋運行,必須改正后才能運行 如果代碼沒有語法問題,可以運行,但會出運行時的錯誤,例如除零錯誤,下標越界等問題,這種在運行期間…

關于使用百度ueditor時的一些問題

本來這些問題直接在百度貼吧里回答不就完事了,可是好死不死的,百度貼吧里老出現 未知錯誤&#xff0c;錯誤號&#xff1a;230274 看來還是算了,自己做一個隨筆記錄一下好了 關于我們獲取里面的內容時,老是會有一個<p>來包著,而且還老是多出來一個<br/> 這邊是這么處…

Storm的通信機制

目錄前言&#xff1a;1、Worker進程間通信原理2、Worker進程間技術(Netty、ZeroMQ)3、Worker 內部通信技術(Disruptor)總結&#xff1a; 目錄 前言&#xff1a; 這篇文章&#xff0c;博客主要介紹下Storm中Worker進程間和進程內部通信的原理和技術。整篇內容僅供了解&#x…

《Windows PowerShell實戰指南(第2版)》——1.4 搭建自己的實驗環境

本節書摘來自異步社區《Windows PowerShell實戰指南&#xff08;第2版&#xff09;》一書中的第1章&#xff0c;第1.4節&#xff0c;作者&#xff1a;【美】Don Jones&#xff08;道瓊斯&#xff09; , Jeffery Hicks&#xff08;杰弗瑞希克斯&#xff09;著&#xff0c;更多章…

已解決]求問not 1 or 0 and 1 or 3 and 4 or 5 and 6 or 7 and 8 and 9為什么不等于0呢???

not 1 or 0 and 1 or 3 and 4 or 5 and 6 or 7 and 8 and 9 ----> (not 1&#xff09;)or (0 and 1) or (3 and 4) or (5 and 6) or (7 and 8 and 9) ----> 0 or 0 or 4 or 6 or 9 ----> 0 or 4 or 6 or 9 ----> 4 or 6 or 9 4

C#外圍工具資源

1、MATH.NET數學庫:可以用于 矩陣計算方程求根插值擬合。。。2、轉載于:https://www.cnblogs.com/liq07lzucn/p/6227443.html

Storm程序的并發機制原理總結

文章目錄目錄前言&#xff1a;1、概念2、配置并行度總結&#xff1a;目錄 前言&#xff1a; 為了在以后的實踐中提高Storm程序執行的效率&#xff0c;我們還是有必要了解下對應的Storm程序的并發機制。&#xff08;哈哈&#xff0c;雖然以博主小菜鳥的水平還沒有接觸到這種提…

《無線網絡:理解和應對互聯網環境下網絡互連所帶來的挑戰》——第2章 無線生態系統 2.1無線標準化過程...

本節書摘來自華章出版社《無線網絡&#xff1a;理解和應對互聯網環境下網絡互連所帶來的挑戰》一書中的第2章&#xff0c;第2.1節&#xff0c;作者&#xff1a;&#xff08;美&#xff09;杰克L.伯班克&#xff08;Jack L. Burbank&#xff09;等著&#xff0c;更多章節內容可以…