之前看到的不錯的文章,玩機器學習數據是關鍵,有了這些東西,你就不必再為沒有數據而苦惱。
轉自:https://www.toutiao.com/i6432197108580745730/
- 目錄
- UCI
- GoogleTrends
- Kaggle
- AWS公用數據集
- Imagenet
- MINIST
- /r/數據集
- 其他數據集
目錄
機器學習的研究與實現,離不開大數據。知曉通用的開源數據集,一方面可以驗證自己算法,而另一方面也可以與其他算法進行比較。
不少開源工具和框架都會含有默認的數據集,使學習者能很快上手。比如scikit-learn就直接支持iris、digits等數據集,通過datasets.load_iris()、datasets.load_digits()就可以直接載入數據進行分析。
除了工具默認支持的數據集外,還有很多知名的開源數據集,供機器學習相關人員使用。
UCI
UCI肯定是最知名的開源數據集(庫)之一,它是加州大學歐文分校所維護的一個數據集(庫),里面包含373個數據集,并且還在持續增長。數據集的類別也很豐富多樣并且歸類清晰,有專門針對聚類的數據集,專門針對回歸研究的數據集;從數據類型緯度,有文本類型的,有時序相關類型的。
同時其數據的獲取也很簡單,直接點擊需要的數據集,進入下載頁面直接壓在壓縮包,解壓即可使用。數據一般按照特定格式組織成文本形式。
在UCI項目中,最常用的數據集包括iris、wine、soybean、zoo:
- iris,鳶尾數據集,其包含3個類,每個類50個元素,每個元素有5個屬性,用來代表不同的鳶尾花
- wine,酒水數據庫,其中包含3個類,共178個元素,每個元素有3個屬性,常用于聚類研究
- soybean,大豆疾病數據集,其中包含4個類,共47個元素,但每個元素有35個屬性
- zoo,動物園數據集,其中包含7個類,共101個元素,每個元素16個屬性
項目地址:http://archive.ics.uci.edu/ml/index.php
GoogleTrends
GoogleTrends開源出來的數據集不一定是非常知名、用途廣泛的數據集,但是由于其數據來源于互聯網,具有很強的時間感,社會屬性,并且也能很快檢測算法的準確性,畢竟互聯網數據的產生速度要遠遠大于傳統數據。
該數據集中數據組織形式也非常直接,csv文件,這樣無論是人工查看,還是程序處理都非常方便,畢竟現在絕大多數框架都支持直接載入csv文件。
項目地址:http://googletrends.github.io/data/
Kaggle
Kaggle本身是為開發商和數據科學家提供舉辦機器學習競賽、托管數據庫、編寫和分享代碼的平臺。而各種機器學習競賽中用到的數據集則可以在改平臺上下載,這對于驗證、對比自身算法的優劣大有裨益。
其中覆蓋了分類、回歸、排名、推薦系統以及圖像分析等各個非常使用的領域,但是不好之處在于有些數據集是收費的。
項目地址:https://www.kaggle.com/competitions
AWS公用數據集
這個數據集是AWS集成的,必須通過AWS API訪問的數據集,其中包含了人類基因組項目、Common Crawl網頁語料庫、維基百科數據和Google BooksNgrams等形形色色的數據集。
使用該數據庫最大問題是它默認支持的格式是通過AWS相關的操作,包括建實例等,對于離線分析,或者不想購買云資源的用戶來說,不那么方便直接。
項目地址:https://aws.amazon.com/cn/public-datasets/
Imagenet
Imagenet是圖像領域最出名的數據集之一,各種圖像處理相關的算法都會在該數據集上驗證其先進性,也有各種研究人員針對該數據集做研究以及優化。
在深度學習異常火爆的當下,Imagenet也起了非常大的推動作用。深度學習領域大牛Hilton的論文《ImageNet Classification with Deep Convolutional Neural Networks》,其使用的就是Imagenet數據集,后來者們也都紛紛使用該數據集進行算法的研究和優化。
該數據集有1400W圖片,涵蓋有豐富的類別,帶標注數據也超過百萬,這使得該數據集在圖像處理,定位,檢測等研究工作中占據很大的地盤,其機會成為了目前深度學習圖像領域算法性能檢驗的標準數據庫。
項目地址:http://image-net.org/download
MINIST
深度學習領域的“Hello World!”,入門必備!MNIST是一個手寫數字數據庫,它有60000個訓練樣本集和10000個測試樣本集,每個樣本圖像的寬高為28*28。此數據集是以二進制存儲的,不能直接以圖像格式查看,不過很容易找到將其轉換成圖像格式的工具。最早的深度卷積網絡LeNet便是針對此數據集的,當前主流深度學習框架幾乎無一例外將MNIST數據集的處理作為介紹及入門第一教程,其中Tensorflow關于MNIST的教程非常詳細。
項目地址:http://yann.lecun.com/exdb/mnist/
/r/數據集
Reddit的/r/數據集是一個大伙分享、請求的數據集平臺,在此平臺上能分享、下載甚至討論大量的數據集,從普通數據集到用于深度分析的數據集,不一而足。
項目地址:https://www.reddit.com/r/datasets/
其他數據集
麻省理工大學人臉識別,http://vis-www.cs.umass.edu/fddb/
歌曲數據庫,http://labrosa.ee.columbia.edu/millionsong/
圖像處理COCO,http://mscoco.org/
視頻數據集youtube,https://research.google.com/youtube8m/
此外,還有大量的針對某個領域的數據集,比如圖像分隔、地質數據、政府數據等等,不一而足。