各類數據集整理(持續更新中ing)

轉自:https://zhuanlan.zhihu.com/p/84088095

最近一次新增:2020.02.11

大家好,先給各位抱拳了!我是和鯨(科賽?http://kesci.com)的運營一枚,今天給大家分享以下我們(通過網線)奔波世界各地搜集過來的數據集們!

大家有想要的也可以在評論區許愿,我去求撈數據集的小哥哥小姐姐們幫幫忙

另外打一波硬廣,以下所有數據集都可以在和鯨(科賽?http://kesci.com)的K-Lab產品中直接掛在項目中使用,無需下載。現還有另有免費計算資源可以薅。

請猛戳鏈接訪問>>>和鯨(科賽 kesci.com)<<<

?

——結構化數據——

交通:

Pronto共享單車數據集(70.8MB)

歐州航空旅客運輸季度數據集(更新至2019第二季度)(63KB)

2015年美國????航班延誤或取消數據集(192.3MB)

明尼阿波里斯市交通流量數據(3.1MB)

航班動態起降數據集(2GB)

交通卡口過車數據數據集(100G)

Uber 紐約市乘車數據(109.1MB)

氣象:

中國歷年臺風最佳路徑數據

1750年至今全球地表氣溫變化數據

1965-2016全球重大地震數據(2.3MB)

El Nino厄爾尼諾數據集(9.6MB)

中國氣象數據(675.1MB)

北京空氣質量數據(21.5MB)

中國空氣質量數據集(1.2GB)

澳大利亞山火數據集(100+MB)

1750年至今全球地表氣溫變化數據(84MB)

能源:

全球能源之風力預測數據集(24.5MB)

風力發電機數據集(12.3MB)

2010年芝加哥能源使用情況(26.3MB)

中國水資源數據集(130KB+)

鎮江電力數據(17.7MB)

安全:

CNNVD中國信息安全漏洞數據庫

NVD美國國家通用漏洞數據庫(335MB+)

NSL_KDD數據集(25.3MB)

KDD-CUP99網絡入侵檢測數據集(220MB+)

醫學:

心臟病診斷數據集(17.6KB)

骨科患者的生物力學特征數據集(24.4KB)

埃博拉數據集(1.3MB)

癲癇發作識別數據集(7.3MB)

1000個12導聯ECG心電圖數據集(70.7MB)

宮頸癌風險因素數據集(99.7KB)

手勢檢測數據集(16.9MB)

帕金森疾病診斷數據集(5.1MB)

心臟病相關數據集(11.1KB)

基于重癥監護室(ICU)多生命體征,預測膿毒癥(21.1KB)

內置動脈插管數據集(288.7KB)

埃及患者的丙型肝炎病毒(HCV)數據集(158KB)

急性肝功能衰竭預測數據集(848.6KB)

心血管疾病數據集(2.8MB)

新型冠狀病毒(2019-nCoV)疫情時間序列數據集(1.8MB)

游戲:

英雄聯盟英雄數據(253.6KB)

Steam游戲匯總

100萬數獨游戲(156.4MB)

守望先鋒英雄數據集(53.4KB)

Dota2游戲結果數據集(21.3MB)

王者榮耀英雄數據集(7.8KB)

包含用戶行為的Steam游戲數據集(8.5MB)

經濟金融:

拍拍貸互聯網金融數據(320MB)

P2P信貸平臺業務數據(400MB+)

我國主要城市年度數據-產值、人口、就業、教育等(10KB)

4萬條信用貸款業務、4千條現金貸業務脫敏數據

上證A股個股日線數據(187.6MB)

信用卡評分模型構建數據(7.2MB)

1978至今的黃金價格數據(187.8KB)

成人人口普查收入的相關信息(3.9MB)

金融風險預測數據集(2.1MB)

9000條信用卡使用情況數據(881.7KB)

中國工商企業注冊信息數據集(559.4MB)

加密貨幣市場價格(39.0MB)

常用匯率過去3年的歷史數據(31.6KB)

信用卡欺詐檢測數據集(143.8MB)

信用違約概率預測 | Kaggle(7.2MB)

銀行電話營銷數據集(2.1MB)

LendingClub貸款數據(421.3MB)

比特幣歷史交易數據(221.1MB)

Dow Jones 股票日結算數據(1.6MB)

S&P 500股價數據(128.1MB)

PyPortfolioOpt股票價格(1.1MB)

特斯拉股票價格(168.7KB)

蘋果股票市場數據歷史記錄(41.2KB)

7家頂級公司的收購數據(69.4KB)

2019年全球七百多萬個公司的數據(275.1MB)

美國醫療保險市場數據(778.8MB)

🇮🇳🇮🇳印度貿易數據(19.0MB)

30家在美國的大型公司的道瓊斯指數數據(2.7MB)

最近十年谷歌的股票價格數據集(165.5KB)

桑坦德銀行顧客交易預測數據(244.3MB)

歐元兌換國際主要貨幣的匯率日數據(更至2019.9.26)(2.9MB)

眾籌網站Kickstarter項目數據集(55.3MB)

MT4歷史數據中心各貨幣對外匯交易數據(905.5MB)

Santander客戶價值預測數據集(31.5MB)

消費:

出行產品未來14個月銷量預測數據集(61.2MB)

口紅數據集(1006.6KB)

黑五購物數據集(23.8MB)

去哪兒網—旅游產品機酒數據(1.5MB)

全球米其林餐廳信息(100KB+)

適合顧客尺碼推薦的服裝適合數據集(150MB)

淘寶App用戶行為(507.3MB)

廢舊汽車價格預測數據集(611.6KB)

天貓雙十一女性美妝的數據集(3.3MB)

淘寶云主題點擊數據集(1.6GB)

廣告實時競價數據(455.5MB)

住房:

鏈家二手房數據集(5.1MB)

攜程房型產品用戶行為數據集(506.1MB)

房價預測(103.3KB)

阿姆斯特丹airbnb數據集(400MB+)

紐約Airbnb開放數據(6.8MB)

房價預測(103.3KB)

體育:

NBA數據集(62.3+MB)

歐洲足球聯賽數據集(172.8MB)

2015-2018MLB棒球常規賽數據集(322.7MB)

120年奧運歷史數據集:運動員和成績(39.6MB)

科比生涯數據集(5.8MB)

植物:

蘑菇分類數據集(UCI Machine Learning)(365.2KB)

iris鳶尾花數據集(4.1KB)

土壤濕度的高光譜基準數據集(1.6MB)

小麥種子數據集(9.1KB)

100種植物種類🌳🌳🌳數據集(35.1MB)

天文:

不明飛行物世紀報告(14.6MB)

開普勒望遠鏡所標注的時間序列數據集(27.6MB)

推薦系統:

資訊內容用戶行為數據集(153.3MB)

Book Crossing 推薦系統數據(24.9MB)

Jester 推薦系統數據(4MB)

預測:

人力資源分析數據集(121.5KB)

申請大學的成功率預測數據集(12.6KB)

用戶點擊預測數據集(516.8MB)

Netflix Price 競賽數據集(665.7MB)

其他:

2017年-2018年 關于申根簽證的數據集

垃圾分類數據(49.3KB)

豆瓣讀書數據集(5.9MB)

豆瓣電影數據集(100MB+)

二戰空襲數據集(27.2MB)

拉勾網上海數據分析師職位數據(497.4KB)

瀕危語言統計(736.7KB)

CNNVD中國信息安全漏洞數據庫

💤💤個人睡眠數據(66.1KB)

2019年世界幸福報告(6.7KB)

鮑魚數據集(187.5KB)

魚類毒性數據集(30.5KB)

人口普查收入數據集(UCI)(3.4MB)

TMDB 5000部電影數據集(40MB+)

?

?

——NLP大類——

6000條周杰倫微博超話數據(1.1MB)

2016-2019新聞聯播語料庫(11.3MB)

中文謠言語料庫(32.6MB)

咪蒙所有公眾號文章(3.9MB)

中國對聯數據集(28.2MB)

1998人民日報標注語料庫(PFR)(10.2MB)

sentiment140 情感分析數據集(72.6KB)

人民日報文章數據集(1979-2010)(811.9MB)

人民日報文章數據集(1949-1978)(559.4MB)

中文新聞數據集(70.3MB)

《中餐廳3》19W彈幕數據(12.8MB)

IMDB電影評論數據(32.0MB)

中文醫學問答數據集(85MB)

耶魯文本轉SQL語句挑戰數據集(95.1MB)

淘寶某店鋪電風扇評論(273.9KB)

新加坡國立大學SMS語料庫(23.4MB)

豆瓣《哪吒之魔童降世》影評(85.1KB)

bilibili流行動漫影評數據(2.3MB)

6000條周杰倫微博超話數據!(1.1MB)

中文經典典籍語料

非正式漢語數據集(214.5MB)

中文對話情緒語料(1.1MB)

維基百科中文語料庫(518.7MB)

頻率最高的9933個最常用漢字數據集(1.0MB)

未名BBS熱門話題(3.6MB)

麥當勞就餐負面評論數據集(891.1KB)

Lord of the Rings指環王數據(223.9KB)

斯坦福情緒樹庫:帶有情感注釋的標準情緒數據集(6.1MB)

關于美國的航空公司的推特的情緒分析數據集(2.6MB)

聊天語料庫數據集(210.7MB)

短文本分類數據集(13.1MB)

成語閱讀理解數據集(195.8MB)

論文自動評分數據集(78.8MB)

多域情感數據集(51.2MB)

翻譯語料(595.9MB)

社區問答數據集(1.7GB)

中文科學文獻摘要數據集(92.9MB)

維基百科英文語料庫(89.0MB)

實體識別

用于命名實體識別的帶注釋語料庫(26.4MB)

使用Lattice LSTM的中文NER數據(191.5KB)

醫療命名實體識別數據集(5.1MB)

中文實體關系抽取數據集(8.1MB)

金融信息負面及主體判定比賽數據集(17MB)

?

——CV大類——

Fashion-MNIST圖像數據集(200.4MB)

車輛數據集(車輛識別與分類)(62.5MB)

垃圾分類數據集

另一個垃圾分類數據集(40.9MB)

CIFAR10數據集(148MB)

GTSRB-德國交通標志識別圖像數據(253.3MB)

手勢識別數據庫(1.1GB)

情緒的面部表情(170MB+)

寵物圖像數據集(783.5MB)

槍支目標檢測(2.4MB)

人臉圖像數據(294.1MB)

狗狗種類圖像數據集(919.5MB)

中國交警手勢數據集(1.8GB)

場景分類數據集(105.9MB)

💎💎87種寶石圖片數據(50.9MB)

驗證碼數據集(13.5MB)

植物:

水稻葉子疾病圖片集(36.7MB)

植物幼苗圖片數據集

花卉識別數據集(224.9MB)

花卉圖像分類

可食用野外植物數據集

氣象:

颶風損害的衛星圖像數據集(63MB)

從衛星圖像理解云層數據集(42MB)

字符識別:

TibetanMNIST藏文手寫數字數據集(53.2MB)

MNIST手寫識別數據集(9.5MB)

Chars74K字符識別數據集(188.3MB)

信用卡卡面圖像及標注數據(42.9MB)

手寫數學表達式識別(29MB)

圖片與單詞匹配數據集(31.1MB)

密集不規則文本行數據集(353MB)

視覺文字識別數據集

HASY手寫符號圖片數據集(127.2MB)

麻將圖片數據集(7.5MB)

醫療:

犬球蟲病寄生蟲圖片集(18.1MB)

頭部CT圖像數據(24.4MB)

肺部CT圖像數據(529.0MB)

心血管疾病預測(2.7MB)

深圳醫院胸片檢查掩膜圖片數據集(19.8MB)

肺部CT圖像數據(529MB)

行人識別:

行人檢測數據集ETHZ(146MB)

行人重識別數據集Market-1501(145.7MB)

行人重識別數據集RAiD(140.1MB)

行人重識別數據集prid_2011(1015.3MB)

汽車后視攝像頭視角行人數據集(799.7MB)

?

——語音大類——

Mozilla語音數據集-中文(358.2MB)

2000個英語讀數字的錄音(8.9MB)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/458048.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/458048.shtml
英文地址,請注明出處:http://en.pswp.cn/news/458048.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Java Experiment 3 PairProgramming

http://www.cnblogs.com/20145106ssr/p/5428222.html 轉載于:https://www.cnblogs.com/Christen/p/5428655.html

啟動頁面和各設備的寬高比及像素

2019獨角獸企業重金招聘Python工程師標準>>> iOS7只能用LaunchImage來布置啟動畫面&#xff0c;只能用圖片。iOS8以后支持LaunchScreen.xib來布置&#xff0c;可以自己添加控件。iOS8以及以后的用LaunchScreen來配置啟動頁。iOS8以后的會走這個設置&#xff0c;而io…

cc壓力測試_中小型網站如何防范CC攻擊?

大公司就不說了&#xff0c;付費CDN&#xff0c;防火墻&#xff0c;WAF&#xff0c;大流量&#xff0c;一般也會配置專門的安全問題響應團隊。今天側重討論一下中小型網站如何&#xff08;優雅&#xff09;防范CC攻擊。中小站點安全問題通病&#xff1a;對安全問題不重視&#…

ubuntu16.04 360隨身WiFi2

查看kernel版本&#xff0c;插入360隨身WiFi2&#xff0c;打開終端&#xff0c;執行下面命令即可。 ------------------------------------------------------------------------------------------------------------- From your kernel version, 4.2.0-16, it appears that…

泛型復習

回顧泛型類 泛型類&#xff1a;具有一個或多個泛型變量的類被稱之為泛型類1、class A<T>{} 2、在創建泛型實例時&#xff0c;需要為其類型變量賦值A<String> anew A<String>(); *如果創建實例時&#xff0c;不給類型變量賦值&#xff0c;那么會有一個警告&am…

.net core EPPlus npoi_2020 ASP.NET界面開發:DevExpress v20.1支持.NET Core設計時

DevExpress ASP.NET Web Forms Controls擁有針對Web表單(包括報表)的110種UI控件&#xff0c;DevExpress ASP.NET MVC Extensions是服務器端MVC擴展或客戶端控件&#xff0c;由輕量級JavaScript小部件提供支持的70個高性能DevExpress ASP.NET Core Controls&#xff0c;包含功能…

ubuntu android studio SDK emulator directory is missing

ctrlH&#xff0c;搜索Android studio&#xff0c;把所有的都刪除&#xff0c;再次安裝即可下載

有關于我的一點想法

之前失眠寫的&#xff0c;從空間搬運過來 之前一直想寫一下有關自己想法。趁著失眠寫一寫。 不知道是不是幸運&#xff0c;我有幸認識了吳寶俊老師。他寫博客&#xff0c;我經常去看他寫的博客。后來在留言板發言幾次也就熟了。雖然也僅限網友吧……但是我需要人給我指點迷津。…

mac電腦如何與手機同步復制粘貼_如何將電腦里的文件同步到手機里?

由于PDF的特殊性&#xff0c;一般很少有適用于手機編輯的軟件&#xff0c;所以我們都習慣于使用電腦來修改PDF文檔后&#xff0c;再發送到手機微信發送給其他人&#xff0c;那么如何快速將電腦里的PDF文件同步到手機里面呢&#xff1f;可能很多人會想到使用各種云盤&#xff0c…

走進緩存的世界(一) - 開篇

系列文章 走進緩存的世界&#xff08;一&#xff09; - 開篇走進緩存的世界&#xff08;二&#xff09; - 緩存設計走進緩存的世界&#xff08;三&#xff09; - Memcache概述 對于程序員來說多多少少都懂一點算法&#xff0c;算法是什么&#xff1f;算法是“時間”與“空間”的…

【解決問題】OpenCV(3.4.1) Error: Parsing error (xx.yaml(13): Incorrect indentation) in icvYMLParseValue

本博客運行環境為Ubuntu18.04 下 Kdevelop。 運行slam的一個cpp文件時&#xff0c;錯誤描述如下&#xff1a; OpenCV(3.4.1) Error: Parsing error (KITTI00-02.yaml(13): Incorrect indentation) in icvYMLParseValue, file /home/hadoop/opencv-3.4.1/modules/corec/persis…

dede后臺欄目管理文章統計數量和實際文章數不一致解決辦法

操作dede_arctiny表&#xff0c;將和欄目對應的typeid所有文章去掉即可。轉載于:https://www.cnblogs.com/zgzy/p/5432724.html

an 轉換器_400V耐壓場效應管替代IRF730B型號參數,使用在DC-DC電源轉換器。_場效應管吧...

DC-DC電源轉化器的應用場景逐漸廣泛&#xff0c;那么適用于DC-DC電源模塊的場效應管需求也隨之越來越高&#xff0c;這時候電源轉化器廠的電子工程師就要留意了&#xff0c;國內是否有優質的場效應管能替代IRF730B型號呢&#xff0c;其實是有的&#xff0c;FHP840其實是可以跟I…

spring MVC中頁面添加錨點

2019獨角獸企業重金招聘Python工程師標準>>> 需要添加錨點的代碼&#xff1a; <li><a href"main/index#page1">推薦車型</a></li> <li><a href"main/index#page2">熱門車型</a></li>需要跳轉的…

steam一鍵授權工具_半個東的時間讓你省了一個億 Steam免費游戲一鍵領取

總所周知Steam上有很多的免費游戲&#xff0c;但是有哪些游戲是免費的呢&#xff1f;這個一時半會兒也總結不出來&#xff0c;而且還得需要大量的時間添加到自己的游戲庫&#xff0c;今天這個教程就教大家如何一鍵添加Steam上大量免費游戲&#xff0c;需要的小伙伴趕緊收藏哦。…

YModem協議

源&#xff1a;YModem協議 YModem協議&#xff1a; YModem協議是由XModem協議演變而來的&#xff0c;每包數據可以達到1024字節&#xff0c;是一個非常高效的文件傳輸協議。 下面先看下YModem協議傳輸的完整的握手過程&#xff1a;先看下圖 SENDER:發送方。 RECEIVER:接收方。 …

gcc、clang、make、cmake、makefile、CMakeLists.txt概念學習

說明 編譯器是翻譯代碼為計算機語言的一個工具&#xff0c;我們平時寫的代碼如果想在某個特定的計算機上執行&#xff08;計算機的cpu構架不同&#xff09;&#xff0c;就需要編譯器來對代碼進行編譯匯編鏈接&#xff0c;而匯編和鏈接的過程對于每個不同的平臺上過程都不一樣。…

視覺在無人駕駛中的應用及分類_機器視覺在智能化生產中的廣泛應用

什么是機器視覺&#xff1f;顧名思義&#xff0c;簡單來說&#xff0c;機器視覺就是用機器代替人眼來測量和判斷。機器視覺系統是指通過機器視覺產品將被攝取目標轉換成圖像信號&#xff0c;傳送給專用的圖像處理系統&#xff0c;根據像素分布和亮度、顏色等信息&#xff0c;轉…

Socket編程實踐(3) 多連接服務器實現與簡單P2P聊天程序例程

SO_REUSEADDR選項 在上一篇文章的最后我們貼出了一個簡單的C/S通信的例程。在該例程序中&#xff0c;使用"Ctrlc"結束通信后&#xff0c;服務器是無法立即重啟的&#xff0c;如果嘗試重啟服務器&#xff0c;將被告知&#xff1a; bind: Address already in use 原因在…

work2的code和問題

//常量 package cn.itcast.work2; public class Constant { //constant 常量   public static void main(String[] args) { /* * 字符串常量 用雙引號括起來的內容 * 整數常量 所有整數 * 小數常量 所有小數 * 字符常量 用單引號括起來的內容,里面只能放單個數字,單個字母或單…