轉自:https://zhuanlan.zhihu.com/p/84088095
最近一次新增:2020.02.11
大家好,先給各位抱拳了!我是和鯨(科賽?http://kesci.com)的運營一枚,今天給大家分享以下我們(通過網線)奔波世界各地搜集過來的數據集們!
大家有想要的也可以在評論區許愿,我去求撈數據集的小哥哥小姐姐們幫幫忙
另外打一波硬廣,以下所有數據集都可以在和鯨(科賽?http://kesci.com)的K-Lab產品中直接掛在項目中使用,無需下載。現還有另有免費計算資源可以薅。
請猛戳鏈接訪問>>>和鯨(科賽 kesci.com)<<<
?
——結構化數據——
交通:
Pronto共享單車數據集(70.8MB)
歐州航空旅客運輸季度數據集(更新至2019第二季度)(63KB)
2015年美國????航班延誤或取消數據集(192.3MB)
明尼阿波里斯市交通流量數據(3.1MB)
航班動態起降數據集(2GB)
交通卡口過車數據數據集(100G)
Uber 紐約市乘車數據(109.1MB)
氣象:
中國歷年臺風最佳路徑數據
1750年至今全球地表氣溫變化數據
1965-2016全球重大地震數據(2.3MB)
El Nino厄爾尼諾數據集(9.6MB)
中國氣象數據(675.1MB)
北京空氣質量數據(21.5MB)
中國空氣質量數據集(1.2GB)
澳大利亞山火數據集(100+MB)
1750年至今全球地表氣溫變化數據(84MB)
能源:
全球能源之風力預測數據集(24.5MB)
風力發電機數據集(12.3MB)
2010年芝加哥能源使用情況(26.3MB)
中國水資源數據集(130KB+)
鎮江電力數據(17.7MB)
安全:
CNNVD中國信息安全漏洞數據庫
NVD美國國家通用漏洞數據庫(335MB+)
NSL_KDD數據集(25.3MB)
KDD-CUP99網絡入侵檢測數據集(220MB+)
醫學:
心臟病診斷數據集(17.6KB)
骨科患者的生物力學特征數據集(24.4KB)
埃博拉數據集(1.3MB)
癲癇發作識別數據集(7.3MB)
1000個12導聯ECG心電圖數據集(70.7MB)
宮頸癌風險因素數據集(99.7KB)
手勢檢測數據集(16.9MB)
帕金森疾病診斷數據集(5.1MB)
心臟病相關數據集(11.1KB)
基于重癥監護室(ICU)多生命體征,預測膿毒癥(21.1KB)
內置動脈插管數據集(288.7KB)
埃及患者的丙型肝炎病毒(HCV)數據集(158KB)
急性肝功能衰竭預測數據集(848.6KB)
心血管疾病數據集(2.8MB)
新型冠狀病毒(2019-nCoV)疫情時間序列數據集(1.8MB)
游戲:
英雄聯盟英雄數據(253.6KB)
Steam游戲匯總
100萬數獨游戲(156.4MB)
守望先鋒英雄數據集(53.4KB)
Dota2游戲結果數據集(21.3MB)
王者榮耀英雄數據集(7.8KB)
包含用戶行為的Steam游戲數據集(8.5MB)
經濟金融:
拍拍貸互聯網金融數據(320MB)
P2P信貸平臺業務數據(400MB+)
我國主要城市年度數據-產值、人口、就業、教育等(10KB)
4萬條信用貸款業務、4千條現金貸業務脫敏數據
上證A股個股日線數據(187.6MB)
信用卡評分模型構建數據(7.2MB)
1978至今的黃金價格數據(187.8KB)
成人人口普查收入的相關信息(3.9MB)
金融風險預測數據集(2.1MB)
9000條信用卡使用情況數據(881.7KB)
中國工商企業注冊信息數據集(559.4MB)
加密貨幣市場價格(39.0MB)
常用匯率過去3年的歷史數據(31.6KB)
信用卡欺詐檢測數據集(143.8MB)
信用違約概率預測 | Kaggle(7.2MB)
銀行電話營銷數據集(2.1MB)
LendingClub貸款數據(421.3MB)
比特幣歷史交易數據(221.1MB)
Dow Jones 股票日結算數據(1.6MB)
S&P 500股價數據(128.1MB)
PyPortfolioOpt股票價格(1.1MB)
特斯拉股票價格(168.7KB)
蘋果股票市場數據歷史記錄(41.2KB)
7家頂級公司的收購數據(69.4KB)
2019年全球七百多萬個公司的數據(275.1MB)
美國醫療保險市場數據(778.8MB)
🇮🇳🇮🇳印度貿易數據(19.0MB)
30家在美國的大型公司的道瓊斯指數數據(2.7MB)
最近十年谷歌的股票價格數據集(165.5KB)
桑坦德銀行顧客交易預測數據(244.3MB)
歐元兌換國際主要貨幣的匯率日數據(更至2019.9.26)(2.9MB)
眾籌網站Kickstarter項目數據集(55.3MB)
MT4歷史數據中心各貨幣對外匯交易數據(905.5MB)
Santander客戶價值預測數據集(31.5MB)
消費:
出行產品未來14個月銷量預測數據集(61.2MB)
口紅數據集(1006.6KB)
黑五購物數據集(23.8MB)
去哪兒網—旅游產品機酒數據(1.5MB)
全球米其林餐廳信息(100KB+)
適合顧客尺碼推薦的服裝適合數據集(150MB)
淘寶App用戶行為(507.3MB)
廢舊汽車價格預測數據集(611.6KB)
天貓雙十一女性美妝的數據集(3.3MB)
淘寶云主題點擊數據集(1.6GB)
廣告實時競價數據(455.5MB)
住房:
鏈家二手房數據集(5.1MB)
攜程房型產品用戶行為數據集(506.1MB)
房價預測(103.3KB)
阿姆斯特丹airbnb數據集(400MB+)
紐約Airbnb開放數據(6.8MB)
房價預測(103.3KB)
體育:
NBA數據集(62.3+MB)
歐洲足球聯賽數據集(172.8MB)
2015-2018MLB棒球常規賽數據集(322.7MB)
120年奧運歷史數據集:運動員和成績(39.6MB)
科比生涯數據集(5.8MB)
植物:
蘑菇分類數據集(UCI Machine Learning)(365.2KB)
iris鳶尾花數據集(4.1KB)
土壤濕度的高光譜基準數據集(1.6MB)
小麥種子數據集(9.1KB)
100種植物種類🌳🌳🌳數據集(35.1MB)
天文:
不明飛行物世紀報告(14.6MB)
開普勒望遠鏡所標注的時間序列數據集(27.6MB)
推薦系統:
資訊內容用戶行為數據集(153.3MB)
Book Crossing 推薦系統數據(24.9MB)
Jester 推薦系統數據(4MB)
預測:
人力資源分析數據集(121.5KB)
申請大學的成功率預測數據集(12.6KB)
用戶點擊預測數據集(516.8MB)
Netflix Price 競賽數據集(665.7MB)
其他:
2017年-2018年 關于申根簽證的數據集
垃圾分類數據(49.3KB)
豆瓣讀書數據集(5.9MB)
豆瓣電影數據集(100MB+)
二戰空襲數據集(27.2MB)
拉勾網上海數據分析師職位數據(497.4KB)
瀕危語言統計(736.7KB)
CNNVD中國信息安全漏洞數據庫
💤💤個人睡眠數據(66.1KB)
2019年世界幸福報告(6.7KB)
鮑魚數據集(187.5KB)
魚類毒性數據集(30.5KB)
人口普查收入數據集(UCI)(3.4MB)
TMDB 5000部電影數據集(40MB+)
?
?
——NLP大類——
6000條周杰倫微博超話數據(1.1MB)
2016-2019新聞聯播語料庫(11.3MB)
中文謠言語料庫(32.6MB)
咪蒙所有公眾號文章(3.9MB)
中國對聯數據集(28.2MB)
1998人民日報標注語料庫(PFR)(10.2MB)
sentiment140 情感分析數據集(72.6KB)
人民日報文章數據集(1979-2010)(811.9MB)
人民日報文章數據集(1949-1978)(559.4MB)
中文新聞數據集(70.3MB)
《中餐廳3》19W彈幕數據(12.8MB)
IMDB電影評論數據(32.0MB)
中文醫學問答數據集(85MB)
耶魯文本轉SQL語句挑戰數據集(95.1MB)
淘寶某店鋪電風扇評論(273.9KB)
新加坡國立大學SMS語料庫(23.4MB)
豆瓣《哪吒之魔童降世》影評(85.1KB)
bilibili流行動漫影評數據(2.3MB)
6000條周杰倫微博超話數據!(1.1MB)
中文經典典籍語料
非正式漢語數據集(214.5MB)
中文對話情緒語料(1.1MB)
維基百科中文語料庫(518.7MB)
頻率最高的9933個最常用漢字數據集(1.0MB)
未名BBS熱門話題(3.6MB)
麥當勞就餐負面評論數據集(891.1KB)
Lord of the Rings指環王數據(223.9KB)
斯坦福情緒樹庫:帶有情感注釋的標準情緒數據集(6.1MB)
關于美國的航空公司的推特的情緒分析數據集(2.6MB)
聊天語料庫數據集(210.7MB)
短文本分類數據集(13.1MB)
成語閱讀理解數據集(195.8MB)
論文自動評分數據集(78.8MB)
多域情感數據集(51.2MB)
翻譯語料(595.9MB)
社區問答數據集(1.7GB)
中文科學文獻摘要數據集(92.9MB)
維基百科英文語料庫(89.0MB)
實體識別
用于命名實體識別的帶注釋語料庫(26.4MB)
使用Lattice LSTM的中文NER數據(191.5KB)
醫療命名實體識別數據集(5.1MB)
中文實體關系抽取數據集(8.1MB)
金融信息負面及主體判定比賽數據集(17MB)
?
——CV大類——
Fashion-MNIST圖像數據集(200.4MB)
車輛數據集(車輛識別與分類)(62.5MB)
垃圾分類數據集
另一個垃圾分類數據集(40.9MB)
CIFAR10數據集(148MB)
GTSRB-德國交通標志識別圖像數據(253.3MB)
手勢識別數據庫(1.1GB)
情緒的面部表情(170MB+)
寵物圖像數據集(783.5MB)
槍支目標檢測(2.4MB)
人臉圖像數據(294.1MB)
狗狗種類圖像數據集(919.5MB)
中國交警手勢數據集(1.8GB)
場景分類數據集(105.9MB)
💎💎87種寶石圖片數據(50.9MB)
驗證碼數據集(13.5MB)
植物:
水稻葉子疾病圖片集(36.7MB)
植物幼苗圖片數據集
花卉識別數據集(224.9MB)
花卉圖像分類
可食用野外植物數據集
氣象:
颶風損害的衛星圖像數據集(63MB)
從衛星圖像理解云層數據集(42MB)
字符識別:
TibetanMNIST藏文手寫數字數據集(53.2MB)
MNIST手寫識別數據集(9.5MB)
Chars74K字符識別數據集(188.3MB)
信用卡卡面圖像及標注數據(42.9MB)
手寫數學表達式識別(29MB)
圖片與單詞匹配數據集(31.1MB)
密集不規則文本行數據集(353MB)
視覺文字識別數據集
HASY手寫符號圖片數據集(127.2MB)
麻將圖片數據集(7.5MB)
醫療:
犬球蟲病寄生蟲圖片集(18.1MB)
頭部CT圖像數據(24.4MB)
肺部CT圖像數據(529.0MB)
心血管疾病預測(2.7MB)
深圳醫院胸片檢查掩膜圖片數據集(19.8MB)
肺部CT圖像數據(529MB)
行人識別:
行人檢測數據集ETHZ(146MB)
行人重識別數據集Market-1501(145.7MB)
行人重識別數據集RAiD(140.1MB)
行人重識別數據集prid_2011(1015.3MB)
汽車后視攝像頭視角行人數據集(799.7MB)
?
——語音大類——
Mozilla語音數據集-中文(358.2MB)
2000個英語讀數字的錄音(8.9MB)