本節內容含有各典型數據集的推薦,以及其網址,大家根據需要自取
一、檢索
最簡單、最靈活的數據獲取方式就是依靠檢索:
Google:更適合搜索英文信息
Google Dataset Search(Google 數據集搜索)
網址:https://toolbox.google.com/datasetsearch
二、公開數據
國內常見公開數據渠道
·國家相關部門統計信息
·中國銀行業監督管理委員會
·中國國家統計局
國際公開數據集
1400萬的圖像數據
ImageNet
Amazon從2008年開始就為開發者提供幾十TB的開發數據
Registry of Open Data on AWS
YouTube視頻的統計與社交網絡數據
YouTube Dataset
代表性公開數據集
用戶評分MovieLens:MovieLens | GroupLens
文本數據-頭條:https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset
金融數據-股票:https://github.com/asxinyu/Stock
網絡數據-Large scale network:Stanford Large Network Dataset Collection
教育數據:
ASSISTmentsData-學業: https://sites.google.com/site/assistmentsdata/home/
BASEGroup: https://github.com/bigdata-ustc/EduData
阿里天池數據-數據平臺:天池數據集_阿里系唯一對外開放數據分享平臺-阿里云天池
公開大數據競賽的數據:KDDCup,NeurIPS Challenge
三、大數據的未來:合成數據
合成數據:基于計算機模擬活算法生成模仿現實世界觀察的人造數據
優勢:大大降低數據獲取成本;可控;沒有隱私安全問題;數據豐富多樣,減少真實世界中存在的偏見…
代表工作:
麻省理工學院搭建的合成數據工具庫:The Synthetic Data Vault. Put synthetic data to work!
利用大模型做數據增強
解決目標領域數據少且質量差的問題
合成數據是讓模型“無中生有”,直接生成某個領域的數據(有一定質量問題)
數據增強是讓模型“有中生更多”,根據已標注好的數據,舉一反三(更安全可靠)
四、數據眾包
一種利用大眾力量來收集、分析和處理數據的模式
需求方將一批數據標注任務分成多個子任務,分發在數據眾包平臺
標注者通過互聯網在眾包平臺接受任務
平臺收集標注結果,質量評估合格后返回給需求方
平臺很多,大家自行搜索
附:比賽平臺
供各位了解
CCF BDCI:
2019 CCF 大數據與計算智能大賽CCF大數據與計算智能大賽(CCF BDCI)由中國計算機學會創辦,是大數據與人工智能領域的算法、應用和系統大型挑戰賽事。https://www.datafountain.cn/special/BDCI2019?utm_source=WX1
天池:
天池大數據競賽_天池大賽-阿里云天池天池大數據競賽,是由阿里巴巴集團主辦,面向全球科研工作者的高端算法競賽。通過開放海量數據和分布式計算資源,大賽讓所有參與者有機會運用其設計的算法解決各類社會問題或業務問題。歡迎來大家來天池參與天池大數據競賽,進行真實業務場景演練,參與天池大賽還有機會獲得百萬獎金池。https://tianchi.aliyun.com/competition/gameList.htm?spm=5176.100065.5610717.11.ba5d2
Kaggle
Kaggle CompetitionsKaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.https://www.kaggle.com/competitions
Biendata
阿里云萬網虛機IP訪問報錯提示https://biendata.com/
下一節,講述爬蟲,【數據分析二:Data Collection】:網絡爬蟲
【數據分析二:Data Collection】網絡爬蟲-CSDN博客文章瀏覽閱讀2次。大量數據的獲取難以手動實現,需借助爬蟲程序網絡爬蟲是一個自動在網上抓取數據的程序爬蟲本質上就是下載特定網站網頁的HTML/JSON/XML數據,并對數據進行解析、提取與存儲通常先定義一組入口URL,根據頁面中的其他URL,深度優先或廣度優先的遍歷訪問,逐一抓取數據爬蟲的行為可以劃分為:載入、解析、存儲。https://blog.csdn.net/2301_79853895/article/details/148720066?fromshare=blogdetail&sharetype=blogdetail&sharerId=148720066&sharerefer=PC&sharesource=2301_79853895&sharefrom=from_link