眾所周知,計算機領域論文是要以實驗為基礎的,而實驗的原料就是數據。不管是在圖像,文字或者語音領域,開源的數據都十分寶貴和重要。這里主要收集各領域的一些常用的公開數據集。
?
計算機視覺:
?【ImageNet】
?
【Caltech Pedestrian Dataset】
簡介:行人檢測數據集
網址:https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/
細節:
(1)攝像頭位于車上
(2)圖片模糊
(3)行人少而小,大多數圖片不包含行人
(4)原始數據為視頻,可以采樣為圖片
(5)官網給出了各種方法的性能,給出了evaluation的代碼。
?
自然語言處理:
【維基百科簡體中文語料】
簡介:較大規模的中文語料
網址:http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
細節:
(1)這個壓縮包包含標題和正文
(2)用http://medialab.di.unipi.it/wiki/Wikipedia_Extractor抽取數據
(3)抽取命令?bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt
(4)內容為簡繁體混雜,需要https://github.com/BYVoid/OpenCC,https://code.google.com/archive/p/opencc/wikis/Install.wiki解決,運行命令opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini
(5)參考使用網站:http://licstar.net/archives/262
?
語音處理:
?
數字醫學數據:
?