Data Collection

Data Collection

news/2025/8/20 3:28:07/文章來源:https://blog.csdn.net/weixin_34379433/article/details/85839801

眾所周知，計算機領域論文是要以實驗為基礎的，而實驗的原料就是數據。不管是在圖像，文字或者語音領域，開源的數據都十分寶貴和重要。這里主要收集各領域的一些常用的公開數據集。

?

計算機視覺：

?【ImageNet】

?

【Caltech Pedestrian Dataset】

簡介：行人檢測數據集

網址：https://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/

細節：

（1）攝像頭位于車上

（2）圖片模糊

（3）行人少而小，大多數圖片不包含行人

（4）原始數據為視頻，可以采樣為圖片

（5）官網給出了各種方法的性能，給出了evaluation的代碼。

?

自然語言處理：

【維基百科簡體中文語料】

簡介：較大規模的中文語料

網址：http://download.wikipedia.com/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

細節：

（1）這個壓縮包包含標題和正文

（2）用http://medialab.di.unipi.it/wiki/Wikipedia_Extractor抽取數據

（3）抽取命令?bzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt

（4）內容為簡繁體混雜，需要https://github.com/BYVoid/OpenCC，https://code.google.com/archive/p/opencc/wikis/Install.wiki解決，運行命令opencc -i wiki_00 -o wiki_chs -c zht2zhs.ini

（5）參考使用網站：http://licstar.net/archives/262

?

語音處理：

?

數字醫學數據：

?

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/542082.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/542082.shtml
英文地址，請注明出處：http://en.pswp.cn/news/542082.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

python—os模塊、時間模塊

python—os模塊、時間模塊

os模塊作用：os模塊是python標準庫中的一個用于訪問操作系統功能的模塊， os模塊提供了其他操作系統接口，可以實現跨平臺訪問。使用： 1 . 返回操作系統類型 ：os.name 值為：posix 是linux操作系統值為&…

閱讀更多...

kotlin鍵值對數組_Kotlin程序檢查數組是否包含給定值

kotlin鍵值對數組_Kotlin程序檢查數組是否包含給定值

kotlin鍵值對數組Given an array and an element, we have to check whether array contains the given element or not. 給定一個數組和一個元素，我們必須檢查數組是否包含給定的元素。 Example: 例： Input:arr [34, 56, 7, 8, 21, 0, -6]element to…

閱讀更多...

enter sleep mode黑屏怎么解決_【linux】不要再暴力關機了，講講我最近遇到的問題和完美解決方案...

enter sleep mode黑屏怎么解決_【linux】不要再暴力關機了，講講我最近遇到的問題和完美解決方案...

歡迎關注我的個人公眾號：AI蝸牛車前言結束了每天的緊張的工作，這兩天真的有些肝。這兩天打打字，突然感覺手指頭疼起來了，想意識到成天打了十多個小時的鍵盤， 手指頭都疲勞了之后這兩天基本上除了基本的吃睡&#xff…

閱讀更多...

重復T次的LIS的dp Codeforces Round #323 (Div. 2) D

重復T次的LIS的dp Codeforces Round #323 (Div. 2) D

http://codeforces.com/contest/583/problem/D 原題：You are given an array of positive integers a1,?a2,?...,?an??T of length n??T. We know that for any i?>?n it is true that ai??ai?-?n. Find the length of the longest non-decreasing …

閱讀更多...

微擎pc 導入前綴_段覆蓋前綴| 8086微處理器

微擎pc 導入前綴_段覆蓋前綴| 8086微處理器

微擎pc 導入前綴As we already know that the effective address is calculated by appending the segment registers value and adding up the value of the respective offset. But what if we want to choose some other offset than the assigned one. 眾所周知&#xff0…

閱讀更多...

python—面向對象

python—面向對象

面向過程面向對象： 面向過程：—側重于怎么做？ 1.把完成某一個需求的所有步驟從頭到尾逐步實現 2.根據開發要求，將某些功能獨立的代碼封裝成一個又一個函數 3.最后完成的代碼，就是順序的調用不同的函數特點&#…

閱讀更多...

5中bug vue_蘋果官網出BUG！這些都只要一兩百元

5中bug vue_蘋果官網出BUG！這些都只要一兩百元

近日，有網友在網上反饋稱，他發現蘋果官網商城出現了BUG！眾多上千元的產品，BUG價只需一兩百元。比如Shure MOTIV MV88 Digital立體聲電容式麥克風配件。正常售價1288元，而BUG后的價格是235元。UBTECH Jimu Astrobot Cos…

閱讀更多...

常用壓縮，解壓與打包

常用壓縮，解壓與打包

常用壓縮格式： .zip .zg .bz2 .tar.gz .tar.bz2.zip格式壓縮zip 壓縮文件名源文件#壓縮文件注：壓縮文件名寫.zip后綴是為了標記該文件的壓縮類型，方便管理。注：在壓縮時有壓縮格式轉換，所以當源文件很小時&#xff0c…

閱讀更多...

css禁用選中文本_使用CSS禁用文本選擇突出顯示

css禁用選中文本_使用CSS禁用文本選擇突出顯示

css禁用選中文本Introduction: 介紹： Texts are the most fundamental elements of any websites or web pages, they form the basis of the web pages or websites because if you don’t write something that you will not be able to present anything. There…

閱讀更多...

CDN加速實現—varnish

CDN加速實現—varnish

CDN介紹： 1 . 對cdn的理解： CDN的全稱是（Content Delivery Network），即內容分發網絡；加速器，反向代理緩存。CDN系統能夠實時的根據網絡流量和各節點的連接，負載狀況以及到用戶的舉例…

閱讀更多...

3dmax如何拆分模型_3dmax制作裝飾柜1

3dmax如何拆分模型_3dmax制作裝飾柜1

大家好，今天我來為大家講解一下如何利用3dmax制作裝飾柜。我們需要制作裝飾柜模型，當我們為它添加一個材質后，它就是這樣的效果。單擊創建，選擇圖形，對象為樣條線，選擇矩形在場景中進行創建。單擊修改&…

閱讀更多...

TODO：macOS上ThinkPHP5和Semantic-UI集成

TODO：macOS上ThinkPHP5和Semantic-UI集成

TODO：macOS上ThinkPHP5和Semantic-UI集成1. 全局安裝 (on OSX via homebrew)Composer 是 homebrew-php 項目的一部分2. 把Xcode升級到8.1后繼續安裝Composer3. 使用composer創建TP5項目MWL-Dispatchcomposer create-project topthink/think MWL-Dispatch4. 配置apac…

閱讀更多...

$np.expm1_JavaScript中帶有示例的Math.expm1（）方法$

np.expm1_JavaScript中帶有示例的Math.expm1（）方法

np.expm1JavaScript | Math.expm1()方法 (JavaScript | Math.expm1() Method) Math operations in JavaScript are handled using functions of math library in JavaScript. In this tutorial on Math.expm1() method, we will learn about the expm1() method and its workin…

閱讀更多...

距離傳感器控制燈泡代碼_生迪全彩智能 LED 燈泡體驗評測

距離傳感器控制燈泡代碼_生迪全彩智能 LED 燈泡體驗評測

市面上大多數智能燈具無外乎智能控制，冷暖標準區間的簡單調光，僅僅滿足我們日常照明之外，似乎用處不多。如果有一款能在自己房間制造多彩氛圍的燈泡就好了。這次有幸體驗到了華為智能家居生態鏈產品生迪全彩智能 LED 燈泡，才發現彩…

閱讀更多...

mysql啟動與關閉（手動與自動）

mysql啟動與關閉（手動與自動）

手動管理mysql的啟動與關閉 [rootmysql ~]# service mysql start --手動啟動mysqlStarting MySQL. SUCCESS![rootmysql ~]# service mysql stop --手動關閉mysql Shutting down MySQL.. SUCCESS! [rootmysql ~]# mysqld --verbose --help --查看MySQL的默認參數的具體值如果每…

閱讀更多...

$JavaScript中帶有示例的Math.round（）方法$

JavaScript中帶有示例的Math.round（）方法

JavaScript | Math.round()方法 (JavaScript | Math.round() Method) Math.round() is a function in math library of JavaScript that is used to round the given number floating-point number to the nearest integer value. Math.round()是JavaScript數學庫中的函數&…

閱讀更多...

內部導線拉力測試_珠海后環回收試驗機現金支付拉力試驗機回收和諧溫馨的環境...

內部導線拉力測試_珠海后環回收試驗機現金支付拉力試驗機回收和諧溫馨的環境...

珠海后環回收試驗機現金支付拉力試驗機回收和諧溫馨的環境深圳富興二手設備回收，拉力試驗機回收，恒溫恒濕箱回收，恒溫恒濕試驗箱回收，恒溫恒濕培養箱回收，高低溫試驗箱回收，高低溫沖擊試驗機回收&#xff0…

閱讀更多...

lvs負載均衡—ldirectord（DR模式的健康檢查）

lvs負載均衡—ldirectord（DR模式的健康檢查）

作用： 健康檢查對企業而言也是由為重要，在生活中，有時候訪問網頁訪問不到，就會跳出來一些圖形告訴你訪問失敗，這就是健康檢查的作用，當服務器都掛掉的時候，告訴你暫時訪問不了。 ldirectord是后…

閱讀更多...

Reactor by Example--轉

Reactor by Example--轉

原文地址：https://www.infoq.com/articles/reactor-by-example Key takeaways Reactor is a reactive streams library targeting Java 8 and providing an Rx-conforming APIIt uses the same approach and philosophy as RxJava despite some API differencesIt i…

閱讀更多...

springboot項目后臺運行關閉_springboot項目在服務器上部署過程(新手教程)

springboot項目后臺運行關閉_springboot項目在服務器上部署過程(新手教程)

環境：服務器系統：ubuntu16jdkmysql工具 xshell6下載地址：https://www.netsarang.com/download/down_form.html?code622&downloadType0&licenseType1xftp6下載地址：https://www.netsarang.com/download/down_form.html?c…

閱讀更多...

最新文章