【數據分析一:Data Collection】信息檢索

本節內容含有各典型數據集的推薦,以及其網址,大家根據需要自取


一、檢索

最簡單、最靈活的數據獲取方式就是依靠檢索:

Google:更適合搜索英文信息

Google Dataset Search(Google 數據集搜索)

網址:https://toolbox.google.com/datasetsearch

二、公開數據

國內常見公開數據渠道

·國家相關部門統計信息

·中國銀行業監督管理委員會

·中國國家統計局

國際公開數據集

1400萬的圖像數據

ImageNet

Amazon從2008年開始就為開發者提供幾十TB的開發數據

Registry of Open Data on AWS

YouTube視頻的統計與社交網絡數據

YouTube Dataset

代表性公開數據集

用戶評分MovieLens:MovieLens | GroupLens

文本數據-頭條:https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset

金融數據-股票:https://github.com/asxinyu/Stock

網絡數據-Large scale network:Stanford Large Network Dataset Collection

教育數據:

ASSISTmentsData-學業: https://sites.google.com/site/assistmentsdata/home/

BASEGroup: https://github.com/bigdata-ustc/EduData

阿里天池數據-數據平臺:天池數據集_阿里系唯一對外開放數據分享平臺-阿里云天池

公開大數據競賽的數據:KDDCup,NeurIPS Challenge

三、大數據的未來:合成數據

合成數據:基于計算機模擬活算法生成模仿現實世界觀察的人造數據

優勢:大大降低數據獲取成本;可控;沒有隱私安全問題;數據豐富多樣,減少真實世界中存在的偏見…

代表工作:

麻省理工學院搭建的合成數據工具庫:The Synthetic Data Vault. Put synthetic data to work!

利用大模型數據增強

解決目標領域數據少且質量差的問題

合成數據是讓模型“無中生有”,直接生成某個領域的數據(有一定質量問題)

數據增強是讓模型“有中生更多”,根據已標注好的數據,舉一反三(更安全可靠)

四、數據眾包

一種利用大眾力量來收集、分析和處理數據的模式

需求方將一批數據標注任務分成多個子任務,分發在數據眾包平臺

標注者通過互聯網在眾包平臺接受任務

平臺收集標注結果,質量評估合格后返回給需求方

平臺很多,大家自行搜索

附:比賽平臺

供各位了解

CCF BDCI:

2019 CCF 大數據與計算智能大賽CCF大數據與計算智能大賽(CCF BDCI)由中國計算機學會創辦,是大數據與人工智能領域的算法、應用和系統大型挑戰賽事。https://www.datafountain.cn/special/BDCI2019?utm_source=WX1

天池:

天池大數據競賽_天池大賽-阿里云天池天池大數據競賽,是由阿里巴巴集團主辦,面向全球科研工作者的高端算法競賽。通過開放海量數據和分布式計算資源,大賽讓所有參與者有機會運用其設計的算法解決各類社會問題或業務問題。歡迎來大家來天池參與天池大數據競賽,進行真實業務場景演練,參與天池大賽還有機會獲得百萬獎金池。https://tianchi.aliyun.com/competition/gameList.htm?spm=5176.100065.5610717.11.ba5d2

Kaggle

Kaggle CompetitionsKaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.https://www.kaggle.com/competitions

Biendata

阿里云萬網虛機IP訪問報錯提示https://biendata.com/


下一節,講述爬蟲,【數據分析二:Data Collection】:網絡爬蟲

【數據分析二:Data Collection】網絡爬蟲-CSDN博客文章瀏覽閱讀2次。大量數據的獲取難以手動實現,需借助爬蟲程序網絡爬蟲是一個自動在網上抓取數據的程序爬蟲本質上就是下載特定網站網頁的HTML/JSON/XML數據,并對數據進行解析、提取與存儲通常先定義一組入口URL,根據頁面中的其他URL,深度優先或廣度優先的遍歷訪問,逐一抓取數據爬蟲的行為可以劃分為:載入、解析、存儲。 https://blog.csdn.net/2301_79853895/article/details/148720066?fromshare=blogdetail&sharetype=blogdetail&sharerId=148720066&sharerefer=PC&sharesource=2301_79853895&sharefrom=from_link

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/910430.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/910430.shtml
英文地址,請注明出處:http://en.pswp.cn/news/910430.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

23.ssr和csr的對比?如何依賴node.js實現

1.為什么說ssr 的node中間層請求速度快。相當于內網? 那vue.js加載怎么沒有ssr和csr的說法啊 第一問:為什么說 SSR 的 Node 中間層請求速度快?是不是相當于內網? ? 是的,本質上就是「內網請求」,所以更快…

力扣刷題(第六十四天)

靈感來源 - 保持更新,努力學習 - python腳本學習 第一個錯誤的版本 解題思路 初始化左右邊界:左邊界 left 1,右邊界 right n。二分查找循環: 計算中間版本號 mid。若 mid 是錯誤版本,說明第一個錯誤版本在 [le…

【圖像處理入門】11. 深度學習初探:從CNN到GAN的視覺智能之旅

摘要 深度學習為圖像處理注入了革命性動力。本文將系統講解卷積神經網絡(CNN)的核心原理,通過PyTorch實現圖像分類實戰;深入解析遷移學習的高效應用策略,利用預訓練模型提升自定義任務性能;最后揭開生成對抗網絡(GAN)的神秘面紗,展示圖像生成與增強的前沿技術。結合代…

C++法則4: 如果一個構造函數的第一個參數是自身類類型的引用,且任何額外參數都有默認值,則此構造函數是拷貝構造函數。

C法則4: 如果一個構造函數的第一個參數是自身類類型的引用,且任何額外參數都有默認值,則此構造函數是拷貝構造函數。 拷貝構造函數的定義: 第一個參數是自身類類型的引用: 必須是引用(通常為const引用&…

從頭搭建環境安裝k8s遇到的問題

基本信息 master節點IP: 172.31.0.3 node01節點IP:172.31.0.4 node02節點IP:172.31.0.5 子網掩碼:255.255.0.0 網關:172.31.0.2 DNS:114.114.114.114 安裝前要檢查的信息 檢查三臺主機的mac地址是否重復&#xff1a…

Flask入門指南:從零構建Python微服務

1. Flask 是什么? Flask 是一個 微框架(Microframework),特點包括: 輕量靈活:核心僅包含路由和模板引擎,其他功能通過擴展實現易于學習:代碼直觀,適合快速開發小型應用…

【LINUX網絡】網絡socet接口的基本使用以及實現簡易UDP通信

根據本系列上兩篇關于網絡的初識介紹,現在我們開始實現一個UDP接口,以加強對該接口的理解。 1 . 服務器端 在本篇中,主要按照下面內容來實現: 創建并封裝服務端:了解創建服務端的基本步驟 創建并封裝客戶端&#xff0…

MySQL的索引事務

索引 是什么 類似于目錄,提高查詢的速度,但是本身會占用空間,增刪數據的時候也需要維護索引。所以查詢操作頻繁的時候可以創建索引。如果非條件查詢列,或經常做插入、修改操作,或磁盤空間不足時,不考慮創…

安卓9.0系統修改定制化____第三方美化 bug修復 移植相關 輔助工具 常識篇 八

在修改rom中。有時候不可避免的需要對系統進行美化以及一些第三方系統的bug修復。在操作前需要了解系統的一些基本常識。例如同平臺移植 跨平臺移植以及內核移植 apk反編譯等等相關的知識。今天解析的這款工具雖然不是直接面向安卓9.0.但對于了解以上的一些必備常識還是不錯的 …

云服務器與物理服務器對比:選擇最適合的業務服務器解決方案

更多云服務器知識,盡在hostol.com 在現代 IT 基礎設施中,云服務器與物理服務器是兩種常見的服務器解決方案。隨著云計算技術的迅猛發展,越來越多的企業開始轉向云服務器,但也有一些企業仍然堅持使用物理服務器,尤其是…

【redis使用場景——緩存——雙寫一致性】

redis使用場景——緩存——雙寫一致性 雙寫一致性問題的本質與場景典型不一致場景分析??并發寫操作導致的不一致????讀寫交叉導致的不一致????主從同步延遲導致的不一致?? 解決延遲雙刪策略(推薦)優點??:??缺點??&#xff…

【ArcGIS】在線影像底圖調用

【ArcGIS】在線影像底圖調用 一、 歷史影像的調用二、ArcGIS online底圖調用三、結語 一、 歷史影像的調用 ESRI官方推出了World Imagery Wayback是一個提供全球范圍內歷史影像的在線服務。 官網地址:https://livingatlas.arcgis.com/wayback/ 操作步驟&#xff1…

密度估計:從零星足跡重建整體畫像

想象你是一位偵探,案發現場只留下幾個零散的腳印。**如何通過這些碎片,推斷嫌疑人的身高體重?甚至預測他下一步的藏身之處?** 這種從局部反推整體的能力,正是**密度估計(Density Estimation)** …

B004基于STM32F401單片機簡易交通燈實訓數碼管顯示設計仿真資料

視頻演示地址:https://www.bilibili.com/video/BV1GvNDzFEd9/ 運行環境 仿真軟件:proteus8.17(切記別的版本不能運行) 編程軟件:MDK525 STM32 cubmx版本:6.11.1(切記別的版本不能運行) 原理圖畫圖軟件:AD10 功能說明: 以STM32F401CB單片機為核心簡易交通燈功能如下。…

沒掌握的知識點記錄

1、微內核的主要優點在于結構清晰、內核代碼量少,安全性和可靠性高、可移植性強、可伸縮性、可擴展性高;其缺點是難以進行良好的整體優化、進程間互相通信的開銷大、內核功能代碼不能被直接調用而帶來服務的效率低。 2、題目: 分頁內存管理…

linux 遠程終端執行qt應用顯示到接入的物理顯示器上

在顯示器打開終端執行: xhost local: 在遠程終端執行: export DISPLAY:0然后在終端執行qt應用就可以。 xhost local: 功能:允許本地用戶(local:)訪問 X 服務器(X11 圖形系統)。 原理&#xf…

【AI驅動網絡】

一、AI 驅動網絡 1.1 什么是網絡 1.1.1、網絡的定義 ?網絡是由若干節點?(如計算機、服務器、移動設備等)和連接這些節點的鏈路?(有線或無線傳輸介質)構成的系統,用于實現地理位置分散的獨立設備之間的信息交換、資源共享與協同工作。在計算機領域,網絡是信息傳輸、…

Python期末速成

一.基礎內容 賦值語句: a 1 b "mayday" 標識符規則: 1.字母,數字,下劃線,漢字組成。但數字不能開頭 2.不能是保留字 3.特殊符號不行,*¥^等 注釋是在語句前面加# …

【時時三省】(C語言基礎)指針變量例子

山不在高,有仙則名。水不在深,有龍則靈。 ----CSDN 時時三省 存放地址的變量是指針變量,它用來指向另一個對象(如變量、數組、函數等)。 那么,怎樣定義和使用指針變量呢? 先分析一個例子。 例題 通過…

MATLAB代碼演示,TDOA定位的優化算法,提升Z軸的定位精度|復現《基于最小二乘法的室內三維定位算法研究》

本文復現文章: 王桂杰,焦良葆,曹雪虹.基于最小二乘法的室內三維定位算法研究[J].計算機技術與發展,2020,30(04):69-73.按照文章的核心算法,復現了TDOA下的最小二乘在三維環境中的改進定位方法,方法可以明顯提升Z軸的定位精度 文章目錄 概述運行結果展示matlab代碼完整代碼概…