找數據?這幾個數據源網站就夠用了?

來源:經管學苑

轉自:經管學苑


大家好,我是小z

在這個用數據說話的時代,能夠打動人的往往是用數據說話的理性分析,無論是對于混跡職場的小年輕,還是需要數據進行分析和研究的同學,能夠找到合適的數據源都是非常重要的。特別是想要對一個新的領域進行研究和探索,擁有這個領域的數據那都是有十分重要的意義的。

在這里給大家推薦一些能夠用上的數據獲取方式,有了這些資源,不僅可以在數據收集的效率上能夠得到很大的提升,同時也可以學習更多思維方式。

1

公開的數據庫

- 國家數據 -

http://data.stats.gov.cn/index.htm


數據來源于中國國家統計局,包含了我國經濟民生等多個方面的數據,并且在月度、季度、年度都有覆蓋,較為全面和權威,對于社會科學的研究不要太有幫助。最關鍵的是,網站簡潔美觀,還有專門的可視化讀物。

- CEIC -

http://www.ceicdata.com/zh-hans



最完整的一套超過128個國家的經濟數據,能夠精確查找GDP, CPI, 進口,出口,外資直接投資,零售,銷售,以及國際利率等深度數據。其中的“中國經濟數據庫”收編了300,000多條時間序列數據,數據內容涵蓋宏觀經濟數據、行業經濟數據和地區經濟數據。

- wind(萬得)-

http://www.wind.com.cn/


萬得被譽為中國的Bloomberg,在金融業有著全面的數據覆蓋,金融數據的類目更新非常快,據說很受國內的商業分析者和投資人的親睞。

- 搜數網 -

http://www.soshoo.com/


已加載到搜數網站的統計資料達到7,874本,涵蓋1,761,009張統計表格和364,580,479個統計數據,匯集了中國資訊行自92年以來收集的所有統計和調查數據,并提供多樣化的搜索功能。

- 中國統計信息網 -

http://www.tjcn.org/


國家統計局的官方網站,匯集了海量的全國各級政府各年度的國民經濟和社會發展統計信息,建立了以統計公報為主,統計年鑒、階段發展數據、統計分析、經濟新聞、主要統計指標排行等。

- 亞馬遜aws -

http://aws.amazon.com/cn/datasets/?nc1=h_ls


來自亞馬遜的跨科學云數據平臺,包含化學、生物、經濟等多個領域的數據集。

- figshare -

https://figshare.com/


研究成果共享平臺,在這里你會發現來自世界的大牛們的研究成果分享,同時get其中的研究數據,內容很有啟發性,網站頗具設計感。

- github -

https://github.com/caesar0301/awesome-public-datasets


如果覺得前面的數據源還不夠,github上的大神已經為大家整理好了一個非常全面的數據獲取渠道,包含各個細分領域的數據庫資源,自然科學和社會科學的覆蓋都很全面,簡直是做研究和數據分析的利器。

隨便上幾個圖,滿滿的都是資源啊

2

?數據交易平臺

- 優易數據 -

http://www.youedata.com/

由國家信息中心發起,擁有國家級信息資源的數據平臺,國內領先的數據交易平臺。平臺有B2B、B2C兩種交易模式,包含政務、社會、社交、教育、消費、交通、能源、金融、健康等多個領域的數據資源。

- 數據堂 -

http://www.datatang.com/

專注于互聯網綜合數據交易,提供數據交易、處理和數據API服務,包含語音識別、醫療健康、交通地理、電子商務、社交網絡、圖像識別等方面的數據。

3

網絡指數??????????????????????????????????????????????????????????????????????????

- 百度指數 -

http://index.baidu.com/



大家都很熟悉的指數查詢平臺,可以根據指數的變化查看某個主題在各個時間段受關注的情況,進行趨勢分析、輿情預測有很好的指導作用。除了關注趨勢之外,還有需求分析、人群畫像等精準分析的工具,對于市場調研來說具有很好的參考意義。同樣的另外兩個搜索引擎搜狗、360也有類似的產品,都可以作為參考。

- 阿里指數 -

https://alizs.taobao.com/

國內權威的商品交易分析工具,可以按地域、按行業查看商品搜索和交易數據,基于淘寶、天貓和1688平臺的交易數據基本能夠看出國內商品交易的概況,對于趨勢分析、行業觀察意義不小。

- 艾瑞咨詢 -

http://www.iresearch.com.cn/


艾瑞作為老牌的互聯網研究機構,在數據的沉淀和數據分析上都有得天獨厚的優勢,在互聯網的趨勢和行業發展數據分析上面比較權威,艾瑞的互聯網分析報告可以說是互聯網研究的必讀刊物。

- 友盟指數 -

http://www.umeng.com/

??????????????????????????

友盟在移動互聯網應用數據統計和分析具有較為全面的統計和分析,對于研究移動端產品、做市場調研、用戶行為分析很有幫助。除了友盟指數,友盟的互聯網報告同樣是了解互聯網趨勢的優秀讀物。

- 愛奇藝指數 -

http://index.iqiyi.com/


愛奇藝指數是專門針對視頻的播放行為、趨勢的分析平臺,對于互聯網視頻的播放有著全面的統計和分析,涉及到播放趨勢、播放設備、用戶畫像、地域分布、等多個方面。由于愛奇藝龐大的用戶基數,該指數基本可以說明實際情況。

- 貓眼專業版-

http://piaofang.maoyan.com/


電影票房統計分析平臺,貓眼專業版有實時的票房統計,影片的排盤情況、上座率和影院數據,對于當前電影的分析是必不可少的。

4

網絡采集器

網絡采集器是通過軟件的形式實現簡單快捷地采集網絡上分散的內容,具有很好的內容收集作用,而且不需要技術成本,被很多用戶作為初級的采集工具。

- 火車采集器 -

http://www.locoy.com/


一款專業的互聯網數據抓取、處理、分析,挖掘軟件,可以靈活迅速地抓取網頁上散亂分布的數據信息,并通過一系列的分析處理,準確挖掘出所需數據,最常用的就是采集某些網站的文字、圖片、數據等在線資源。接口比較齊全,支持的擴展比較好用,懂代碼的話,可以使用PHP或C#開發任意功能的擴展。

- 八爪魚 -

http://www.bazhuayu.com/


簡單實用的采集器,功能齊全,操作簡單,不用寫規則。特有的云采集,關機也可以在云服務器上運行采集任務。

- 集搜客 -

http://www.gooseeker.com/

一款簡單易用的網頁信息抓取軟件,能夠抓取網頁文字、圖表、超鏈接等多種網頁元素,提供好用的網頁抓取軟件、數據挖掘攻略、行業資訊和前沿科技等。

5

網絡爬蟲

作為極客們最喜歡的數據收集方式,爬蟲高度的自由性、自主性都使其成為數據挖掘的必備技能,當然精通python等語言是必要前提。

利用爬蟲可以做很多有意思的事情,當然也可以獲取一些從其它渠道獲取不到的數據資源,更重要的是幫你打開尋找和搜集數據的思路。

- 利用爬蟲爬取網絡圖片 -


爬取的圖像素材

你看到某個網站上的圖片恰好是你需要的,但是量大單個下載太麻煩,那么利用爬蟲你可以快速地進行抓取,并可以根據標簽、特征、顏色等信息進行分類儲存。從此不缺設計素材,不缺美女圖片,連斗圖都多了幾分自信。

- 利用爬蟲爬取高質量資源 -


爬取的音樂資源

我們總是想快速地去搜集高質量的網絡資源,但是人工查找比對實在太麻煩,利用爬蟲你就可以輕松解決。比如爬取知乎點贊最多的文章列表,爬取網易云音樂評論最多的音樂,爬取豆瓣網高評分的電影或圖書……總之,你可以從此拒絕平庸。

- 利用爬蟲獲取輿情數據 -


爬取的某招聘網站職位信息

比如你可以批量爬取社交平臺的數據資源,可以爬取網站的交易數據,爬取招聘網站的職位信息等,可以用于個性化的分析研究。

總之,爬蟲是非常強大的,甚至有人說天下沒有不能爬的網站,因而爬取數據也成為了很多極客的樂趣。開發出高效的爬蟲工具可以幫助我們節省很多時間,可以完全按照自己的需求來訂制,想想這個世界就太美好。

6

小工具

- Web Plot Digitizer -

http://arohatgi.info/WebPlotDigitizer/app/


比如我們在查看期刊文獻的時候看到一張成型的圖表,但其本身數據是缺失的,你想獲得這個圖表的相關數據怎么辦?有了這個小工具就非常easy了。直接上傳我們需要獲得數據的圖表,如下:

然后我們就會獲得如下的數據反饋,感覺運籌帷幄有木有,對于一些不需要十分精確的分析研究足夠使用。

當然并不推薦用這個作為量化分析的依賴,對于定性的分析,做ppt級的數據統計分析就足夠了。

- you-get -

https://you-get.org/


這是一個程序員基于python 3開發的項目,已經在github上面開源,支持64個網站,包括優酷、土豆、愛奇藝、b站、酷狗音樂、蝦米……總之你能想到的網站都有! 還有一個黑科技的地方,即使是名單上沒有的網站,當你輸入鏈接,程序也會猜測你想要下載什么,然后幫你下載。

下載優酷視頻

批量下載圖片


當然you-get要在python3環境下進行安裝,用pip安裝好后,在終端輸入“you get+你想下載資源的鏈接”就可以等著收藏資源了。

7

數據導航

收集數據是一種能力,學習收集數據也是一種能力,數據的來源是沒有窮盡的,轉換一種思維,你就可以獲得不一樣的數據,下面推薦幾個可以用到的大數據導航,從這里面你可能會發現一些你自己想要的東西。每個人喜歡的收集數據的渠道不盡相同,只有盡量多地去見識和實踐才會發現更多的適合自己的數據獲取方式。

- 199IT大數據導航 -

http://hao.199it.com/

- 數據分析網導航 -

http://www.afenxi.com/hao

- 大數據人導航 -

http://hao.bigdata.ren/

在互聯網高度發達的今天,數據資源異常的豐富和龐大,如何高效地獲取數據成為一種重要的能力,畢竟獲取數據是一切用數據說話的前提。當然往往只需要熟練掌握一兩種方法,便足夠大多數人應付大多數場景和需求,所以選擇合適的數據獲取渠道還需要親自探究。

IT技術分享社區

個人博客網站:https://programmerblog.xyz

文章推薦程序員效率:畫流程圖常用的工具程序員效率:整理常用的在線筆記軟件遠程辦公:常用的遠程協助軟件,你都知道嗎?51單片機程序下載、ISP及串口基礎知識硬件:斷路器、接觸器、繼電器基礎知識


本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/271226.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/271226.shtml
英文地址,請注明出處:http://en.pswp.cn/news/271226.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

solaris11-text-安裝GUI(gnome)

http://blog.chinaunix.net/xmlrpc.php?rblog/article&uid45057&id3018467 1.下載所需的資源Text Installer CDRepository Image(a,b)http://www.oracle.com/technetwork/server-storage/solaris11/downloads/index.html2.用text CD安裝solaris11安裝那是相當的快呀&a…

java replaceall 大小寫_Java replaceAll不區分大小寫

Java 中replaceAll如何忽略大小寫呢?方式一:在正則表達式前面添加(?i)Testpublic void test_replaceAll33(){String input "I like Java,jAva is very easy and jaVa is so popular.";String replacement"cccc";System.out.println(input);System.out.p…

jdk環境變量配置_jmeter及jdk的環境變量配置

jmeter是apache公司基于java開發的一款開源壓力測試工具,其內部原理都是源于java的運行,并支持多種外部插件用于接口及性能測試,最主要的還是開源免費,在安裝jmeter前必須配置jdk環境。jdk下載地址:https://www.oracle…

jvm是運行在操作系統之上的,他和硬件沒有直接的交互

jvm是運行在操作系統之上的,他和硬件沒有直接的交互

SQL語言基礎:觸發器相關知識介紹?

1、觸發器 Trigger介紹觸發器可以實現完整性規則和保證一些復雜業務規則的實施。針對示警或滿足特定 條件下自動執行某項任務來說,觸發器是十分有用的機制。觸發器是由事件1驅動的特殊過程,一旦由某個用戶定義,任何用戶對該觸發器指定的數據新…

socket與socketServer通信

服務端代碼: public class TalkServer {public static void main(String args[]){try {//創建服務器,開放7777端口ServerSocket server new ServerSocket(7777);while(true){Socket socket server.accept();System.out.println("客戶端與服務端已…

java struts2值棧ognl_Struts2的值棧和OGNL牛逼啊

Struts2的值棧和OGNL牛逼啊一 值棧簡介:值棧是對應每個請求對象的一套內存數據的封裝,Struts2會給每個請求創建一個新的值棧,值棧能夠線程安全的為每個請求提供公共的數據存取服務。二 OGNL介紹:(1)基本數據:OGNL 是對…

還在用 Notepad++嗎? 盤點五款更好用的文本編輯器

來自:oschina.net/news/110987/no-notepad-plus-plus | 責編:樂樂正文 Notepad 一直飽受爭議,2018年開始然后引發了大家的關注,這里師長作為技術媒體,不方便帶啥節奏,具體事件內容請大家自行百度。其實作…

python3列表_Python3 列表List(十一)

list是一種有序可重復的集合,可以隨時添加和刪除其中的元素。序列是Python中最基本的數據結構。序列中的每個元素都分配一個數字 - 它的位置,或索引,第一個索引是0,第二個索引是1,依此類推。Python有6個序列的內置類型…

ubuntu14.04 boost動態庫找不到 libboost_system.so.1.58.0

error while loading shared libraries: : cannot open shared object file: No such file or directory 解決辦法:向ld.so.conf文件中添加libboost_system.so.1.58.0所在的目錄路徑sudo vim /etc/ld.so.conf sudo ldconfig http://blog.csdn.net/smallfish0315/ar…

SQL語言:嵌入式SQL知識筆記

1、概念SQL提供了將SQL語句嵌入到某種高級語言中的使用方式,通常采用預編譯的方法將SQL語句嵌入高級語言中。采用的方法由DBMS的預處理程序對源程序進行掃碼、識別出SQL語句,把它們轉換為主語言調用語句,這樣可以讓主語言編譯程序能識別它&am…

Mysql bat腳本編寫_第一次編寫bat腳本

** 前言 **今天中午在宿舍不想做什么事,于是想到傻怡的電腦太卡了,多方面原因造成的,多軟件安裝于系統盤、安裝了沒用的殺毒軟件等等,但是對于windows系統來說呢,使用時間長了,會有很多的緩存文件、日志文件…

python 關閉窗口事件_關于python:如何在Tkinter中處理窗口關閉事件?

如何在Python Tkinter程序中處理窗口關閉事件(用戶單擊" X"按鈕)?Tkinter支持一種稱為協議處理程序的機制。在這里,術語協議是指應用程序和窗口管理器之間的交互。最常用的協議稱為WM_DELETE_WINDOW,用于定義當用戶使用窗口管理器顯…

windows+caffe(三)——求取圖片的均值

這個要在圖片已經轉化成lmdb格式下才能求均值。。。 1.查看caffe根目錄下的bin是否存在compute_image_mean.exe(用的happey大神的) 如果沒有存在,你需要打開MainBuilder.sln,右鍵compute_image_mean-僅用于項目-僅生成compute_ima…

硬盤知識:硬盤中藍盤、綠盤、黑盤、紅盤有什么區別?

今天給大家介紹一下電腦硬盤中藍盤、綠盤、黑盤、紅盤有什么區別?我們平常說的藍盤、黑盤、紅盤、綠盤這些通常指的是西部數據旗下所產的硬盤,通過各自的特點進行了上述的分類。從外觀上我們可以通過硬盤上貼的紙的顏色來區分。綠盤:監控盤&a…

java 框架mvc_JAVA框架-MVC模式

MVCMVC 模式代表 Model-View-Controller(模型-視圖-控制器) 模式。這種模式用于應用程序的分層開發。Model(模型) - 模型代表一個存取數據的對象或 JAVA POJO。它也可以帶有邏輯,在數據變化時更新控制器。View(視圖) - 視圖代表模型包含的數據的可視化。Controller(…

python selenium 獲取同一元素的多個屬性_python+selenium如何獲取元素中并列的屬性值?...

獲取標簽內容使用element.attribute()方法獲取dom元素的內容,如:dr driver.find_element_by_id(tooltip)dr.get_attribute(data-original-title) #獲取tooltip的內容dr.text #獲取該鏈接的text獲取標簽屬性linkdr.find_element_by_id(tooltip)link.valu…

ndk學習6: 使用gdb調試ndk程序一

生成debug版程序 方法一: 使用ndk-build編譯時&#xff0c;加上如下參數NDK_DEBUG1&#xff0c;之后生成so文件之外&#xff0c;還會生成gdbobserver,gdb.setup調式文件 方法二: 修改AndroidManifest.xml文件,增加debuggable屬性為true <application android:debuggable&quo…