爬蟲數據executemany插入_金融數據的獲取——一個爬蟲的簡單例子

對量化投資策略進行研究,第一步就是獲取我們需要的數據。使用歷史數據能夠對策略進行回測,以驗證策略的有效性和可信性。另一方面,量化投資本身也是一種對數據的研究,因此它也必須遵循數據分析的相關步驟。作為一個業余的量化投資愛好者,免費的數據來源主要有以下幾種途徑:

  • Yahoo、Sina 財經的API
  • Python的Tushare包
  • 自己手工爬取

Tushare是一個免費、開源的Python財經數據接口包,它對數據進行了規整因此使用起來非常方便。盡管有如此優秀的數據包簡化了數據的采集工作,我們依然需要掌握從網站上爬取數據的技能,以獲取接口沒有提供的數據。本篇文章將會介紹一個小爬蟲,告訴大家如何從網站上獲取所有股票的代碼和名稱。

Python的urllib2庫是爬蟲的基礎,使用urllib2庫可以獲取網頁的內容,再使用正則表達式對所需的內容進行提取。我們在東方財富網的stocklist頁面下對股票的代碼和名字進行爬取,若要獲取該網頁下的全部內容,則需要以下幾步:

  • 對服務器發送一個請求,使用urllib2的Request方法返回reguest對象
  • 采用urlopen方法處理構建的request對象,返回服務器的應答(response對象)
  • 對response對象使用read方法,返回網頁的內容
request 

一些網站不允許程序直接采用上面的方式進行訪問,因此需要通過程序模擬瀏覽器的行為。通常采用的技術是在Requset方法的headers參數中設置agent,這樣服務器認為是瀏覽器發出的請求就可以正常respose。

url 

在進行網頁內容的讀取過程中,會遇到這樣或那樣的原因導致異常使得讀取不成功,可以使用try-except捕獲相應的異常。

try


以上就是獲取網頁Html的過程,下面就需要在這茫茫Html中獲取我們需要的東西。這個時候需要用到正則表達式對需要的內容進行匹配。

cde92ecab1e5c558ee062b4faae80db7.png

上圖中藍色標出的部分是我們需要的股票名稱和代碼,采取以下正則表達式可以獲取需要的內容。正則表達式的寫法不是唯一的,但需要保證使用該正則不會出現遺漏或多匹配出不需要的其他信息的情況。如果你對正則表達式不太熟悉也沒有關系,Python提供了Beautiful Soup工具能夠更為簡單地提起Html或者Xml中的內容。

pattern 

采用findall方法返回的是一個List,我們可以將爬取的結果放在一個名為stocklist的txt文件中。

reload

當然,更好的結果儲存方式是將結果放在數據庫中,下面就是以sqllite數據庫為例進行了一個爬取結果的儲存。將爬取結果放在數據庫中能夠方便調用,并且可以設置shell任務做定時的爬取和更新。

conn 

以下是完整的代碼,供大家參考。

#coding:utf-8

好了,如何從網站上爬取我們需要的數據就介紹到這里。Python有著更為強大的爬蟲框架Scrapy,有興趣的同學可以學習一下。關于本次小爬蟲的全部代碼,可以關注我的微信公眾號,以后會有更多關于量化的原創文章哦!。

我的微信公眾號:會掘金的小鹿(NuggetsRoad)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/454630.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/454630.shtml
英文地址,請注明出處:http://en.pswp.cn/news/454630.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

洛谷 P1736 創意吃魚法

P1736 創意吃魚法 題目描述 回到家中的貓貓把三桶魚全部轉移到了她那長方形大池子中,然后開始思考:到底要以何種方法吃魚呢(貓貓就是這么可愛,吃魚也要想好吃法 ^_*)。她發現,把大池子視為01矩陣&#xff0…

程序員面試中遇到問題

面試時候經常會問的一些問題(不斷補充中) 面試必備基礎題目(雖然不一定常用, 僅用于面試, 面試就是把人搞的都不會然后砍價, 當然您可以講我可以查資料完成, 但是面試的時候就是沒道理的, 起碼我是經常看到這些題). 如何把一段逗號分割的字符串轉換成一個數組? request.getAtt…

linux檢查swap配置,Linux環境下swap配置方法

8種機械鍵盤軸體對比本人程序員,要買一個寫代碼的鍵盤,請問紅軸和茶軸怎么選?前言安裝Linux系統之后,默認是沒有swap分區,那么我們怎樣增加和刪除swap分區。配置swap步驟1) 內存占用情況1free -hSwap: 0B 0B 0B2) 通過…

react學習系列1 修改create-react-app配置支持stylus

注:由于前端更新非常快,寫這篇文章時 create-react-app 使用的版本是1.4.1 最新的使用流程請參照官方文檔。create-react-app 是facebook推出的快速創建react項目的命令行工具。 他和 vue-cli 類似。開箱即用,不用改一行配置就可以開發出針對…

Python 內置模塊之 時間模塊 datetime

概述 datatime模塊重新封裝了time模塊,提供更多接口,datetime庫定義了2個常量和5個類。 2個常量分別是: MINYEAR1MAXYEAR9999 5個類分別是: date類:表示日期的類time類:表示時間的類datetime類&#xf…

python自學網站需要多長時間-怎么自學python,大概要多久?

我潑點冷水:建議還是要慎重選擇上來新手就自學Python。如果想認認真真打好基礎,還是要至少從Java學起。換句話說,先學會Java,然后再學Python不遲。 Python的最大優勢是簡單明快,最大問題也是簡單明快。 我面試過很多用…

[c/c++] programming之路(25)、字符串(六)——memset,Unicode及寬字符,strset

一、memset #include<stdio.h> #include<stdlib.h> #include<memory.h>void *mymemset(void *p, int num, int len) {char *px (char *)p;if (p NULL)return NULL;while (len>0){*px (char)num;px;len--;}return p;//因為上述代碼是對px進行操作&#…

linux切換sid,linux – 將sid字段添加到ps -f輸出

我正在閱讀ps手冊頁,有一些我不明白的東西.-f does full-format listing. This option can be combined with many otherUNIX-style options to add additional columns. It also causes thecommand arguments to be printed. When used with -L, the NLWP (number ofthreads) …

使用Cross-Page Postback(跨頁面提交)在頁面間傳遞數據

頁面間傳遞數據的幾種方法 在頁面間傳遞數據時&#xff0c;我們有以下幾種選擇&#xff1a; 1、Query String 一個很常見的方法&#xff0c;Query String是URL中問號之后的那一部分。其優點在于它是輕量級的&#xff0c;不會給服務器帶來任何負擔。而它也有幾個缺點&#xff1a…

synchronized 和 lock 的區別

lock更靈活&#xff0c;可以自由定義多把鎖的加鎖解鎖順序&#xff08;synchronized要按照先加的后解順序&#xff09; 提供多種加鎖方案&#xff0c;lock 阻塞式, trylock 無阻塞式, lockInterruptily 可打斷式&#xff0c; 還有trylock的帶超時時間版本。 本質上和監視器鎖&a…

win10怎么設置默認輸入法_win10系統輸入法失效打不了字怎么辦

大家好&#xff0c;今天分享一篇來自小白系統官網(xiaobaixitong.com)的圖文教程。最近有用戶反映自己電腦上的win10系統出現輸入法失效打不了字的問題&#xff0c;想知道有沒有解決該問題的方法。小編經過一番查找后給大家整理出了針對該問題的解決方法&#xff0c;下面就讓我…

Python 內置模塊之 時間模塊 time

time模塊提供各種時間相關的功能,與時間相關的模塊有&#xff1a;time,datetime,calendar 必要說明&#xff1a; 這個模塊的功能不是適用于所有的平臺 這個模塊中定義的大部分函數是調用C平臺上的同名函數實現 一些術語和約定的解釋&#xff1a; 時間戳(timestamp)的方式,返…

linux找link原路徑,readlink命令找出符號鏈接所指向的位置

1.釋義找出符號鏈接所指向的位置2.系統幫助用法&#xff1a;readlink [選項]... 文件...輸出符號鏈接值或權威文件名。-f, --canonicalize遞歸跟隨給出文件名的所有符號鏈接以標準化&#xff0c;除最后一個外所有組件必須存在-e, --canonicalize-existing遞歸跟隨給出文件名的所…

國產毫米波雷達領域的領頭羊,木牛科技將在明年量產77GHz汽車雷達

國內的汽車毫米波雷達市場風潮起于2015年前后&#xff0c;彼時國內的毫米波雷達企業已經發展很多年&#xff0c;但大都在軍工領域。 面對突然出現的汽車毫米波雷達市場熱潮&#xff0c;國內很快涌現出了一大批雷達的初創企業&#xff0c;努力擠進這一亦新亦舊的市場。 說是新&a…

面試風云錄(02) - 與頂級CTO交手的難忘經驗...

大部分面試都是尋找團隊伙伴或成員&#xff0c;很少是面試高層&#xff0c;因為職級比我們高的人&#xff0c;自然會有更高層的人面試他們&#xff0c;但這次分享的不是一般面試&#xff0c;而是我跟頂級CTO交手的經驗&#xff0c;盡管為了顧慮當事人隱私&#xff0c;我已經隱去…

MySQL 之 performance_schema

背景&#xff1a; 自 MySQL5.5開始&#xff0c;MySQL新增了一個數據庫&#xff1a;PERFORMANCE_SCHEMA&#xff0c;主要用于收集數據庫服務器性能參數。此庫中表的存儲引擎均為PERFORMANCE_SCHEMA&#xff08;用戶不能創建存儲引擎為PERFORMANCE_SCHEMA的表&#xff09;。MySQ…

DNS解析原理與Bind部署DNS服務

DNS是什么&#xff1f; DNS&#xff08;Domain Name System&#xff0c;域名系統&#xff09;是互聯網上最核心的帶層級的分布式系統&#xff0c;它負責把域名轉換為IP地址、反查IP到域名的反向解析以及宣告郵件路由等信息&#xff0c;使得基于域名提供服務稱為可能&#xff0c…

qt 獲取本機的wifi密碼_還在記密碼?這款開源免費的賬號密碼管理神器趕緊收了...

工作中涉及到得賬號密碼&#xff0c;你是怎么記錄得&#xff1f;如果是文檔word或者excel記錄&#xff0c;那么回非常麻煩&#xff0c;每次還得打開。如果是瀏覽器自己記錄&#xff0c;如果更新密碼&#xff0c;又記不得。尷尬&#xff01;今天大衛給大家推薦一款開源免費得賬號…

adaptec raid linux,adaptecraid卡管理軟件在windows和linux下的安裝使用介紹(7頁)-原創力文檔...

adaptec raid卡管理軟件在 windows和linux下的安裝使用文檔l.adaptec raid卡的管理軟件在 windows下安裝后的運行界面如下圖:adaplecadaplec點擊connect后&#xff0c;便可進入管理軟件的主界面&#xff0c;如下圖:在這個主界面中可以選擇要操作的 raid卡&#xff0c;例如本例中…

think queue 消息隊列初體驗

使用的是tp5 自帶的消息隊列 thinkphp top里的 消息隊列框架 think-queue 這是thinkphp官方團隊開發的一個專門支持隊列服務的擴展包 消息隊列應用場景&#xff1a; 消息隊列適用于大并發或者返回結果 時間有點長并需要批量操作的第三方接口。 當前使用快遞單號獲取&#xf…