python爬蟲常見報錯_對Python爬蟲常見工具總結,歡迎補充

前言

以前寫爬蟲都是用requests包,雖然很好用,不過還是要封裝一些header啊什么的,也沒有用過無頭瀏覽器,今天偶然接觸了一下。

原因是在處理一個錯誤的時候,用到了幾個以前沒有用過的工具;這幾個工具也挺常見的,在這里一起總結一下。包括以下幾個:

selenium

requests-html

selenium

簡介

selenium是一個網頁自動化測試的工具,既然是網頁測試的,那么肯定支持各種瀏覽器了,常見的Firefox/Chrome/Safari都支持;當然,也需要你下載對應瀏覽器的驅動了。下面簡單說一下他的使用方式。

安裝

使用pip install selenium安裝selenium

安裝對應瀏覽器驅動,chrome的可以去這里下載

把驅動copy到/usr/local/bin下(非必須,不拷貝的話在使用的時候需要制定驅動的路徑)

簡單使用

'''

遇到問題沒人解答?小編創建了一個Python學習交流QQ群:778463939

尋找有志同道合的小伙伴,互幫互助,群里還有不錯的視頻學習教程和PDF電子書!

'''

from selenium import webdriver

driver = webdriver.chrome.webdriver.WebDriver()

driver.get("https://www.lagou.com/jobs/3490584.html")

# 獲取源碼

a = driver.page_source.encode('utf-8')

# 查找資源/tag

driver.find_element_by_xpath(u"//img[@alt='強化學習 (Reinforcement Learning)']").click()

driver.find_element_by_link_text("About").click()

# 截圖

driver.get_screenshot_as_file("./img/sreenshot1.png")

requests-html

簡介

是不是看見requests很熟悉,沒錯,這個就是會拍照又會寫代碼的requests的作者寫的又一個庫;

這個庫代碼并不是很多,都是基于其他庫封裝的,lxml/requests啊這些;使用也很簡單,遵循了他的宗旨:for humans

安裝

pip install requests-html

使用

from requests_html import HTMLSession

session = HTMLSession()

r = session.get('https://python.org/')

# 獲取頁面上的鏈接

r.html.links

r.html.absolute_links

# 用css選擇器選擇一個元素

about = r.html.find('#about', first=True)

print(about.text)

# xpath

r.html.xpath('a')

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/539177.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/539177.shtml
英文地址,請注明出處:http://en.pswp.cn/news/539177.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

AI造福設計師:搭配色板這種苦差事交給GAN就好啦(教程)

本文來自AI新媒體量子位(QbitAI)設計師要開工,總是離不開配色方案,也就是色板。 不過,做色板可不是個簡單的活,色板生成器Colormind的作者Jack Qiao(名字來自Product Hunt,我們下面叫…

mapreduce yarn內存參數

1、yarn-site.xml 設置 1.1 RM設置 RM的內存資源配置,主要是通過下面的兩個參數進行的(這兩個值是Yarn平臺特性,應在yarn-sit.xml中配置好): yarn.scheduler.minimum-allocation-mb yarn.scheduler.maximum-allocati…

python有哪些常用的package_個人Python常用Package及其安裝

為了避免每次重裝系統時又要東翻西找,現在此記錄一下目前常用的Python包安裝過程。 1) Python: 2.7.11, 下載地址:www.python.org。由于個人喜歡使用PyQt4(其實是不會PyQt5……),因此選擇安裝Python2.7。 安裝好Python…

html網頁設計大賽_HTML5網頁設計大賽 || 決賽名單公布

歷經數日的HTML5網頁設計大賽初賽已經落下的帷幕激動人心的決賽即將開始你們準備好了嗎?①決賽名單在經過評委老師多輪評選后,有以下隊伍/(個人)脫穎而出進入決賽:1.施佳鏞_故宮旅游網2.王永校_神秘莫測的宇宙3.黃煒岳_廣州旅游網站4.吳貴濱_NameLess5.陳…

2018.03.12、Android知識點-Java篇

1、闡述下對象的自動裝箱和拆箱 2 基本數據類型的自動裝箱(autoboxing)、拆箱(unboxing)是自J2SE 5.0開始提供的功能。自動裝箱是java編譯器在java原生類型和對應的對象包裝類型上做的自動轉換。 自動裝箱:Integer i 1;其實編譯器為你自動實現了&#x…

Hive的數據模型—桶表

概述 桶表是對數據進行哈希取值,然后放到不同文件中存儲。 數據加載到桶表時,會對字段取hash值,然后與桶的數量取模。把數據放到對應的文件中。 物理上,每個桶就是表(或分區)目錄里的一個文件,一個作業產…

mysql+使用swap_MySQL避免使用SWAP

當物理內存的數量不能容納數據的時候,os會把虛擬內存中的數據寫到磁盤上,此時的交換對于運行在操作系統中的進程是透明的。交換對與MySQL性能有很大的影響,對于Innodb存儲引擎它對內存中的數據鎖住全局互斥量,如果此時導致了磁盤的…

delphi bmp繪制矢量文件效率慢_聊一聊矢量瓦片的常識

一、矢量瓦片的基本原理和相關格式現階段,電子地圖瓦片主要使用兩種方式,一種是傳統的柵格瓦片,另外一種是新出的矢量瓦片(Vector Tiles),前者是采用四叉樹金字塔模型的分級方式,將地圖切割成無數大小相等的矩形柵格圖…

python生成器與迭代器。

生成器 在python 中一邊循環一邊計算的機制,叫做生成器(generator)。 通過列表生成式,我們可以直接創建一個列表。但是,收到內存的限制,列表容量肯定是有限的。而且,創建一個包含100萬個元素的列表,不僅占用…

centos mysql 設置_CentOS下MySQL安裝后配置和設置-阿里云開發者社區

CentOS下MySQL安裝后配置和設置:1:安裝完成路徑:1、數據庫目錄/var/lib/mysql/2、配置文件/usr/share/mysql(mysql.server命令及配置文件)3、啟動腳本/etc/rc.d/init.d/(啟動腳本文件mysql的目錄)4、相關命令/usr/bin(mysqladmin mysqldump等命令)注:1~3…

python怎樣將list轉化成字典_在python 中如何將 list 轉化成 dictionary

原標題:在python 中如何將 list 轉化成 dictionary 問題1:如何將一個list轉化成一個dictionary? 問題描述:比如在python中我有一個如下的list,其中奇數位置對應字典的key,偶數位置為相應的value解決方案: 1…

vscode gcc debug dbg gdb c cpp c++ cuckoo monitor

為什么80%的碼農都做不了架構師?>>> 裝cygwin 或者mingGW,裝gcc工具鏈,并將cygwin的bin目錄加入環境變量PATH中。 ctrlshiftb {// See https://go.microsoft.com/fwlink/?LinkId733558// for the documentation about the tasks…

hive索引

創建 hive (zmgdb)> create index index_t1 on table v_t1(name) > as > org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler > with > deferred rebuild in table save_index_t1_table; OK Time …

python爬取知網論文關鍵詞_Python爬蟲根據關鍵詞爬取知網論文摘要并保存到數據庫中...

由于實驗室需要一些語料做研究,語料要求是知網上的論文摘要,但是目前最新版的知網爬起來有些麻煩,所以我利用的是知網的另外一個搜索接口 搜索出來的結果和知網上的結果幾乎一樣 在這個基礎上,我簡單看了些網頁的結構,…

網頁中查看pdf文檔

2019獨角獸企業重金招聘Python工程師標準>>> 介紹&#xff1a; PDFObject 是一個 JavaScript 庫&#xff0c;用來在HTML中動態嵌入 PDF 文檔。 實現代碼&#xff1a; <script type"text/javascript" src"pdfobject.js"></script>…

導入導出數據

導入數據 從文件中裝載數據 hive>LOAD DATA [LOCAL] INPATH ... [OVERWRITE] INTO TABLE t2 [PARTITION (provincebeijing)]; LOCAL&#xff1a;linux本地的文件。無LOCAL&#xff1a;是hdfs的文件 注意&#xff1a; 從本地文件系統中將數據導入到Hive表的過程中&#xf…

python opencv 讀取視頻流不解碼_python + opencv: 解決不能讀取視頻的問題

博主一開始使用python2.7和Opencv2.4.10來獲取攝像頭圖像&#xff0c;程序如下&#xff1a; cap cv2.VideoCapture(0) ret, frame cap.read()使用這個程序能夠打開攝像頭并獲取圖像&#xff0c;一切正常。 接著想使用OpenCv播放視頻&#xff0c;按照官方教程只要將VideoCaptu…

jmeter提取mysql返回值_jmeter連接數據庫和提取數據庫返回值

一、在MySQL命令行中&#xff0c;驗證MySQL是否能正常登陸。若不能登陸&#xff0c;則重置MySQL的密碼。二、下載mysql-connector-java-5.1.45-bin.jar&#xff0c;將其放入Jmeter安裝目錄的lib目錄下。完成MySQL數據庫的驅動。三、右鍵“線程組”->“配置元件”->“JDBC…

[轉] Lodash

與underscore 類似 &#xff0c; 是1個js庫&#xff0c;內部封裝了諸多對字符串、數組、對象等常見數據類型的處理函數。 模塊組成 Lodash 提供的輔助函數主要分為以下幾類&#xff0c;函數列表和用法實例請查看 Lodash 的官方文檔&#xff1a; Array&#xff0c;適用于數組類型…

讀模式與寫模式

RDBMS是寫模式 Hive是讀模式 我們傳統的關系型數據庫RDBMS是寫模式。在RDBMS里&#xff0c;我們對表進行數據操作時候&#xff0c;RDBMS會用數據庫的第一第二第三范式去檢查數據的規范性&#xff0c;如果不符合規范&#xff0c;數據庫就拒絕數據的加載和操作。這個驗證過程消耗…