python爬蟲第一課 開發環境配置

一、Python3的安裝

二、請求庫的安裝

1、requests的安裝

直接pip安裝:pip3 install requests

2、Selenium的安裝

selenium是一個自動測試化工具,利用它我們可以驅動瀏覽器執行特定的動作,如點擊、下拉等操作。

直接pip安裝:pip install selenium

3、ChromeDriver的安裝

首先下載Chrome瀏覽器,并記住Chrome的版本號。然后下載ChromDriver,下載完成之后需要進行環境變量的配置,直接將chromedriver.exe復制到python的Scripts目錄下。

當然,可以在命令行下進行驗證:chromedriver。

4、PhantomJS的安裝

百度下載安裝包之后,將其exte文件放在python3的Scripts目錄下,安裝之后進行在命令行下進行測試:phantomjs。

5、aiohttp的安裝

直接進行 pip3 install aiohttp

此外同時推薦安裝兩個庫,一個是字符編碼檢測庫cchardet,另一個是加速DNS的解析庫aiodns。

直接進行 pip3 install cchardet aiodns

三、解析庫的安裝

1、lxml的安裝

直接進行 pip install lxml

lxml是python的一個解析庫,支持HTML和XML的解析,支持XPath的解析方式,而且解析效率非常高。

2、Beautiful Soup的安裝

Beautiful Soup是python的HTML或XML的解析庫,可以用來方便的從網頁上提取數據。注意:Beautiful Soup的HTML和XML的解析器是依賴于lxml庫的。

3、pyquery的安裝

同樣是一個強大的網頁解析工具,它提供了和jQuery類似的語法來解析HTML文檔,支持CSS選擇器,使用非常方便。

直接進行 pip3 install pyquery?

4、tessserocr的安裝

--------------待續。。。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/273972.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/273972.shtml
英文地址,請注明出處:http://en.pswp.cn/news/273972.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

用JSLint精煉提升JavaScript代碼

由于移動應用的盛行和HTML5的廣泛運用,JavaScript正越來越流行。JavaScript受歡迎的部分原因是因為它的靈活便捷,你可以快速上手,它不需要重量級的開發環境,也不需要第三方應用支持,只要你打開一個文本編輯器&#xff…

pymssql出現的錯誤

安裝pymssql出現的錯誤:如下:---------------------------------------- Failed building wheel for pymssqlRunning setup.py clean for pymssql Failed to build pymssql Installing collected packages: pymssqlRunning setup.py install for pymssq…

javascript設計思維

//一.把參數當作私有變量使用 (function (a, b) {//把參數當作私有變量使用,省略了var,也節省了行數console.log(b) //undefined,所有未賦值的變量均為undefined })(window);//二.把參數作為參數使用 var obj_init function (b, d, f) {//1…

linux第一章簡答

linux第一章簡答題: 1、你在你的主機上面安裝了一張網卡,但是開機之后,系統卻無法使用,你確定網卡是好的,那么可能的問題出在哪里?該如何解決? 答:因為所有的硬件都沒有問題&#xf…

(原創)一個和c#中LazyT類似的c++ LazyT類的實現

在.net 4.0中增加一個延遲加載類Lazy<T>&#xff0c;它的作用是實現按需延遲加載&#xff0c;也許很多人用過。一個典型的應用場景是這樣的&#xff1a;當初始化某個對象時&#xff0c;該對象引用了一個大對象&#xff0c;需要創建&#xff0c;這個對象的創建時需要較長的…

網頁選項卡的應用

&#xff08;1&#xff09;功能描述&#xff1a; 在頁面中&#xff0c;設置三個不同名稱的選項卡&#xff0c;當單機某個選項卡時&#xff0c;下面相對應的區域顯示其內容信息&#xff0c;同時選項卡的背景色與內容信息的背景色渾然一體&#xff0c;并且字體加粗&#xff0c;表…

python 爬蟲-beautifulsoup4

利用它可以不用編寫正則表達式即可方便的實現網頁信息的提取。 pip3 install beautifulsoup4 用法講解&#xff1a;常用解析庫&#xff1a; lxml HTML解析器 lxml XML解析器 from bs4 import BeautifulSoup soup BeautifulSoup(html,lxml) print(soup.prettify()) #格式化代…

魔獸控制命令ID

來源:http://tieba.baidu.com/p/1084211586本次技能ID大全共收錄ID368條不包括重復的ID&#xff0c;物品類技能的ID使用必須將物品技能單獨抽離出來并設置“物品技能false”&#xff0c;擁有命令字符串的物品請參考擁有相同字符串的4族中立技能。P.S所有ID都是按照從小到大的順…

python爬蟲框架--scrapy 基本使用

流程框架&#xff1a; 1、抓取第一頁&#xff1a;請求第一頁的URL并得到源代碼&#xff0c;進行下一步分析。 2、獲取內容和下一頁鏈接&#xff1a;分析源代碼&#xff0c;提取首頁內容&#xff0c;獲取下一頁鏈接等待進一步爬取。 3、保存爬取結果&#xff1a;將爬取結果保存為…

jsp頁面的使用

public void doGet(HttpServletRequest request, HttpServletResponse response)throws ServletException, IOException {//1.獲取資源文件 InputStream isthis.getServletContext().getResourceAsStream("/WEB-INF/classes/db.properties"); Str…

python爬蟲安裝錯誤與解決方式

# 安裝錯誤&#xff1a; error:Microsoft Visual C 14.0 is required... 下載地址&#xff1a;http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted pip install xxx.whl # 運行錯誤 1&#xff1a; from .. Import etree ImportError:DLL load failed pip uninstall lx…

工欲善其事必先利其器系列之:在VS里面折疊js代碼

之前用vs寫js的時候經常因為js代碼過長而且不能像cs文件里面的方法一樣進行折疊而抓狂,直到在擴展庫發現了這款插件有了它就可以把代碼進行折疊了 插件地址轉載于:https://www.cnblogs.com/Chendaqian/p/3396702.html

python- 基礎 map方法

python中map()函數 map()是 Python 內置的高階函數&#xff0c;它接收一個函數 f 和一個 list&#xff0c;并通過把函數 f 依次作用在 list 的每個元素上&#xff0c;得到一個新的 list 并返回。 例如&#xff0c;對于list [1, 2, 3, 4, 5, 6, 7, 8, 9] 如果希望把list的每個…

C算法編程題(二)正螺旋

前言 上一篇《C算法編程題&#xff08;一&#xff09;撲克牌發牌》 寫東西前總是喜歡吐槽一些東西&#xff0c;還是多啰嗦幾句吧&#xff0c;早上看了一篇博文《談談外企漲工資那些事》&#xff0c;里面樓主講到外企公司包含的五類人&#xff0c;其實不只是外企如此&#xff0c…

同時獲取同一等級下多個class值的節點的方法

方法&#xff1a; tr_ soup.find("div", class_"mod_cont fcolor30").find_all("tr", attrs{"class":["md_tr font14 bgcolor-s","md_tr font14 bgcolor"]}) 同時獲取兩個不同的class.例如&#xff1a; 當Beauti…

【循序漸進學Python】6.Python中的函數

1. 創建函數 一個函數代表一個行為并且返回一個結果(包括None)&#xff0c;在Python中使用def關鍵字來定義一個函數&#xff0c;如下&#xff1a; def hello(name):print hello, name ! 接下來調用函數&#xff0c;并查看其返回值&#xff1a; # output: # hello,gy! # None …

求子數組的最大和

窮舉法&#xff1a; int MaxSubArraySum(int a[], int n) { int i, j, MaxSum 0, tmpSum, cnt; for (i1; i<n; i) { for (j0; ji<n; j) { cnt 0; tmpSum 0; while (cnt < i) { tmpSum a[jcnt]; cnt; } if (MaxSum < tmpSum) { MaxSum tmpSum; } } } return Ma…

scrapy框架-post使用

scrapy中使用FormRequest向網頁提交數據 Scrapy post使用 如何post data&#xff1a; http://httpbin.org/post FormRequest : post請求 GitHub Login 借助瀏覽器分析登陸行為。 分析post的內容先嘗試一次錯誤的登陸&#xff1a;如下&#xff1a;分析&#xff1a;需要post…

duilib進階教程 -- 改進窗口拖動 (12)

現在大家應該都知道caption"0,0,0,32"&#xff0c;是指示標題欄區了吧&#xff0c;如果想要整個窗口都能拖動呢&#xff1f; 那直接把高度改成和窗口一樣不就得了~O(∩_∩)O~ 嗯&#xff0c;這樣是可以&#xff0c;比如窗口高度是600&#xff0c;那么我們指定caption…

python- 基礎 range方法的使用

1、第一種用法 index[1,2,0,5,9,8,10,6,4,7] for i in range(len(index)): print(index[i]) 結果&#xff1a; λ py test.py 1 2 0 5 9 8 10 6 4 7 2、第二種用法&#xff1a; index[1,2,0,5,9,8,10,6,4,7] for i in range(0,len(index),2): print(index[i]) 運…