原文鏈接:如何使用python網絡爬蟲批量獲取公共資源數據教程?https://mp.weixin.qq.com/s?__biz=MzUzNTczMDMxMg==&mid=2247608240&idx=4&sn=ef281f66727afabfaae2066c6e92f792&chksm=fa826657cdf5ef41571115328a09b9d34367d8b11415d5a5781dc4c9b3a10dbe7f809f7c95e5&token=1917568310&lang=zh_CN#rd一:Python軟件安裝
1 Python軟件安裝
1)Anaconda軟件安裝
2)Python庫的安裝與基本語法
3)Python的字符操作與正則表達式
4)Python的數據清洗與存儲
5)HTML和XML基礎
二:Python爬蟲基礎
2 Python爬蟲基礎
1)爬蟲的工作流程
2)發送請求及獲得頁面
Requests庫的使用
獲取代理、設置代理ip池及反爬蟲
3)解析頁面技術:
正則表達式使用
BeautifulSoup庫的使用
CSS選擇器使用
Xpath、lxml、entree語法講解
PyQuery庫使用
三:Python爬蟲全流程
3 Python爬蟲全流程
1)抓取的數據形式:文本、圖片、鏈接
2)保存和清洗獲取的數據
3)如何使用多線程提高爬蟲的效率
4)使用五種不同解析技術爬取經濟、天氣、土壤、品種大數據
四:Python爬蟲模擬器
4 模擬瀏覽器Selenium使用
1)Selenium庫
2)Selenium定位元素(id/name/class/tag/text/xpath/css定位)
3)Selenium操作網頁
4)Selenium顯式等待和隱式等待
5)使用Selenium爬取農業大數據
五:Python 爬取異步加載網頁及數據集網站
5 Python 爬取異步加載網頁及數據集網站
1)Ajax請求和JS渲染
2)json解析、XHR
3)使用Ajax爬取和下載動態圖片庫
4)使用json解析爬取數據類網站
5)使用一些特定庫爬取大型數據集網
6)如何爬取pdf中的表格數據