Python 原生爬蟲

Python3 實現游戲主播人氣排行榜

from urllib import request
import re# 爬取某個游戲主播的人氣(每個游戲主播的觀看人數)排行榜'''
爬蟲前奏:明確爬蟲目的找到數據對應的網頁分析網頁的結構找到數據所在的標簽位置模擬HTTP請求,向服務器發送這個請求,獲取到服務器返回給我們的HTML利用正則表達式提取我們要的數據(主播名字,人氣)
概括字符集:\d \D\w 單詞字符 \W\s 空白字符 \S. 匹配除換行符\n之外的所有字符
爬蟲框架:ScrapyBeautifulSoup
進階:爬蟲大數據的存儲數據的分析
常見問題:反爬蟲反反爬蟲IP被封代理IP庫
'''class Spider():url = 'https://www.panda.tv/cate/lol'root_pattern = '<div class="video-info">([\s\S]*?)</div>'name_pattern = '</i>([\s\S]*?)</span>'number_pattern = '<span class="video-number">([\s\S]*?)</span>'def __fetch_content(self):r = request.urlopen(Spider.url)# byteshtmls = r.read()htmls = str(htmls, encoding='utf-8')return htmlsdef __analysis(self, htmls):root_html = re.findall(Spider.root_pattern, htmls)anchors = []for html in root_html:name = re.findall(Spider.name_pattern, html)number = re.findall(Spider.number_pattern, html)anchor = {'name': name, 'number': number}anchors.append(anchor)print(anchors[0])return anchorsdef __refine(self, anchors):jl = lambda anchors: {'name': anchors['name'][0].strip(),'number': anchors['number'][0].strip()}return map(jl, anchors)def __sort(self, anchors):# filteranchors = sorted(anchors, key=self.__sort_seed, reverse=True)return anchorsdef __sort_seed(self, anchor):r = re.findall('\d*\.\d*', anchor['number'])number = float(r[0])if '' in anchor['number']:number *= 10000return numberdef __show(self, anchors):for rank in range(0, len(anchors)):print('rank ' + str(rank + 1)+ ':' + anchors[rank]['name']+ '     ' + anchors[rank]['number'])def go(self):htmls = self.__fetch_content()anchors = self.__analysis(htmls)anchors = list(self.__refine(anchors))anchors = self.__sort(anchors)self.__show(anchors)spider = Spider()
spider.go()

?

?

轉載于:https://www.cnblogs.com/RHadoop-Hive/p/9513314.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/250870.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/250870.shtml
英文地址,請注明出處:http://en.pswp.cn/news/250870.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Mac 下查看網絡端口占用情況

1、Mac 下查看網絡端口占用情況 有的時候關閉了服務器&#xff0c;但是端口還是占用&#xff0c;解決的方法是 kill 掉占用該端口的進程。 # 查看 8009 端口的占用情況 $ lsof -i:8009 可以看到&#xff0c;該端口被 id 為 4215 的進程所占用&#xff0c;這個時候直接在命令…

javascript --- 變量提升的理解

看下面一段代碼: (function () {var x foo();var foo function foo () {return "foobar";};return x; })();(不許打出來)猜猜返回結果是什么… 答案是 // foo is not a function下面來解釋為什么會這樣,首先得明白: 1.如果變量聲明了但未賦值,則會顯示undefined…

17 初探Context的使用場景

context 容器&#xff08;即上下文&#xff09; → 裝數據 → 可以傳遞到程序的多個地方程序在執行時可訪問的容器 import styles from ...則css要寫module.css&#xff0c;否則無效果&#xff1b; import from ...則css無須寫module. &#xff0c;否則無效果 使用 context.j…

分布式監控系統開發【day37】:需求討論(一)

本節內容 為什么要做監控&#xff1f; 常用監控系統設計討論監控需求討論如何實現監控服務器的水平擴展&#xff1f;監控系統架構設計一、為什么要做監控&#xff1f; 熟悉IT監控系統的設計原理開發一個簡版的類Zabbix監控系統掌握自動化開發項目的程序設計思路及架構解藕原則…

iOS:練習題中如何用技術去實現一個連線題

一、介紹 本人做的app涉及的是教育行業&#xff0c;所以關于練習題的開發肯定是家常便飯。例如&#xff0c;選擇題、填空題、連線題、判斷題等&#xff0c;每一種題型都需要技術去實現&#xff0c;沒啥多大難度&#xff0c;這里呢&#xff0c;就給出實現連線題的核心代碼吧。過…

18 Context與組合的應用場景與使用問題

contextType 指定context類型為創建的上下文&#xff0c;此時不需要用Consumer組件包裹&#xff0c;使用this.context即可訪問會向上找最近的上下文并取值最適合的場景&#xff1a;雜亂無章的組件都需要同一些數據&#xff1b;若單純為了不層層傳遞屬性&#xff0c;使用contex…

http --- 共享加密(對稱加密)的幾個概念

使用互聯網進行數據傳輸時,可能會產生以下四個問題: 1. 竊聽: A向B發送的消息,有可能在傳輸過程中被X竊聽到 2. 假冒: A收到來自B的消息有可能是X冒充的 3. 篡改: A確實收到來自B的消息,但是該消息有可能被X篡改了 4. 事后否認:B確實收到了來自A的消息,但是A是惡意用戶,當A像B…

213. House Robber II 首尾相同的偷竊問題

&#xff3b;抄題&#xff3d;&#xff1a; You are a professional robber planning to rob houses along a street. Each house has a certain amount of money stashed. All houses at this place are arranged in a circle. That means the first house is the neighbor of…

原型鏈

<!DOCTYPE html><html><head lang"en"> <meta charset"UTF-8"> <title></title></head><body><script> /* 原型中的默認屬性 原型鏈&#xff1a;當調用構造函數&#xff08;Fn()&a…

http --- 公開密鑰加密(非對稱加密)的幾個概念

公開密鑰加密: 公鑰加密,私鑰解密 公開密鑰加密的處理流程: 1. A準備通過互聯網向B發送數據 2. B生成公鑰P和私鑰S 3. B將P發送給A 4. A使用P進行加密,并將密文通過互聯網發送給B 5. B使用S進行解密得到數據公鑰加密的更具體的栗子: 1.B首先準備好公鑰P和私鑰S 2.B將公鑰發布…

19、20 Context API

安裝React Dev Tool Context對象.displayName 使用別名 不使用別名 React.createContext 創建指定的Context對象組件會找離自己最近的Provider&#xff0c;獲取其value變量名都叫value的情況&#xff0c;就近取AContext變量名有所區分&#xff0c;兩個value都可以獲取可以…

01-spring配置詳解

1 bean元素 <!--將User對象交給spring容器進行管理 --><!-- Bean元素:使用該元素描述需要spring容器管理的對象class屬性:被管理對象的完整類名.name屬性:給被管理的對象起個名字.獲得對象時根據該名稱獲得對象. 可以重復.可以使用特殊字符.id屬性: 與name屬性一模一…

第八模塊:算法設計模式、企業應用 第2章 企業應用工具學習

第八模塊&#xff1a;算法&設計模式、企業應用 第2章 企業應用工具學習轉載于:https://www.cnblogs.com/tqtl911/p/9131614.html

http --- 混合加密的具體過程

混合加密: 共享加密存在一個“共享密鑰”無法安全告知服務端的問題.公開加密存在,加密、解密速度慢的問題.混合加密則同時使用了2種加密技術,具體過程如下: 1. B提前生成公鑰P和私鑰S,并將P發布到網上 2. A想(通過互聯網)像B發送數據 3. A從互聯網上獲取B的公鑰P,并使用P對共享…

Vite+Vue3頁面空白、圖標不顯示問題解決

頁面空白問題 由于項目部署在子文件夾下&#xff0c;因此需要配置vite.config.js const config {base: ./, }el-icon圖標不顯示、打包時mkdir無權限 在控制臺Network看字體圖標的請求&#xff0c;發現地址多了_assets&#xff0c;本以為需要重新配置publicDir&#xff0c;后…

在HTML打開已安裝的App,未安裝跳轉到對應的下載鏈接

借鑒 HTML中判斷手機是否安裝某APP&#xff0c;跳轉或下載該應用 function lookApp () {var ua navigator.userAgentvar isAndroid /(Android);?[\s/]([\d.])?/.test(ua)var isIpad /(iPad).*OS\s([\d_])/.test(ua)var isIpod /(iPod)(.*OS\s([\d_]))?/.test(ua)var is…

javascript --- 自定義數組的反序函數

想寫一個自定義的_reverse函數,其作用是將傳入的數組進行部分反序. 效果如下: 輸入[1,2,3,4,5,6,7,8,9] 第一個將2~4個位置的數字反序 第二個將2~6個位置的數字反序. // js function _reverse(arr, s, e) {arr arr.join().slice(0,s) arr.join().slice(s,e).split().revers…

21 Fragment和短語法應用

React.Fragment jsx語法&#xff0c;相當于document.createDocumentFragment()創建文檔碎片容器&#xff0c;優化渲染解決了沒有根節點的問題<></>這種短語法也會聲明React.Fragment但短語法不支持keyReact.Fragment只支持key屬性&#xff0c;其余屬性如事件等不支…

201521123004《軟件工程》個人閱讀作業1

task1Task2: 201521123004 林藝如 博客&#xff1a;https://www.cnblogs.com/dabaolyr/ 碼云&#xff1a;https://gitee.com/dabao_lyr Task3&#xff1a;完成博客-閱讀與思考 閱讀參考材料&#xff0c;并回答下面幾個問題&#xff1a; &#xff08;1&#xff09;回想一下你初入…

在sql當中為了讓數據做緩存做with as的操作

今天看別人的代碼&#xff0c;突然發現之前理解的sql的with as的用法有新的理解。 之前理解的with as只是想著做單表的union all 操作時才使用&#xff0c;今天發現在可以使用逗號做分割&#xff0c;做緩存不同的表數據。 下面的例子如下&#xff1a; WITH t1 AS (SELECT file_…