Python多線程豆瓣影評API接口爬蟲

爬蟲庫

使用簡單的requests庫,這是一個阻塞的庫,速度比較慢。
解析使用XPATH表達式
總體采用類的形式

多線程

使用concurrent.future并發模塊,建立線程池,把future對象扔進去執行即可實現并發爬取效果

數據存儲

使用Python ORM sqlalchemy保存到數據庫,也可以使用自帶的csv模塊存在CSV中。

API接口

因為API接口存在數據保護情況,一個電影的每一個分類只能抓取前25頁,全部評論、好評、中評、差評所有分類能爬100頁,每頁有20個數據,即最多為兩千條數據。

因為時效性原因,不保證代碼能爬到數據,只是給大家一個參考思路,上代碼

from datetime import datetime
import random
import csv
from concurrent.futures import ThreadPoolExecutor, as_completedfrom lxml import etree
import pymysql
import requestsfrom models import create_session, Comments#隨機UA
USERAGENT = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Opera/9.80 (Windows NT 6.1; U; zh-cn) Presto/2.9.168 Version/11.50','Mozilla/5.0 (Windows; U; Windows NT 6.1; ) AppleWebKit/534.12 (KHTML, like Gecko) Maxthon/3.0 Safari/534.12'
]class CommentFetcher:headers = {'User-Agent': ''}cookie = ''cookies = {'cookie': cookie}# cookie為登錄后的cookie,需要自行復制base_node = '//div[@class="comment-item"]'def __init__(self, movie_id, start, type=''):''':type: 全部評論:'', 好評:h 中評:m 差評:l:movie_id: 影片的ID號:start: 開始的記錄數,0-480'''self.movie_id = movie_idself.start = startself.type = typeself.url = 'https://movie.douban.com/subject/{id}/comments?start={start}&limit=20&sort=new_score\&status=P&percent_type={type}&comments_only=1'.format(id=str(self.movie_id),start=str(self.start),type=self.type)#創建數據庫連接self.session = create_session()#隨機useragentdef _random_UA(self):self.headers['User-Agent'] = random.choice(USERAGENT)#獲取api接口,使用get方法,返回的數據為json數據,需要提取里面的HTMLdef _get(self):self._random_UA()res = ''try:res = requests.get(self.url, cookies=self.cookies, headers=self.headers)res = res.json()['html']except Exception as e:print('IP被封,請使用代理IP')print('正在獲取{} 開始的記錄'.format(self.start))return resdef _parse(self):res = self._get()dom = etree.HTML(res)#id號self.id = dom.xpath(self.base_node + '/@data-cid')#用戶名self.username = dom.xpath(self.base_node + '/div[@class="avatar"]/a/@title')#用戶連接self.user_center = dom.xpath(self.base_node + '/div[@class="avatar"]/a/@href')#點贊數self.vote = dom.xpath(self.base_node + '//span[@class="votes"]/text()')#星級self.star = dom.xpath(self.base_node + '//span[contains(@class,"rating")]/@title')#發表時間self.time = dom.xpath(self.base_node + '//span[@class="comment-time "]/@title')#評論內容 所有span標簽class名為short的節點文本self.content = dom.xpath(self.base_node + '//span[@class="short"]/text()')#保存到數據庫def save_to_database(self):self._parse()for i in range(len(self.id)):try:comment = Comments(id=int(self.id[i]),username=self.username[i],user_center=self.user_center[i],vote=int(self.vote[i]),star=self.star[i],time=datetime.strptime(self.time[i], '%Y-%m-%d %H:%M:%S'),content=self.content[i])self.session.add(comment)self.session.commit()return 'finish'except pymysql.err.IntegrityError as e:print('數據重復,不做任何處理')except Exception as e:#數據添加錯誤,回滾self.session.rollback()finally:#關閉數據庫連接self.session.close()#保存到csvdef save_to_csv(self):self._parse()f = open('comment.csv', 'w', encoding='utf-8')csv_in = csv.writer(f, dialect='excel')for i in range(len(self.id)):csv_in.writerow([int(self.id[i]),self.username[i],self.user_center[i],int(self.vote[i]),self.time[i],self.content[i]])f.close()if __name__ == '__main__':with ThreadPoolExecutor(max_workers=4) as executor:futures = []for i in ['', 'h', 'm', 'l']:for j in range(25):fetcher = CommentFetcher(movie_id=26266893, start=j * 20, type=i)futures.append(executor.submit(fetcher.save_to_csv))for f in as_completed(futures):try:res = f.done()if res:ret_data = f.result()if ret_data == 'finish':print('{} 成功保存數據'.format(str(f)))except Exception as e:f.cancel()

轉載于:https://www.cnblogs.com/PyKK2019/p/10828632.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/251807.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/251807.shtml
英文地址,請注明出處:http://en.pswp.cn/news/251807.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【自制工具類】Java刪除字符串中的元素

這幾天做項目需要把多個item的id存儲到一個字符串中,保存進數據庫。保存倒是簡單,只需要判斷之前是否為空,如果空就直接添加,非空則拼接個“,” 所以這個字符串的數據結構是這樣的 String str "a,b,c,d"; 保…

DMA存儲器到外設代碼講解

實驗目的: bsp_dma_mtp.h #ifndef __BSP_DMA_MTP_H #define __BSP_DMA_MTP_H#include "stm32f10x.h" #include <stdio.h>// 串口工作參數宏定義 #define DEBUG_USARTx USART1 #define DEBUG_USART_CLK RCC_APB2Periph_USAR…

java基礎集合類——LinkedList 源碼略讀

1.概覽 LinkedList是java的動態數組另一種實現方式&#xff0c;底層是基于雙向鏈表&#xff0c;而不是數組。 public class LinkedList<E>extends AbstractSequentialList<E>implements List<E>, Deque<E>, Cloneable, java.io.Serializable LinkedLis…

[BZOJ] 1688: [Usaco2005 Open]Disease Manangement 疾病管理

1688: [Usaco2005 Open]Disease Manangement 疾病管理 Time Limit: 5 Sec Memory Limit: 64 MBSubmit: 727 Solved: 468[Submit][Status][Discuss]Description Alas! A set of D (1 < D < 15) diseases (numbered 1..D) is running through the farm. Farmer John woul…

es6 var、let、const命令

1.let和var <1>let聲明的變量僅在塊級作用域內有效&#xff1b; var聲明的變量在全局有效&#xff1b; <2> var變量樂意在聲明之前使用&#xff0c;輸出undefined; let 不可以&#xff0c;直接拋出一個錯誤&#xff1b; 例如&#xff1a;//var 聲明console.log(a);…

實例屬性和類屬

1.Python是動態語言&#xff0c;根據類創建的實例&#xff0c;可以任意綁定屬性 2.給實例綁定屬性的方法有兩種&#xff1a; 通過實例變量或者通過self變量。 1 class Student(object): 2 def __init__(self, name): 3 self.namename 4 5 ##或者如下&#xff1a; 6 &g…

vim中跳到第一行和最后一行

底線命令模式 :0或:1跳到文件第一行 :$跳到文件最后一行 命令模式 gg跳到第一行 shiftg跳到文件最后一行轉載于:https://www.cnblogs.com/liuys635/p/10831196.html

bootstrap-table 刷新頁面數據

bom.bootstrapTable(load,msg[object]);//這一步 務必要添加。if(msg[code]1){bom.find(tbody).css(display,table-row-group)bom.bootstrapTable({data: msg[object],columns: columns,resizable: true,cache:false,pagination: true,sidePagination: client,pageNumber: 1,pa…

Image-to-Image Translation with conditional Adversarial Networks ---- Pix-2-Pix

任務場景 Photos to semantic segmentationCityscapes labels to photosColorizationFacades labels to photoDay to nightThe edges to photoAnd so on.在生成器模型中&#xff0c;條件變量y實際上是作為一個額外的輸入層&#xff08;additional input layer&#xff09;&…

5分鐘從零構建第一個 Apache Flink 應用

為什么80%的碼農都做不了架構師&#xff1f;>>> 在本文中&#xff0c;我們將從零開始&#xff0c;教您如何構建第一個Apache Flink &#xff08;以下簡稱Flink&#xff09;應用程序。 開發環境準備 Flink 可以運行在 Linux, Max OS X, 或者是 Windows 上。為了開發…

WinForm窗體中如何在一個窗體中取到另一個窗體的值

例如我們定義兩窗體&#xff0c;Form1和Form2&#xff0c;如何在Form2中取到Form1中的一個值呢&#xff1f; 解決方法1&#xff1a; 在Form1 中定義一個成員變量&#xff0c;例如public string a “ ”: 然后給這個成員變量賦值&#xff0c;例如 a lblname.text; 在Form2中我…

Android6.0------權限申請RxPermissions

前面寫了Android6.0權限介紹和權限單個&#xff0c;多個申請&#xff0c;用的是純Java代碼&#xff0c;本文主要說的是借助第三方庫來實現權限申請。 借助第三方庫 RxPermissions來申請6.0權限。 RxPermissions庫地址&#xff1a;https://github.com/tbruyelle/RxPermissions …

如何給 mongodb 設置密碼

言簡意賅&#xff0c;步驟如下&#xff1a; 連接mongo mongo進入admin數據庫 use admin  創建管理員賬戶db.createUser({ user: "adminName", pwd: "adminPassword", roles: [{ role: "userAdminAnyDatabase", db: "admin&qu…

while和do-while循環結構

while(循環條件){ 循環操作 i; } 1.聲明并初始化循環變量。 2.判斷循環條件是否滿足&#xff0c;如果滿足則執行循環操作&#xff1b;否則退出循環。 3.執行完循環操作后&#xff0c;再次判斷循環條件&#xff0c;決定繼續執行循環或退出循環。 *while循環的特點&#xff1a;先…

Thread線程類及多線程

1.進程、線程、并發、并行是什么&#xff1f; 1)進程&#xff1a;操作系統中可以運行多個任務(程序)&#xff0c;這些運行的任務(程序)被稱為進程。程序的運行產生進程(內存空間、程序執行的堆棧)&#xff0c;可以這樣說&#xff0c;進程是作為操作系統分配資源的基本單位。 2)…

絳河 初識WCF5

然后我們在<Client>中添加一個終結點&#xff0c;這個是客戶端的終結點&#xff0c;我們前面曾經提過&#xff0c;通信實際上發生在兩個終結點間&#xff0c;客戶端也有個終結點&#xff0c;然而請求總是從客戶端首先發起&#xff0c;所以終結點地址應該填寫為服務端終結…

python修煉第四天

今天換了師傅。江湖人稱景女神^o^。 女師傅講的比較細&#xff0c;原理的比較多。初學者來說有些難。但是基本功是必須要打牢的。努力&#xff01; 迭代器 迭代器&#xff0c;迭代的工具1 什么是迭代&#xff0c;指的是一個重復的過程&#xff0c;每一次重復稱為一次迭代&#…

尷尬的存儲過程

最近在給一個已沉淀了多年的系統框架進行優化&#xff0c;發現大部分的基礎業務&#xff08;比如增刪改&#xff09;的實現都是通過存儲過程來實現。這讓我糾結了很久&#xff0c;看了下代碼格式我猜應該都是使用了代碼生成器。這無疑為系統的擴展留下了一個難以彌補的大坑。 首…

java虛擬機06-內存分區/新生代、老年代

1.原因 JVM在程序運行過程當中&#xff0c;會創建大量的對象&#xff0c;這些對象&#xff0c;大部分是短周期的對象&#xff0c;小部分是長周期的對象&#xff0c;對于短周期的對象&#xff0c;需要頻繁地進行垃圾回收以保證無用對象盡早被釋放掉&#xff0c;對于長周期對象&a…

博客作業04--樹

1.學習總結(2分) 1.1樹結構思維導圖 1.2 樹結構學習體會 樹這一章節比較復雜&#xff0c;知識點繁多&#xff0c;結合了遞歸的知識所以代碼閱讀起來會有障礙&#xff0c;難以理解&#xff0c;所以學起來比較吃力&#xff0c;而且很多經典的算法理解的不是很透徹解決pta上的問題…