【爬蟲】爬取旅行評論和評分

以馬蜂窩“普達措國家公園”為例,其評論高達3000多條,但這3000多條并非是完全向用戶展示的,向用戶展示的只有5頁,數了一下每頁15條評論,也就是75條評論,有點太少了吧!

?因此想了個辦法盡可能多爬取一些評論,根據我對爬蟲爬取數據法律法規的相關了解,爬取看得到的數據是合法的,而在評論最開始的這個地方有對評論的分類,當然每個分類主題也是最多能看到5頁內容,但是肯定會比我們被動的只爬取5頁多很多內容,因此我們選擇按主題分類去爬取評論。

點擊上圖中的全部,右鍵檢查或者按下F12去定位“全部”?

?把這個元素收起來就可以看到如下圖,這個<li></li>標簽的列表里保存著分類名稱、類型、id等,如果比較多的話可以利用selenium的XPATH自動獲取之后,再套進代碼里面,由于我只演示一個例子并且分類標簽也不多,我就直接拿了這個列表放在代碼里。

注意我們需要用到的是他的兩個屬性值:

data-type、data-catagory

我存放的方式:(代碼標注的分類id)

data-type:a = [0,0,1,1,1,2,2,2,2,2,0]
data-catagory:b = [0,2,13,12,11,134700810,173942219,112047583,112968615,143853527,1]

注意這個順序a[i]b[i]是按照圖中框起來的<li></li>標簽一一對應的,順序不能錯。

點擊Network,按下Ctrl+R刷新一下

找到Name為poiCommentListApi?為首的(如下圖),點擊Headers,紅線畫出來的內容是代碼中comment_url(代碼標注①的地方),根據你自己需要的進行替換。

?下滑可以看到Request Headers中的‘Referer’和‘User-agent’兩個參數,根據你自己所需要的進行替換(代碼標注的②和③)

?點擊Payload,如果是下面這種情況你就點擊一下左邊的分類標簽(任選一個),在Name列表中一直往下滑找到Name為poiCommentListApi?為首的(根據你的點擊次數就會有多少個,從后往前找看看規律)

?

找到最后一個Name為poiCommentListApi?為首的,點擊Payload,看一下這個params參數

所以對于同一個景點來說,變化的參數有:評論類別(由type、catagory決定)、頁碼(取值范圍1-5)

?

分析完之后就可以寫代碼了

🌹--<-<-<@美味的code👑?

import re
import time
import requests
import pandas as pdcomment_url = 'http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?'
requests_headers = {'Referer': 'https://www.mafengwo.cn/poi/3110.html','User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36'
}# Comment categories
a = [0, 0, 1, 1, 1, 2, 2, 2, 2, 2, 0]
b = [0, 2, 13, 12, 11, 134700810, 173942219, 112047583, 112968615, 143853527, 1]# Iterate through ten categories of comments
for i in range(11):# Get comments from five pages for each categoryfor num in range(1, 6):print('Fetching Page', num)requests_data = {'params': '{"poi_id":"3110","type":"%d","category":"%d","page":"%d","just_comment":1}' % (a[i], b[i], num)}response = requests.get(url=comment_url, headers=requests_headers, params=requests_data)if 200 == response.status_code:page = response.content.decode('unicode-escape', 'ignore').encode('utf-8', 'ignore').decode('utf-8')page = page.replace('\\/', '/')date_pattern = r'<a class="btn-comment _j_comment" title="Add Comment">Comment</a>.*?\n.*?<span class="time">(.*?)</span>'date_list = re.compile(date_pattern).findall(page)star_pattern = r'<span class="s-star s-star(\d)"></span>'star_list = re.compile(star_pattern).findall(page)comment_pattern = r'<p class="rev-txt">([\s\S]*?)</p>'comment_list = re.compile(comment_pattern).findall(page)best_comment = []for num in range(0, len(date_list)):date = date_list[num]star = star_list[num]comment = comment_list[num]comment = str(comment).replace('&nbsp;', '')comment = comment.replace('<br>', '')comment = comment.replace('<br />', "")comment = comment.replace('\n', "")comment = comment.replace("【", "")comment = comment.replace("】", "")comment = comment.replace("~", "")comment = comment.replace("*", "")comment = comment.replace('<br />', '')best_comment.append(comment)df = pd.DataFrame({'date': date_list, 'rating': star_list, 'comment': comment_list})df['comment'] = best_commentdf.to_csv('mafengwo.csv', mode='a', encoding='gb18030', index=False, header=None)print('Write successful')else:print("Fetch failed")

既然都看到這裏了,不如點個關注+收藏再走咯!??

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/37612.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/37612.shtml
英文地址,請注明出處:http://en.pswp.cn/news/37612.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

【 BERTopic應用 02/3】 分析卡塔爾世界杯推特數據

攝影&#xff1a;Fauzan Saari on Unsplash 一、說明 這是我們對世界杯推特數據分析的第3部分&#xff0c;我們放棄了。我們將對我們的數據進行情緒分析&#xff0c;以了解人們對卡塔爾世界杯的感受。我將在這里介紹的一個功能強大的工具包是Hugging Face&#xff0c;您可以在…

高憶管理:策略:短期利空落地 市場有望企穩回升

高憶管理指出&#xff0c;基于A股商場出資環境分析&#xff0c;尤其是當時商場存量博弈為主的布景下&#xff0c;主張重視以下“21”主線輪動&#xff1a;&#xff08;1&#xff09;國產科技代替立異&#xff1a;電子&#xff08;半導體、消費電子&#xff09;、通信&#xff0…

Vue基本知識

一、vue入門 Vue為前端的框架&#xff0c;免除了原生js的DOM操作。簡化書寫。 基于MVVM的思想&#xff0c;實現數據的雙向綁定&#xff0c;使編程的重點放在數據上。 1、引入vue.js文件 2、定義vue核心對象&#xff0c;定義數據模型 3、編寫視圖 //1、引入vue.js <scr…

關于vue,記錄一次修飾符.stop和.once的使用,以及猜想。

內置指令 | Vue.js 在vue的api里&#xff0c;關于v-on有stop和once兩個事件標簽。 .stop - 調用 event.stopPropagation()。.once - 最多觸發一次處理函數。 原有主要代碼和頁面效果 &#xff08;無stop和once&#xff09;: ...<div class"div" click"di…

激活函數總結(九):Softmax系列激活函數補充(Softmin、Softmax2d、Logsoftmax)

激活函數總結&#xff08;九&#xff09;&#xff1a;Softmax系列激活函數補充 1 引言2 激活函數2.1 Softmin激活函數2.2 Softmax2d激活函數2.3 Logsoftmax激活函數 3. 總結 1 引言 在前面的文章中已經介紹了介紹了一系列激活函數 (Sigmoid、Tanh、ReLU、Leaky ReLU、PReLU、S…

React+Typescript清理項目環境

上文 創建一個 ReactTypescript 項目 我們創建出了一個 React配合Ts開發的項目環境 那么 本文 我們先將環境清理感覺 方便后續開發 我們先來聊一下React的一個目錄結構 跟我們之前開發的React項目還是有一些區別 public 主要是存放一些靜態資源文件 例如 html 圖片 icon之類的 …

響應式設計是什么?怎么學習? - 易智編譯EaseEditing

響應式設計是一種用于創建能夠適應不同設備和屏幕尺寸的網站和應用程序的設計方法。它的目標是確保網站在各種設備上都能提供良好的用戶體驗&#xff0c;無論是在大屏幕的桌面電腦上還是在小屏幕的移動設備上。 在響應式設計中&#xff0c;頁面的布局、字體、圖像和其他元素會…

【yml文件的解釋】

目錄 一、yml的簡介二、手寫yml文件進行配置三、使用yaml格式導出生成模板四、deployment.yaml文件詳解五、Pod yaml文件詳解六、Service yaml文件詳解 一、yml的簡介 Kubernetes 支持 YAML 和 JSON 格式管理資源對象 JSON 格式&#xff1a;主要用于 api 接口之間消息的傳遞 Y…

路由器和交換機的區別

交換機和路由器的區別 交換機實現局域網內點對點通信&#xff0c;路由器實現收集發散&#xff0c;相當于一個獵頭實現的中介的功能 路由器屬于網絡層&#xff0c;可以處理TCP/IP協議&#xff0c;通過IP地址尋址&#xff1b;交換機屬于中繼層&#xff0c;通過MAC地址尋址(列表)…

護眼燈值不值得買?什么護眼燈對眼睛好

想要選好護眼臺燈首先我們要知道什么是護眼臺燈&#xff0c;大的方向來看&#xff0c;護眼臺燈就是可以保護視力的臺燈&#xff0c;深入些講就是具備讓燈發出接近自然光特性的光線&#xff0c;同時光線不會傷害人眼而出現造成眼部不適甚至是視力降低的照明設備。 從細節上看就…

【數據結構】二叉樹篇|『構造二叉樹』刷題

博主簡介&#xff1a;努力學習的22級計算機科學與技術本科生一枚&#x1f338;博主主頁&#xff1a; 是瑤瑤子啦每日一言&#x1f33c;: 所謂自由&#xff0c;不是隨心所欲&#xff0c;而是自我主宰。——康德 目錄 一、前言二、刷題1、最大二叉樹2、從前序與中序遍歷序列構造二…

怎么使用手機遠程控制Win10電腦?

可以使用手機遠程控制電腦嗎&#xff1f; “近期&#xff0c;我將出差一段時間。問題是&#xff0c;我希望能夠從很遠的地方瀏覽家里電腦上的一些東西&#xff0c;但我不會一直隨身攜帶笨重的筆記本電腦。我可以手機遠程訪問Windows電腦嗎&#xff1f; ” 當然&am…

SpringBoot請求響應

簡單參數 1. 原始方式獲取請求參數 Controller方法形參中聲明httpServletRequest對象 調用對象的getParameter參數名 RestController public class RequestController {RequestMapping("/simpleParam")public String simpleParam(HttpServletRequest request){Strin…

Pytorch源碼搜索與分析

PyTorch的的代碼主要由C10、ATen、torch三大部分組成的。其中&#xff1a; C10 C10&#xff0c;來自于Caffe Tensor Library的縮寫。這里存放的都是最基礎的Tensor庫的代碼&#xff0c;可以運行在服務端和移動端。PyTorch目前正在將代碼從ATen/core目錄下遷移到C10中。C10的代…

12-數據結構-數組、矩陣、廣義表

數組、矩陣、廣義表 目錄 數組、矩陣、廣義表 一、數組 二.矩陣 三、廣義表 一、數組 這一章節理解基本概念即可。數組要看清其實下標是多少&#xff0c;并且二維數組&#xff0c;存取數據&#xff0c;要先看清楚是按照行存還是按列存&#xff0c;按行則是正常一行一行的去讀…

學習Vue:slot使用

在Vue.js中&#xff0c;組件高級特性之一是插槽&#xff08;Slots&#xff09;。插槽允許您在父組件中插入內容到子組件的特定位置&#xff0c;從而實現更靈活的組件復用和布局控制。本文將詳細介紹插槽的使用方法和優勢。 什么是插槽&#xff1f; 插槽是一種讓父組件可以向子…

AIF360入門教學

1、AIF360簡介 AI Fairness 360 工具包(AIF360)是一個開源軟件工具包&#xff0c;可以幫助檢測和緩解整個AI應用程序生命周期中機器學習模型中的偏見。在整個機器學習的過程中&#xff0c;偏見可能存在于初始訓練數據、創建分類器的算法或分類器所做的預測中。AI Fairness 360…

OPENCV C++(十一)

鼠標響應函數 //鼠標響應函數 void on_mouse(int EVENT, int x, int y, int flags, void* userdata) {Mat hh;hh *(Mat*)userdata;switch (EVENT){case EVENT_LBUTTONDOWN:{vP.x x;vP.y y;drawMarker(hh, vP, Scalar(255, 255, 255));//circle(hh, vP, 4, cvScalar(255, 255…

人工智能在監控系統中的預測與優化:提升效率和響應能力

引言&#xff1a;人工智能的發展給監控系統帶來了新的可能性&#xff0c;通過分析歷史監控數據和其他相關數據&#xff0c;人工智能可以預測未來可能發生的事件&#xff0c;如交通擁堵、安全隱患等&#xff0c;并幫助優化監控系統的配置和資源分配。這種預測和優化的能力可以提…

2023年國賽數學建模思路 - 復盤:校園消費行為分析

文章目錄 0 賽題思路1 賽題背景2 分析目標3 數據說明4 數據預處理5 數據分析5.1 食堂就餐行為分析5.2 學生消費行為分析 建模資料 0 賽題思路 &#xff08;賽題出來以后第一時間在CSDN分享&#xff09; https://blog.csdn.net/dc_sinor?typeblog 1 賽題背景 校園一卡通是集…