【Python數據采集】Python爬取小紅書搜索關鍵詞下面的所有筆記的內容、點贊數量、評論數量等數據,繪制詞云圖、詞頻分析、數據分析

Python爬取小紅書搜索關鍵詞下面的所有筆記的內容、點贊數量、評論數量等數據,繪制詞云圖、詞頻分析、數據分析

使用 Python 編寫一個簡單的爬蟲程序來從小紅書抓取與指定關鍵詞相關的筆記數據,并對這些數據進行基本的數據分析,包括詞云圖和柱狀圖的繪制。

配套視頻請看:配套視頻教程
完整程序源碼地址:完整程序源碼地址

本教程分為兩大部分:爬蟲部分數據分析部分。

  • 爬蟲部分:從指定關鍵詞的小紅書中獲取相關筆記的信息(如標題、鏈接、用戶信息、互動數據等),并保存為 CSV 文件。
  • 數據分析部分:加載生成的 CSV 文件,進行文本清洗、分詞,然后生成詞云圖和柱狀圖以直觀展示數據特征。

必要的第三方庫

  • Python
  • Requests:發送 HTTP 請求
  • execjs:執行 JavaScript 代碼(用于 js 逆向)
  • json & csv:處理 JSON 數據和 CSV 文件寫入
  • pandas: 數據處理
  • jieba: 中文分詞
  • matplotlib, wordcloud: 數據可視化

文件結構
在這里插入圖片描述

爬蟲邏輯詳解

小紅書對請求有反爬機制,需要通過 Cookie簽名來模擬合法請求。

獲取 Cookie 設置請求頭

  • 打開 小紅書官網 并登錄。
  • 在瀏覽器開發者工具中找到并復制請求頭中的 cookie 字段。
  • 將獲取到的 cookie 替換到代碼中的相應位置。
  • 根據需要修改 base_headers 中的 cookie 值。
base_headers = {"accept": "application/json, text/plain, */*","cookie": "your_cookie_here", # 替換為你自己的cookie...
}

使用 JavaScript 生成請求簽名

使用 execjs 調用本地的 xhs.js 文件完成簽名生成

xhs_sign_obj = execjs.compile(open('xhs.js', encoding='utf-8').read())
sign_header = xhs_sign_obj.call('sign', uri, data, base_headers.get('cookie', ''))

根據關鍵詞搜索筆記,遍歷多頁數據

def keyword_search(keyword):search_url = "https://edith.xiaohongshu.com/api/sns/web/v1/search/notes"page_count = 20  # 爬取的頁數, 一頁有 20 條筆記 最多只能爬取220條筆記for page in range(1, page_count + 1):data = {"ext_flags": [],"image_formats": ["jpg", "webp", "avif"],"keyword": keyword,"note_type": 0,"page": page,"page_size": 20,'search_id': xhs_sign_obj.call('searchId'),"sort": "general"}response = post_request(search_url, uri='/api/sns/web/v1/search/notes', data=data)json_data = response.json()try:notes = json_data['data']['items']except:print('================爬取完畢================')breakfor note in notes:note_id = note['id']xsec_token = note['xsec_token']if len(note_id) != 24:continueget_note_info(note_id, xsec_token)

獲取筆記詳情并保存

def get_note_info(note_id, xsec_token):note_url = 'https://edith.xiaohongshu.com/api/sns/web/v1/feed'data = {"source_note_id": note_id,"image_scenes": ["jpg", "webp", "avif"],"extra": {"need_body_topic": "1"},"xsec_token": xsec_token,"xsec_source": "pc_search"}response = post_request(note_url, uri='/api/sns/web/v1/feed', data=data)json_data = response.json()try:note_data = json_data['data']['items'][0]except:print(f'筆記 {note_id} 不允許查看')returnsave_data(note_data, note_id, xsec_token)

爬取關鍵詞相關的小紅書筆記

keyword_search(keyword)

在這里插入圖片描述
在這里插入圖片描述

數據分析邏輯詳解

加載數據由爬蟲程序生成的 CSV 文件。

import pandas as pddata = pd.read_csv(r'秋招和春招到底哪個機會多.csv')

在這里插入圖片描述
對爬取到的數據進行去重、文本清洗和中文分詞。

xhs_content = data['筆記內容']
xhs_content = xhs_content.drop_duplicates()# 數據清洗
xhs_content = xhs_content.apply(clean_text)
# 對小紅書內容進行分詞
segment_list = segment_text(xhs_content)

利用 matplotlib 和 wordcloud 庫生成詞云圖和柱狀圖

# 繪制詞云圖
generate_wordcloud(segment_list)
# 繪制總的詞頻圖
plot_word_frequency(segment_list)

繪圖結果如下:
在這里插入圖片描述
在這里插入圖片描述
其他繪圖:
在這里插入圖片描述
blog.csdnimg.cn/direct/806109a179dd4d7894d63576f2c74a25.png)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/pingmian/89680.shtml
繁體地址,請注明出處:http://hk.pswp.cn/pingmian/89680.shtml
英文地址,請注明出處:http://en.pswp.cn/pingmian/89680.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

最大子數組和問題-詳解Kadane算法

最大子數組和問題-詳解Kadane算法一、問題定義與暴力解法1.1 問題描述1.2 暴力解法的低效性二、Kadane算法的核心原理2.1 動態規劃思想的應用2.2 優化空間復雜度三、Kadane算法的Java實現3.1 基礎版本(處理所有情況)3.2 算法正確性驗證四、Kadane算法的變…

Mongoose網絡庫深度解析:從單線程到多線程的架構演進

0. 引言:C/C網絡編程的困境與突破 在C/C開發領域,網絡編程一直是一個令人頭疼的問題。與Python的requests庫或Go的net/http包不同,C/C缺乏統一的包管理體系和標準化的網絡API。開發者往往需要面對gcc/msvc版本差異、平臺兼容性問題、以及各種…

Jfinal+SQLite處理 sqlite數據庫執行FIND_IN_SET報錯

方法一原代碼sql " and FIND_IN_SET(s.M_ID," ids ")"; 修改為 sql " where s.M_ID"getInSql(ids);public static String getInSql(String ids) {String[] idArray ids.split(",");StringBuilder sql new StringBuilder(" I…

day24——Java高級技術深度解析:單元測試、反射、注解與動態代理

文章目錄一、單元測試:JUnit框架精要1.1 單元測試核心概念1.2 JUnit快速入門實戰基礎步驟:斷言機制驗證結果1.3 JUnit核心注解解析二、反射機制:框架設計的基石2.1 反射核心概念2.2 獲取Class對象的三種方式2.3 反射操作類成分獲取并執行構造…

網頁的性能優化,以及具體的應用場景

下面是每個性能優化技術的具體應用場景示例,結合代碼說明如何在實際項目中使用這些優化方法: 1. 批量DOM操作與DocumentFragment 應用場景:動態渲染大量列表項(如評論區、商品列表) 問題:逐個添加DOM元素會…

Fiddler 中文版 API 調試與性能優化實踐 官方中文網全程支持

在現代開發中,性能問題往往是產品上線后最容易被忽視的一環,尤其是API接口性能。一旦接口響應時間過長或在高并發場景下出現性能瓶頸,可能直接影響用戶體驗和系統穩定性。對于開發者來說,如何精確地找到瓶頸所在,如何模…

嵌入式硬件篇---機械臂運動學解算(3自由度)

實際 3 自由度機械臂的解算是機器人控制的核心,涉及運動學正解(關節角度→末端位姿)和逆解(目標位姿→關節角度)。以下從結構建模、解算方法、代碼實現和應用場景四個維度詳細展開,結合工業級機械臂的典型場…

在攝像機視圖中想像在普通 3D 視口里那樣隨意移動

有兩條最常用的方法:1. 「鎖定相機到視圖」(Lock Camera to View)步驟進入相機視圖:按 Numpad 0(若無數字鍵盤,可在 Edit → Preferences → Input 勾選 Emulate Numpad 后用主鍵盤 0)。右側呼出 N 面板,切…

An End-to-End Attention-Based Approach for Learning on Graphs NC 2025

NC 2025 | 一種基于端到端注意力機制的圖學習方法 Nature Communications IF=15.7 綜合性期刊 1區 參考:https://mp.weixin.qq.com/s/cZ-d8Sf8wtQ9wfcGOFimCg 今天介紹一篇發表在 Nature Communications 的圖學習論文《An end-to-end attention-based approach for learnin…

【牛客刷題】小紅的數字串

文章目錄 一、題目描述 1.1 輸入描述 1.2 輸出描述 1.3 示例1 二、高效解法 2.1 核心算法設計 2.2 算法設計理念 2.2.1 算法流程詳解 2.2.2 復雜度分析 2.3 算法優勢分析 2.3.1 關鍵優化點 2.3.2 正確性驗證 2.4 邊界處理 2.5 總結與擴展 一、題目描述 小紅拿到了一個數字串(由…

微算法科技技術創新,將量子圖像LSQb算法與量子加密技術相結合,構建更加安全的量子信息隱藏和傳輸系統

隨著信息技術的發展,數據的安全性變得尤為重要。在傳統計算模式下,即便采用復雜的加密算法,也難以完全抵御日益增長的網絡攻擊威脅。量子計算技術的出現為信息安全帶來了新的解決方案。然而,量子圖像處理領域仍面臨復雜度高、效率…

博客摘錄「 Springboot入門到精通(超詳細文檔)」2025年7月4日

1.Spring Boot返回Json數據及數據封裝1. Controller 中使用RestController注解即可返回 Json 格式的數據首先看看RestController注解包含了什么東西, ResponseBody 注解是將返回的數據結構轉換為 Json 格式Target({ElementType.TYPE}) Retention(RetentionPolicy.RU…

企業安全防護:堡壘機技術解析

目錄 一、堡壘機:企業IT運維的安全守門人 1.1 核心價值矩陣 1.2堡壘機典型部署架構 二、堡壘機如何構建安全防線 2.1 四層防護體系 2.2 關鍵工作流程 三、堡壘機關鍵技術指標對比表 四、智能堡壘機的發展趨勢 一、堡壘機:企業IT運維的安全守門人…

傳輸層協議 TCP

TCP 協議TCP 全稱為 "傳輸控制協議(Transmission Control Protocol"). 人如其名, 要對數據的傳輸進行一個詳細的控制TCP 協議段格式源/目的端口號: 表示數據是從哪個進程來, 到哪個進程去32 位序號/32 位確認號4 位 TCP 報頭長度: 表示該 TCP 頭部有多少個 32 位 bit…

RT-Thread的概念和移植

一、操作系統的概念 操作系統(英語:Operating System,縮寫:OS)是一組主管并控制計算機操作、運用和運行硬件、軟件資源和提供公共服務來組織用戶交互的相互關聯的系統軟件程序。根據運行的環境,操作系統可以…

基于單片機傾角測量儀/角度測量/水平儀

傳送門 👉👉👉👉其他作品題目速選一覽表 👉👉👉👉其他作品題目功能速覽 概述 本設計實現了一種基于單片機的高精度數字傾角測量儀。系統核心由傾角傳感器(ADXL345傾…

深度學習 -- 初步認識Torch

深度學習 – 初步認識Torch 文章目錄深度學習 -- 初步認識Torch一,認識人工智能1.1 人工智能的本質1.2 人工智能的實現過程二,認識Torch2.1簡介2.2 概述2.3 Tensor的創建2.3.1 torch.tensor2.3.2 torch.Tensor三,創建線性和隨機張量3.1創建線…

BGP的“聰明選路”遇上了TCP的“路徑潔癖”,需人工調和

在路由器R1上有兩條外網,WAN1和WAN2。R1上做了域名分流功能,全局網址分到WAN1,指定域名分到WAN2(優先級更高)。癥狀是用戶反饋部分網頁無法打開。于是各種檢查嘗試...... 2天過去了......最終結論是:即使S…

ACWing算法筆記 | 二分

🔍 C 二分查找雙模板詳解:左閉右開 vs 左閉右閉(二分筆記)二分查找(Binary Search)是一類高效的搜索算法,在 O(log n) 的時間復雜度下查找答案,適用于單調性問題。C STL 的 lower_bo…

centos 新加磁盤分區動態擴容

你不能直接將一個分區分配給/dev/mapper/centos-root,因為這是一個邏輯卷(屬于 LVM 系統)。不過,你可以通過以下步驟將/dev/sda3添加到現有卷組或創建新的邏輯卷: 確認磁盤和分區信息 首先檢查分區是否已格式化以及是否…