小紅書視頻圖文提取:采集+CV的實戰手記

爬蟲代理

項目說明:這波視頻,值不值得采?

你有沒有遇到過這樣的場景?老板說:“我們得看看最近小紅書上關于‘旅行’的視頻都說了些什么。”團隊做數據分析的,立馬傻眼:官網打不開、接口抓不著、視頻不能保存。

事實上,小紅書短視頻內容正逐步成為品牌營銷、熱點追蹤、圖像分析等領域的“情緒入口”。尤其是搜索頁前幾條視頻,往往已經代表了這個關鍵詞下用戶眼中的“熱門答案”。

本項目就是圍繞這樣一個需求展開的:我們希望通過關鍵詞搜索,自動抓取小紅書里排在前3名的視頻內容,包括:

  • 封面圖
  • 視頻文件(如果有)
  • 標題、作者、發布時間這些基本信息

你可以把這個腳本當成一個“圖文數據下載器”,用來收集訓練素材、做內容統計,或者單純保存好看的視頻封面圖。再配合一些圖像識別、文本處理工具,后續的玩法空間就打開了。


重點功能梳理(清單式整理)

功能點用處說明
搜索關鍵詞獲取你關心的詞條的前三條筆記
提取圖片/視頻鏈接拿到視頻的原始文件地址,不是截圖!
拿到文本數據包括標題、作者、時間,方便后續分析
使用代理IP為了穩定訪問和防止觸發風控
模擬瀏覽器模擬真實用戶行為,讓服務器“誤以為”是人類在操作

關鍵代碼段(能直接拿去用)

1、網絡配置部分(含代理和請求頭)

import requests# 爬蟲代理加強版(參考億牛云代理)
proxy_host = "proxy.16yun.cn"
proxy_port = "9020"
proxy_user = "16YUN"
proxy_pass = "16IP"proxies = {"http": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}","https": f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}",
}# 請求頭和 Cookie(可通過瀏覽器復制)
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 Chrome/122.0.0.0 Safari/537.36","Cookie": "這里替換為你自己的cookie字符串",
}

2、分析搜索頁接口,獲取核心數據

import jsondef search_notes(keyword):url = "https://edith.xiaohongshu.com/api/sns/web/v1/search/notes"params = {"keyword": keyword,"sort": "general","page": 1,"page_size": 10}resp = requests.get(url, headers=headers, proxies=proxies, params=params)data = json.loads(resp.text)results = []for i, item in enumerate(data['data']['items'][:3]):note = item.get("note_card", {})results.append({"title": note.get("title", ""),"author": note.get("user", {}).get("nickname", ""),"time": note.get("time", ""),"cover_img": note.get("image_list", [{}])[0].get("url", ""),"video_url": note.get("video", {}).get("media", {}).get("url", "")})return results

2.1下載視頻和圖片內容

def download_file(url, filename):if not url:print(f"跳過空鏈接:{filename}")returnresp = requests.get(url, headers=headers, proxies=proxies, stream=True)with open(filename, 'wb') as f:for chunk in resp.iter_content(chunk_size=8192):f.write(chunk)print(f"下載完成:{filename}")

2.2 主流程(邊抓邊下)

if __name__ == "__main__":kw = "旅行Vlog"results = search_notes(kw)for idx, r in enumerate(results):print(f"\n第{idx+1}條")print("標題:", r["title"])print("作者:", r["author"])print("時間:", r["time"])download_file(r["cover_img"], f"cover_{idx+1}.jpg")download_file(r["video_url"], f"video_{idx+1}.mp4")

使用建議

  • 代理推薦:使用類似“億牛云”這種住宅動態代理,穩定性高一些
  • Cookie處理:自己手動登錄小紅書網頁版后從控制臺復制即可
  • 接口變動:小紅書接口可能不定期改,建議用抓包工具(如Mitmproxy)定期確認
  • 頻率控制:盡量控制訪問頻率,模擬正常用戶節奏

快速試運行指引

  1. 打開瀏覽器,登錄小紅書網頁版
  2. 用F12打開開發者工具,獲取請求頭 & cookie
  3. 替換代碼里的對應字段
  4. 運行腳本,看是否能成功輸出視頻標題、作者和時間
  5. 查看腳本目錄,是否下載了封面圖和視頻文件

其他建議:可以加點視覺分析的料

如果你要搞點圖像識別,可以用 OpenCV 對封面圖做點篩選,例如:

import cv2def is_valid_image(path):img = cv2.imread(path)if img is None:return False# 這里可以加你自己的圖片過濾邏輯return True

最后

如果你只是想定期拉取關鍵詞對應的視頻內容,這個腳本就足夠用了;如果你還想做圖像識別、評論情緒分析甚至推薦系統,那就可以在此基礎上擴展。

這套邏輯目前在我們用得還挺穩定的(當然接口不能掛),你也可以根據業務做適當裁剪和封裝。遇到接口變更或風控升級,建議直接用瀏覽器工具重新確認數據來源。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/bicheng/84576.shtml
繁體地址,請注明出處:http://hk.pswp.cn/bicheng/84576.shtml
英文地址,請注明出處:http://en.pswp.cn/bicheng/84576.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

Cloudflare 從 Nginx 到 Pingora:性能、效率與安全的全面升級

在互聯網的快速發展中,高性能、高效率和高安全性的網絡服務成為了各大互聯網基礎設施提供商的核心追求。Cloudflare 作為全球領先的互聯網安全和基礎設施公司,近期做出了一個重大技術決策:棄用長期使用的 Nginx,轉而采用其內部開發…

從編輯到安全設置: 如何滿足專業文檔PDF處理需求

隨著數字化辦公的發展,PDF 已成為跨平臺文檔交互的標準格式。無論是在日常辦公、學術研究,還是項目協作中,對 PDF 文件進行高效編輯與管理的需求日益增長。功能全面、操作流暢且無額外負擔的 PDF 編輯工具,它是一款在功能上可與 A…

Kafka消費者組位移重設指南

#作者:張桐瑞 文章目錄 一、Kafka 與傳統消息引擎的核心差異二、重設消費者組位移的核心原因三、重設位移的兩大維度與七種策略四、重設位移的實現方式(一)Java API 方式(二)命令行腳本方式(Kafka 0.11&am…

分類模型:邏輯回歸

1、針對設計:二分類 Logistic 回歸最初是為二分類問題設計的, Logistic 回歸基于概率,通過 Sigmoid 函數轉換輸入特征的線性組合,將任意實數映射到 [0, 1] 區間內。 通過引入一個決策規則(通常是概率的閾值&#xff…

CppCon 2015 學習:C++ WAT

這段代碼展示了 C 中的一些有趣和令人困惑的特性,尤其是涉及數組訪問和某些語法的巧妙之處。讓我們逐個分析: 1. assert(map[“Hello world!”] e;) 這一行看起來很不尋常,因為 map 在這里被用作數組下標訪問器,但是在前面沒有…

vscode自定義主題語法及流程

vscode c/c 主題 DIY 啟用自己的主題(最后步驟) 重啟生效 文件–>首選項–>主題–>顏色主題: 也可以在插件里找到哈 手把手教你制作 在C:\Users\jlh.vscode\extensions下自己創建一個文件夾 里面有兩個文件和一個文件夾 具體內容: package.json: {"name&…

前端傳遞日期范圍(開始時間和結束時間),后端解析及查詢

前端技術&#xff1a;Vue3 TypeScript Element Plus 后端技術&#xff1a;Java Spring Boot MyBatis 應用效果&#xff1a; 原來方案 1、前端日期控件使用 el-date-picker&#xff0c;日期顯示格式和日期值返回格式都為&#xff1a;YYYY-MM-DD <el-form :model"…

零基礎設計模式——行為型模式 - 命令模式

第四部分&#xff1a;行為型模式 - 命令模式 (Command Pattern) 接下來&#xff0c;我們學習行為型模式中的命令模式。這個模式能將“請求”封裝成一個對象&#xff0c;從而讓你能夠參數化客戶端對象&#xff0c;將請求排隊或記錄請求日志&#xff0c;以及支持可撤銷的操作。 …

禁止 Windows 更新后自動重啟

Windows 默認會在安裝重要更新后自動重啟&#xff0c;但你可以調整設置來避免這種情況&#xff1a; ??方法 1&#xff1a;通過組策略&#xff08;適用于 Windows 專業版/企業版&#xff09;?? 按 Win R&#xff0c;輸入 gpedit.msc 打開 ??本地組策略編輯器??。導航…

GoldenDB簡述

GoldenDB是國產的分布式數據庫。它徹底解決了事務一致性&#xff0c;數據實時一致性的問題。采用的是Shared Nothing&#xff08;分片式存儲&#xff09;的分布式架構。就是不共享數據&#xff0c;各自節點持有各自的數據。對比不共享的&#xff0c;還有其他兩種分布式架構&…

訓練過程中的 Loss ?

文章目錄 在我們訓練的過程中&#xff0c;設置好這個epochs也就是訓練的輪次&#xff0c;然后計算這個損失函數&#xff0c;我們可以知道這個具體的訓練的情況&#xff0c;那么在訓練的過程中&#xff0c;這個損失函數的變化有哪些情況&#xff1f;對應的一個解釋情況是怎么樣的…

S2B2B農產品供應鏈交易多平臺開發有哪些發展前景?如何維護?

一、S2B2B農產品供應鏈交易多平臺開發的未來發展前景 本文將由小編為您介紹關于S2B2B農產品供應鏈交易多平臺開發的內容&#xff0c;希望能夠幫助大家。在數字化時代&#xff0c;農產品供應鏈的數字化轉型成為了一種必然趨勢。S2B2B(Supplier to Business to Business)模式通過…

關于有害的過度使用 std::move

翻譯&#xff1a;2023 11 月 24 日On harmful overuse of std::move cppreference std::move 論 std::move 的有害過度使用 - The Old New Thing C 的 std::move 函數將其參數轉換為右值引用&#xff0c;這使得其內容可以被另一個操作“消費”&#xff08;移動&#xff09;。…

Ubuntu24.04 onnx 模型轉 rknn

前面的環境配置有點懶得寫&#xff0c;教程也很多&#xff0c;可以自己找 rknn-toolkit2 gitee 地址&#xff1a;pingli/rknn-toolkit2 試了很多開源的代碼&#xff0c;都沒辦法跑通&#xff0c; 最后自己改了一版 微調后的 qwen2 模型適用 from rknn.api import RKNN impor…

Electron通信流程

前言 今天講Electron框架的通信流程&#xff0c;首先我們需要知道為什么需要通信。這得益于Electron的多進程模型&#xff0c;它主要模仿chrome的多進程模型如下圖&#xff1a; 作為應用開發者&#xff0c;我們將控制兩種類型的進程&#xff1a;主進程和渲染器進程 。 …

uni-app項目實戰筆記1--創建項目和實現首頁輪播圖功能

ps:本筆記來自B站咸蝦米壁紙項目 一.創建項目&#xff0c;完成項目初始化搭建 1.在HBuilder X創建wallper項目&#xff0c;使用默認模塊&#xff0c;選擇vue&#xff1b; 2.在項目根目錄下創建common目錄&#xff0c;用于存放靜態資源&#xff0c;創建項目時自動生成static目…

機械制造系統中 PROFINET 與 PROFIBUS-DP 的融合應用及捷米科技解決方案

在機械制造領域&#xff0c;工業通信網絡的兼容性與靈活性直接影響產線的自動化水平與生產效率。當前&#xff0c;多數機械制造系統采用PROFINET 控制器構建核心網絡架構&#xff0c;并通過微波無線連接實現設備互聯。隨著工業網絡的發展&#xff0c;系統中常需同時集成PROFINE…

MCP 協議系列序言篇:開啟 AI 應用融合新時代的鑰匙

文章目錄 序言&#xff1a;AI 應用層進入 MCP 時代為什么 MCP 開啟 AI 應用融合新時代的鑰匙為什么是 MCP&#xff1f;它與 Function Calling、Agent 有什么區別&#xff1f;Function CallingAI AgentMCP&#xff08;Model Context Protocol&#xff09; MCP 如何工作MCP Serve…

【threejs】每天一個小案例講解:光照

代碼倉 GitHub - TiffanyHoo/three_practices: Learning three.js together! 可自行clone&#xff0c;無需安裝依賴&#xff0c;直接liver-server運行/直接打開chapter01中的html文件 運行效果圖 知識要點 常見光照類型及其特點如下&#xff1a; 1. 環境光&#xff08;Ambi…

大模型在輸尿管下段積水預測及臨床應用的研究

目錄 一、引言 1.1 研究背景與意義 1.2 研究目的 1.3 研究范圍與限制 1.4 文獻綜述 1.5 研究方法和框架 二、相關理論與概念 2.1 大模型技術原理 2.2 輸尿管下段積水病理機制 2.3 大模型在醫學預測領域的應用 三、大模型預測輸尿管下段積水的方法 3.1 數據收集 3.…