前幾天有人問我怎么批量抓取今日頭條某個號的所有文章數據,需要文章鏈接,標題和時間,但是不會寫代碼,于是我寫了個簡單的教程
這里以渤海小吏為例?
首先用edge瀏覽器安裝web-scraper瀏覽器擴展
然后打開瀏覽器控制臺,找到web-scraper, import sitemap,復制以下代碼:
點擊scrape開始抓取 。
導出excel效果如圖,包含文章鏈接,文章標題,文章閱讀數,文章評論數,文章發布時間,效果見網盤?https://pan.quark.cn/s/949ca3387267
如果要抓取其他號的文章,修改edit metadata里的鏈接,你學會了嗎?
后續可以將所有文章下載合并成一個pdf文件,大小97MB,左側是文章目錄,點擊可跳轉到對應文章,效果見網盤?https://pan.quark.cn/s/949ca3387267
當然web-scraper也支持抓取其他網站的數據,掌握點網頁知識就可以。