【python實用小腳本-128】基于 Python 的 Hacker News 爬蟲工具:自動化抓取新聞數據

引言

在技術社區中,Hacker News 是一個匯聚最新技術文章和討論的熱門平臺。許多開發者和技術愛好者依賴它來獲取行業動態和前沿資訊。然而,手動瀏覽和篩選這些文章可能耗時且低效。本文將介紹一個基于 Python 的 Hacker News 爬蟲工具,它能夠自動化地從 Hacker News 網站抓取最新文章,并將結果保存為 CSV 文件。該工具主要利用了 Python 的 requestsBeautifulSoupcsv 庫,結合了網絡請求和網頁解析技術,為用戶提供了一個高效且便捷的新聞數據抓取解決方案。

總體功能概述

Hacker News 爬蟲工具是一個 Python 腳本,其核心功能是從 Hacker News 網站抓取最新文章,并將文章標題和鏈接保存到 CSV 文件中。它通過調用 requests 庫發送 HTTP 請求獲取網頁內容,利用 BeautifulSoup 庫解析 HTML 數據,并使用 csv 庫將結果保存為 CSV 文件。此外,工具還通過用戶輸入來靈活地指定需要抓取的文章數量。

網絡請求與網頁內容獲取

工具首先需要從 Hacker News 網站獲取網頁內容。以下是網絡請求與網頁內容獲取的代碼片段及解析:

import requests
from bs4 import BeautifulSoup as bsbaseurl = "https://news.ycombinator.com/newest"
response = requests.get(baseurl)
soup = bs(response.content, 'html.parser')

在上述代碼中,requests.get 方法用于發送 HTTP GET 請求到 Hacker News 的最新文章頁面。response.content 包含了網頁的 HTML 內容,隨后通過 BeautifulSoup 對象 soup 來解析這些內容,以便后續提取所需數據。

用戶輸入與參數驗證

為了使工具能夠根據用戶需求抓取指定數量的文章,工具通過命令行輸入來接收用戶指令,并對輸入進行驗證。以下是用戶輸入與參數驗證的代碼片段及解析:

try:number_of_articles = int(input('''Enter the number of articles you want from the hackernews website.
(1-30) : '''))
except ValueError:print("\nYou did not enter a number. Try again.\n")sys.exit(1)if not 1 <= number_of_articles <= 30:print("\nYour input was not in the given range!\n")sys.exit(1)

在上述代碼中,input 函數用于提示用戶輸入所需文章的數量。通過 try-except 塊捕獲可能的 ValueError 異常,確保用戶輸入的是一個有效的整數。隨后,通過條件判斷驗證輸入值是否在允許的范圍內(1 到 30),若不符合則提示用戶并退出程序。

文章數據提取

工具通過解析網頁內容來提取文章的標題和鏈接。以下是文章數據提取的代碼片段及解析:

latest = soup.find_all('a', attrs={'class': 'storylink'})links = []
titles = []for article in latest:links.append(article['href'])titles.append(article.text)

在上述代碼中,soup.find_all 方法用于查找所有具有特定類名(storylink)的 <a> 標簽,這些標簽包含了文章的鏈接和標題。通過遍歷這些標簽,分別提取 href 屬性(鏈接)和文本內容(標題),并將它們存儲到 linkstitles 列表中。

數據保存為 CSV 文件

最后,工具將提取到的文章數據保存為 CSV 文件,方便用戶后續查看和使用。以下是數據保存為 CSV 文件的代碼片段及解析:

import csvresult = []for title, link in zip(titles[:number_of_articles], links[:number_of_articles]):d = {}d["News Title"] = titled["Link to the News"] = linkresult.append(d)keys = ["News Title", "Link to the News"]with open("hackernews_latest.csv", "w") as hackernews:writer = csv.DictWriter(hackernews, fieldnames=keys)writer.writeheader()writer.writerows(result)

在上述代碼中,通過 zip 函數將 titleslinks 列表中的元素配對,并根據用戶指定的文章數量進行切片。隨后,將每篇文章的標題和鏈接封裝為字典,并添加到 result 列表中。通過 csv.DictWriter 創建一個 CSV 寫入器,指定字段名并寫入表頭和數據行。最終,將結果保存到名為 hackernews_latest.csv 的文件中。

總結

本文介紹了一個基于 Python 的 Hacker News 爬蟲工具,它通過結合 requests 庫的網絡請求功能、BeautifulSoup 庫的網頁解析功能和 csv 庫的數據保存功能,實現了從 Hacker News 網站自動化抓取最新文章并保存為 CSV 文件的功能。該工具具有簡單易用、功能實用的特點,適用于需要快速獲取技術新聞數據的各種場景。通過本文的介紹,讀者可以了解到如何利用 Python 相關技術棧實現網頁爬蟲工具的開發,為數據收集和信息整理提供了有益的參考。

源碼獲取

完整代碼已開源,包含詳細的注釋文檔:
🔗 [GitCode倉庫] https://gitcode.com/laonong-1024/python-automation-scripts
📥 [備用下載] https://pan.quark.cn/s/654cf649e5a6 提取碼:f5VG

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/913349.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/913349.shtml
英文地址,請注明出處:http://en.pswp.cn/news/913349.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

mac 電腦安裝Homebrew來安裝npm與node成功后,安裝nvm的流程

文章目錄 前言一、卸載node(如果沒下載可以忽略這步)1.官網下載安裝包的2. homebrew安裝的 二、安裝Homebrew(1) 命令安裝&#xff08;2&#xff09;出現上面提示&#xff0c;執行對應的命令&#xff08;3&#xff09;校驗是否安裝成功 三&#xff1a;安裝node&#xff08;Home…

根據無人機傾斜攝影osgb做的3dmax模型3dtiles制作,導出.b3dm加載到谷歌地圖cesiumlab

根據無人機傾斜攝影osgb做的3dmax模型3dtiles制作&#xff0c;導出.b3dm加載到谷歌地圖cesiumlab 根據無人機傾斜攝影osgb做的3dmax模型3dtiles制作&#xff0c;導出.b3dm加載到谷歌地圖cesiumlab

Yocto項目:嵌入式Linux開發的“萬能烹飪手冊”

目錄 一.Yocto是什么? 二.Yocto如何運作&#xff1f; 2.1 三大核心工具 2.2 實例 三.為什么開發者愛用Yocto&#xff1f; 3.1 ?自由定制&#xff0c;拒絕“全家桶”?? 3.2 跨平臺支持&#xff1a;從x86到火星芯片? 3.3 工業級可靠性? PetaLinux是Xilinx官方推出的…

【nosql】有哪些非關系型數據庫?

非關系型數據庫Nosql 分類 鍵值存儲 (Key-Value Store): 代表: Redis, DynamoDB, RocksDB, etcd核心優勢: 極致簡單、超高讀寫性能&#xff08;尤其內存型&#xff09;、高吞吐。場景: 緩存、會話存儲、配置、計數器、分布式協調、簡單消息隊列。 列式 / 寬列存儲 (Wide-Colu…

Redis存儲Cookie實現爬蟲保持登錄 requests | selenium

前言 前面已經介紹了requests和selenium這兩種方式的基礎知識和模擬登錄,但是我們需要每次都進行登錄,這明顯是很麻煩并且不合理的,所以這次我分享一下怎么可以讓我們的程序進行一次登錄之后,和普通瀏覽器一樣下次不進行登錄直接進行對網站數據的爬取 下面的我分享的內容需要…

leetcode:474. 一和零[01背包][動態規劃]

學習要點 給定背包容量&#xff0c;裝滿背包最多有多少個物品深入理解01背包深入理解動態規劃 題目鏈接 474. 一和零 - 力扣&#xff08;LeetCode&#xff09; 題目描述 解法:01背包 class Solution { public:int findMaxForm(vector<string>& strs, int m, int …

UE5 使用過程遇到的問題

切換緩存位置 進入界面&#xff0c;選擇-編輯-編輯器偏好設置搜索緩存&#xff0c;找到通用全局&#xff0c;修改本地DCC路徑到要切換的位置 閃退報錯 Fatal: Failed to get dll export function: cuvidGetDecoderCaps [NVDEC] 因為NVIDIA驅動沒有卸載干凈&#xff0c;使用D…

2025 BSidesMumbaiCTF re 部分wp

XORyy 附件拖入ida。明文 idkwhattonamethis 附件拖入ida 前三個函數都是檢查環境&#xff0c;跳過即可 長度為5&#xff0c;可以根據flag格式求解。腳本。盡管多解但是可能的結果很少 Diff_EQ 附件拖入ida z3求解等式&#xff0c;腳本。無反調試的情況下本地可以驗證&#xff…

圖靈完備之路(數電學習三分鐘)----邏輯與計算架構

經過前面幾節的學習&#xff0c;我們已經有了簡單的數電知識&#xff0c;下面&#xff0c;我們將正式進入設計簡單圖靈完備機的工作&#xff0c;首先&#xff0c;我們要設計出具有邏輯運算與計算功能的簡單結構&#xff1a; 1.邏輯架構 首先&#xff0c;該架構能實現多種邏輯…

【C++筆記】AVL樹的深度剖析

【C筆記】AVL樹的深度剖析 &#x1f525;個人主頁&#xff1a;大白的編程日記 &#x1f525;專欄&#xff1a;C筆記 文章目錄【C筆記】AVL樹的深度剖析前言一. AVL樹的概念二.AVL樹的實現2.1 AVL樹的結構2.2 AVL樹的插入2.3 平衡因子更新三.旋轉3.1旋轉的原則3.2右單旋3.3左單…

支持向量機(SVM)在肝臟CT/MRI圖像分類(肝癌檢測)中的應用及實現

&#x1f9d1; 博主簡介&#xff1a;CSDN博客專家、CSDN平臺優質創作者&#xff0c;高級開發工程師&#xff0c;數學專業&#xff0c;10年以上C/C, C#, Java等多種編程語言開發經驗&#xff0c;擁有高級工程師證書&#xff1b;擅長C/C、C#等開發語言&#xff0c;熟悉Java常用開…

DeepSeek掃雷游戲網頁版HTML5(附源碼)

用DeepSeek幫忙生成一個網頁版的掃雷游戲&#xff0c;效果非常棒&#xff0c;基于HTML5實現&#xff0c;方便運行。 提示詞prompt 幫我做一個網頁版的 html5 掃雷游戲游戲功能說明 游戲難度&#xff1a; 1 簡單&#xff1a;1010 格子&#xff0c;10個地雷 2 中等&#xff1a;16…

Day53GAN對抗生成網絡思想

生成對抗網絡&#xff08;GAN&#xff09;是深度學習領域的一種革命性模型&#xff0c;由Ian Goodfellow等人于2014年提出。其核心思想源于博弈論中的零和博弈&#xff0c;通過兩個神經網絡&#xff08;生成器和判別器&#xff09;的對抗性訓練&#xff0c;實現數據的高質量生成…

meilisearch-輕量級搜索引擎

meilisearch是一款開源的輕量級搜索引擎&#xff0c;相比于elasticsearch等重量級搜索引擎&#xff0c;meilisearch注重數據搜索&#xff0c;從而而省去了其它不必要的功能&#xff08;如支持聚合分析、分布式搜索等特性&#xff09;&#xff0c;以便于快速上手開發和構建應用。…

51c大模型~合集150

我自己的原文哦~ https://blog.51cto.com/whaosoft/14034001 #原來Scaling Law還能被優化 Meta這招省token又提效 2017 年&#xff0c;一篇《Attention Is All You Need》論文成為 AI 發展的一個重要分水嶺&#xff0c;其中提出的 Transformer 依然是現今主流語言模型…

每天一個前端小知識 Day 23 - PWA 漸進式 Web 應用開發

PWA 漸進式 Web 應用開發&#xff08;離線緩存、桌面安裝等&#xff09; &#x1f9e0; 一、什么是 PWA&#xff1f; PWA&#xff08;Progressive Web App&#xff09;是一種讓 Web 應用具有類似原生 App 用戶體驗的技術體系。 PWA 不是一個框架&#xff0c;而是由一組瀏覽器 A…

音視頻會議服務搭建(設計方案-兩種集成方案對比)-03

前言在開始計劃之前&#xff0c;查閱了不少資料。一種方案是 Go層做信令業務&#xff0c;nodejs層來管理和mediasoup的底層交互&#xff0c;通過客戶端去調用Go層&#xff1b;第二種方案是 客戶端直接調用nodejs層來跟mediasoup去交互&#xff1b; 最終&#xff0c;當然不出意料…

【小白】linux安裝ffmpeg | java轉碼 【超詳細】

前言 最近在開發過程中&#xff0c;發現當我們上傳除了mp4以外的其他少見的格式&#xff0c;如 .flv .rmvb 格式的視頻時&#xff0c;在前端在線播放的時候會播放不出來畫面&#xff0c;所以 接下來&#xff0c;將要進行一個非常完美的工程&#xff0c;將視頻格式轉為.mp4 1.安…

一個簡單的腳本,讓pdf開啟夜間模式

因為平常我比較喜歡晚上看面試題。 市面上很多的面試題pdf都是白色的晚上看的話非常的刺眼。 所以我本能的去互聯網搜索看看有沒有pdf轉換為夜間模式的。 搜索了一段時間后發現并沒有這種東西。于是我自己做了一個轉換的python腳本。 import os import fitz # PyMuPDF from P…

Flink OceanBase CDC 環境配置與驗證

一、OceanBase 數據庫核心配置 1. 環境準備與版本要求 版本要求&#xff1a;OceanBase CE 4.0 或 OceanBase EE 2.2組件依賴&#xff1a;需部署 LogProxy 服務&#xff08;社區版/企業版部署方式不同&#xff09;兼容模式&#xff1a;支持 MySQL 模式&#xff08;默認&#x…