python博客爬蟲列表

我希望對指定網頁的,博客列表,獲取url,然后保存成本地文件,用python實現
step1:

 import requests
from bs4 import BeautifulSoup
import jsondef get_blog_links(url):headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36'}try:response = requests.get(url, headers=headers, timeout=10)response.raise_for_status()soup = BeautifulSoup(response.text, 'html.parser')article_links = []# 查找所有包含文章鏈接的<a>標簽for a_tag in soup.find_all('a', href=True):href = a_tag['href']if '/article/details/' in href:# 處理可能的相對路徑if href.startswith('http'):article_links.append(href)else:article_links.append(f'https://blog.csdn.net{href}')# 去重并保持順序seen = set()unique_links = [x for x in article_links if not (x in seen or seen.add(x))]return unique_linksexcept Exception as e:print(f'抓取過程中出現錯誤: {str(e)}')return []def save_to_json(data, filename):with open(filename, 'w', encoding='utf-8') as f:json.dump(data, f, ensure_ascii=False, indent=2)print(f'已成功保存{len(data)}條鏈接到 {filename}')if __name__ == '__main__':target_url = 'https://blog.csdn.net/cf8833?type=blog'output_file = 'csdn_blog_links.json'links = get_blog_links(target_url)if links:save_to_json(links, output_file)else:print('未找到有效文章鏈接')

end

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/77258.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/77258.shtml
英文地址,請注明出處:http://en.pswp.cn/web/77258.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

軟件測試入門學習筆記

今天學習新知識&#xff0c;軟件測試。 什么是軟件測試&#xff1f; 使用人工和自動手段來運行或測試某個系統的過程&#xff0c;目的在于檢驗它是否滿足規定的需求或弄清實際結果與預期結果之間的差別。 軟件測試的目的&#xff1f; 1&#xff09;為了發現程序&#xff0…

uniapp開發2--uniapp中的條件編譯總結

以下是對 uni-app 中條件編譯的總結&#xff1a; 概念&#xff1a; 條件編譯是一種技術&#xff0c;允許你根據不同的平臺或環境&#xff0c;編譯不同的代碼。 在 uni-app 中&#xff0c;這意味著你可以編寫一套代碼&#xff0c;然后根據要編譯到的平臺&#xff08;例如微信小…

【k8s】sidecar邊車容器

一、Sidecar 模式簡介 Sidecar 模式是一種常見的微服務架構設計模式。它通過將附加功能或服務與主應用程序部署在同一容器或主機上&#xff0c;從而實現對主應用程序的增強和擴展。Sidecar 的名稱來源于摩托車的邊車&#xff0c;它與摩托車緊密相連&#xff0c;為主車提供額外…

MySQL索引使用一定有效嗎?如何排查索引效果?

MySQL索引使用一定有效嗎&#xff1f;如何排查索引效果&#xff1f; 1. 索引一定有效嗎&#xff1f; 不一定&#xff01; 即使你創建了索引&#xff0c;MySQL 也可能因為以下原因 不使用索引 或 索引效果不佳&#xff1a; 索引選擇錯誤&#xff1a;MySQL 優化器可能選擇了錯…

漏洞管理體系:從掃描評估到修復驗證的全生命周期實踐

漏洞管理體系&#xff1a;從掃描評估到修復驗證的全生命周期實踐 在網絡安全防御體系中&#xff0c;漏洞管理是“攻防博弈”的核心戰場。據NVD&#xff08;國家漏洞數據庫&#xff09;統計&#xff0c;2023年新增漏洞超21萬個&#xff0c;平均每天披露575個&#xff0c;其中32…

cdh平臺管理與運維最佳實踐

一、容量規劃:構建可持續擴展的數據湖底座 1.1 資源評估三維模型 #mermaid-svg-4Fd5JDKTgwqF1BUd {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-4Fd5JDKTgwqF1BUd .error-icon{fill:#552222;}#mermaid-svg-4Fd5J…

力扣347:前K個高頻元素

給你一個整數數組 nums 和一個整數 k &#xff0c;請你返回其中出現頻率前 k 高的元素。你可以按 任意順序 返回答案。 示例 1: 輸入: nums [1,1,1,2,2,3], k 2 輸出: [1,2]示例 2: 輸入: nums [1], k 1 輸出: [1]題解&#xff1a; 一、思路&#xff1a; 1.我希望將nu…

前饋神經網絡層

FeedForward Network 論文地址 https://arxiv.org/pdf/1706.03762 前饋網絡介紹 前饋網絡是Transformer模型中的關鍵組件&#xff0c;每個Transformer層包含一個多頭注意力模塊和一個前饋網絡模塊。該模塊通過兩次線性變換和激活函數&#xff0c;為模型提供非線性建模能力。其核…

如何將 sNp 文件導入并繪制到 AEDT (HFSS)

導入 sNp 文件 打開您的項目&#xff0c;右鍵單擊 “Result” 繪制結果 導入后&#xff0c;用戶可以選擇它進行打印。請參閱下面的示例。要點&#xff1a;確保從 Solution 中選擇它。

es-核心儲存原理介紹

原始數據 idusernamegradedescription1ahua87i like study2xiaowang92i like es3zhaoyun63i like java 倒排索引 description使用的text分詞&#xff0c;使用倒排索引 termidi1,2,3like1,2,3study1es2java3 分詞后&#xff0c;如果匹配 es&#xff0c;則需要逐行匹配&…

jmeter中監控服務器ServerAgent

插件下載&#xff1a; 將ServerAgent上傳至需要監控的服務器&#xff0c;mac/liunx啟動startAgent.sh&#xff08;啟動命令&#xff1a;./startAgent.sh&#xff09; 在jmeter中添加permon監控組件 配置需要監控的服務器IP地址&#xff0c;添加需要監控的資源 注意&#xf…

UML 狀態圖:以共享汽車系統狀態圖為例

目錄 一、初識 UML 狀態圖 二、共享汽車系統狀態圖詳解 &#xff08;一&#xff09;初始狀態與車輛空閑狀態 &#xff08;二&#xff09;用戶預定相關狀態 &#xff08;三&#xff09;等待取車與用戶取車狀態 &#xff08;四&#xff09;用戶還車及后續狀態 三、狀態圖繪…

橙子果品分級-目標檢測數據集(包括VOC格式、YOLO格式)

橙子果品分級-目標檢測數據集&#xff08;包括VOC格式、YOLO格式&#xff09; 數據集&#xff1a; 鏈接&#xff1a;https://pan.baidu.com/s/1jpdrylu06mm0r9pGVyb-AQ?pwd94a6 提取碼: 94a6 數據集信息介紹&#xff1a; 共有 9195 張圖像和一一對應的標注文件 標注文件格式…

uniapp 仿企微左邊公司切換頁

示例代碼&#xff1a; <template><view class"container"><!-- 遮罩層 --><view class"mask" v-if"showSidebar" click"closeSidebar"></view><!-- 側邊欄 --><view class"sidebar"…

pyqt中以鼠標所在位置為錨點縮放圖片

在編寫涉及到圖片縮放的pyqt程序時&#xff0c;如果以鼠標為錨點縮放圖片&#xff0c;圖片上處于鼠標所在位置的點&#xff08;通常也是用戶關注的圖片上的點&#xff09;不會移動&#xff0c;更不會消失在圖片顯示區域之外&#xff0c;可以提高用戶體驗&#xff0c;是一個值得…

巧記英語四級單詞 Unit5-中【曉艷老師版】

ignore v.無視&#xff0c;不理睬 發音“一個鬧”&#xff0c;對付一個無理取鬧的孩子&#xff0c;最好的方式就是無視 不理睬ignorant a.無知的&#xff0c;不禮貌的 對于什么事都無視&#xff0c;中國第一個不平等條約問也不知道就是無知的neglect n.忽視 negative消極的&a…

go 編譯的 windows 進程(exe)以管理員權限啟動(UAC)

引言 windows 系統&#xff0c;在打開某些 exe 的時候&#xff0c;會彈出“用戶賬戶控制(UAC)”的彈窗 “你要允許來自xx發布者的此應用對你的設備進行更改嗎&#xff1f;” UAC&#xff08;User Account Control&#xff0c;用戶賬戶控制&#xff09;是 Windows 操作系統中的…

go.mod介紹

在 Go 項目中&#xff0c;.mod 文件&#xff08;全稱 go.mod&#xff09;是 Go 語言模塊&#xff08;Module&#xff09;系統的核心配置文件&#xff0c;用于定義和管理項目的依賴關系、模塊名稱及兼容性規則。以下是其核心作用與結構的詳細說明&#xff1a; 一、go.mod 文件的…

基于CATIA參數化管道建模的自動化插件開發實踐——NX建模之管道命令的參考與移植

引言 在機械設計領域&#xff0c;CATIA作為行業領先的CAD軟件&#xff0c;其強大的參數化建模能力備受青睞。本文介紹如何利用Python的PySide6框架與CATIA二次開發技術&#xff0c;開發一款智能管狀體生成工具。該工具借鑒了同類工業軟件NX的建模的管道命令&#xff0c;通過Py…

centos7使用yum快速安裝最新版本Jenkins-2.462.3

Jenkins支持多種安裝方式&#xff1a;yum安裝、war包安裝、Docker安裝等。 官方下載地址&#xff1a;https://www.jenkins.io/zh/download 本次實驗使用yum方式安裝Jenkins LTS長期支持版&#xff0c;版本為 2.462.3。 一、Jenkins基礎環境的安裝與配置 1.1&#xff1a;基本…