python獲取網頁內容 靠譜的做法

獲取網頁內容 response = requests.get(url, verify=False) 通過這種方式下載網址不太靠譜, 容易出 ssl錯誤 requests.exceptions.SSLError: HTTPSConnectionPool(host='agri.hainan.gov.cn', port=443): Max retries exceeded with url: /hnsnyt/xxgk/gfxwj/index_1.html (Caused by SSLError(SSLEOFError(8, '[SSL: UNEXPECTED_EOF_WHILE_READING] EOF occurred in violation of protocol (_ssl.c:1006)'))) , 下面是給出靠譜的做法

如果你希望使用更加安全和可靠的方式下載網頁內容,并且希望避免 requests 中的 SSL 問題,有幾個替代方案和改進方法,可以更好地處理 SSL 驗證、證書問題等。以下是幾種更安全的方法:

方法 1: 使用 httpx

httpxrequests 的一個替代庫,支持異步請求,也有更好的 SSL 驗證功能。httpx 默認會進行 SSL 證書驗證,但可以在需要時進行配置。

安裝 httpx

pip install httpx

使用示例:

import httpxurl = 'https://agri.hainan.gov.cn/hnsnyt/xxgk/gfxwj/index_1.html'# 創建一個客戶端對象
with httpx.Client() as client:response = client.get(url)print(response.text)

如果你遇到 SSL 錯誤,可以通過調整 verify 參數來禁用 SSL 驗證,盡管這仍然不推薦用于生產環境:

response = client.get(url, verify=False)

方法 2: 使用 urllib3

urllib3 是 Python 的一個高級 HTTP 客戶端,處理 SSL 的方式比 requests 更加底層,適合需要精細控制 SSL 配置的場景。你可以通過 urllib3 來下載網頁并管理 SSL 設置。

安裝 urllib3

pip install urllib3

使用示例:

import urllib3# 創建一個 PoolManager,支持更細粒度的控制
http = urllib3.PoolManager()url = 'https://agri.hainan.gov.cn/hnsnyt/xxgk/gfxwj/index_1.html'# 禁用 SSL 驗證(如果不關心安全)
response = http.request('GET', url, retries=3, timeout=5.0)
print(response.data.decode('utf-8'))

如果你希望進行更精細的 SSL 配置,可以直接使用 SSLContext 來設置證書驗證。

方法 3: 使用 aiohttp (異步請求)

如果你需要進行多個異步 HTTP 請求,aiohttp 是一個非常強大的異步 HTTP 客戶端庫,支持協程,可以讓你以更高效的方式進行網絡請求。它也有更好的 SSL 處理機制。

安裝 aiohttp

pip install aiohttp

使用示例:

import aiohttp
import asyncioasync def fetch(url):async with aiohttp.ClientSession() as session:async with session.get(url) as response:return await response.text()url = 'https://agri.hainan.gov.cn/hnsnyt/xxgk/gfxwj/index_1.html'# 異步運行
html = asyncio.run(fetch(url))
print(html)

如果遇到 SSL 問題,可以通過 verify_ssl 參數來禁用 SSL 驗證:

async with session.get(url, ssl=False) as response:

方法 4: 使用 pycurl 庫(更底層,支持更多配置)

pycurl 是 Python 對 libcurl 的封裝,提供了更多的配置選項,特別適合對 SSL 證書和協議進行精細控制。

安裝 pycurl

pip install pycurl

使用示例:

import pycurl
from io import BytesIOurl = 'https://agri.hainan.gov.cn/hnsnyt/xxgk/gfxwj/index_1.html'# 創建一個緩沖區來接收響應
buffer = BytesIO()# 創建 cURL 對象
c = pycurl.Curl()
c.setopt(c.URL, url)
c.setopt(c.WRITEDATA, buffer)# 禁用 SSL 驗證
c.setopt(c.SSL_VERIFYPEER, 0)  # 不驗證對方的證書
c.setopt(c.SSL_VERIFYHOST, 0)  # 不驗證主機# 執行請求
c.perform()# 獲取結果
response = buffer.getvalue().decode('utf-8')
print(response)

方法 5: 使用 certifi 自定義證書路徑

如果 SSL 錯誤是由于缺少根證書,你可以通過 certifi 來確保使用最新的證書鏈。 certifi 提供了 Mozilla 的證書集合,可以幫助你避免 SSL 錯誤。

安裝 certifi

pip install certifi

然后你可以在請求中顯式地指定證書路徑,確保使用最新的根證書。

import requests
import certifiurl = 'https://agri.hainan.gov.cn/hnsnyt/xxgk/gfxwj/index_1.html'
response = requests.get(url, verify=certifi.where())  # 使用 certifi 的證書路徑
print(response.text)

總結:

  • httpx: 推薦用 httpx 庫來替代 requests,它有更強的 SSL 處理和更高的靈活性。
  • urllib3: 提供更多底層控制,適合精細的 SSL 配置。
  • aiohttp: 異步請求,適合進行并發下載操作。
  • pycurl: 如果你需要完全控制 HTTP 請求和 SSL 配置,pycurl 是非常強大的選擇。
  • certifi: 確保 SSL 證書驗證使用最新的證書集。

這些方案都能夠在保證安全性的前提下處理 SSL 問題。如果你遇到的主要問題是 SSL 證書問題,確保使用較新的證書鏈,并避免在生產環境中禁用 SSL 驗證。

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/896157.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/896157.shtml
英文地址,請注明出處:http://en.pswp.cn/news/896157.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

MFC中CString的Format、與XML中的XML_SETTEXT格式化注意

1、在MFC中導入 "msxml6.dll",并使用其中的XML_SETTEXT函數,此調用在進行格式化的時候,調用的還是CString.Format()函數! 2、用double類型的數據,格式化整形數%d之前,必須將double強轉為int&…

Linux-C-函數棧-SP寄存器

sp(Stack Pointer,棧指針)是計算機體系結構中一個非常重要的寄存器,下面將詳細介紹其作用和原理。 作用 1. 管理棧內存 棧是一種后進先出(LIFO,Last In First Out)的數據結構,在程…

從零開始用react + tailwindcs + express + mongodb實現一個聊天程序(一)

項目包含5個模塊 1.首頁 (聊天主頁) 2.注冊 3.登錄 4.個人資料 5.設置主題 一、配置開發環境 建立項目文件夾 mkdir chat-project cd chat-project mkdir server && mkdir webcd server npm init cd web npm create vitelatest 創建前端項目時我們選擇javascrip…

深入理解 QObject的作用

QObject 作為 Qt 庫中所有對象的基類,其地位無可替代。幾乎 Qt 框架內的每一個類,無論是負責構建用戶界面的 QWidget,還是專注于數據處理與呈現的 QAbstractItemModel,均直接或間接繼承自 QObject。這種繼承體系賦予 Qt 類庫高度的…

22爬蟲:使用Drission Page的兩個案例

案例一:使用DrissionPage抓取BOSS上的招聘信息 使用requests獲取BOSS網站上的內容是非常困難的,但是通過網頁自動化工具DrissionPage或者是Playwright或者是Seleenium是非常容易的,接下來我們就給出使用DrissionPage爬取BOSS網站python招聘的…

Ubuntu 下 nginx-1.24.0 源碼分析 - ngx_atoi 函數

ngx_atoi 聲明在 src/core/ngx_string.h ngx_int_t ngx_atoi(u_char *line, size_t n); 定義在 src/core/ngx_string.c ngx_int_t ngx_atoi(u_char *line, size_t n) {ngx_int_t value, cutoff, cutlim;if (n 0) {return NGX_ERROR;}cutoff NGX_MAX_INT_T_VALUE / 10;cutlim…

具有整合各亞專科醫學領域知識能力的AI智能體開發綱要(2025版)

整合各亞專科醫學領域知識能力的AI代理的開發與研究 一、引言 1.1 研究背景 在科技飛速發展的當下,人工智能(AI)已成為推動各行業變革的關鍵力量,醫療領域也不例外。近年來,AI 在醫療行業的應用取得了顯著進展,從醫學影像診斷到疾病預測,從藥物研發到個性化醫療,AI 技…

如何設計app測試用例

功能測試 測試方法:等價類劃分法、邊界值法、場景法、因果圖法。優先級設定:核心業務功能設為高優先級。需求覆蓋 正向場景、反向場景、關聯接口串場景 與后端開發確認測試用例是否全面覆蓋后端邏輯。和產品確認用例是否覆蓋本次需求,以及是否…

YOLO11 【四】 【DNF制作自己的數據集,切割視頻以及labelimg 閃退問題】

一、問題labelimg 閃退 一點w打標 labelimg就閃退 **原因 : python 版本太高 ** 解決辦法:單獨創建一個虛擬環境用于打標 conda create -n labelimg python3.9 二、使用python腳本切割視頻 # -*- coding: utf-8 -*- import cv2 import osdef video_…

[MDM 2024]Spatial-Temporal Large Language Model for Traffic Prediction

論文網址:[2401.10134] Spatial-Temporal Large Language Model for Traffic Prediction 論文代碼:GitHub - ChenxiLiu-HNU/ST-LLM: Official implementation of the paper "Spatial-Temporal Large Language Model for Traffic Prediction" …

k2路由器登錄校園網

教程1刷入Breed,并手動刷入Padavan固件:斐訊K1、K2、K2P 刷機、刷入Breed 輔助工具 | tb (tbvv.net) Padavan下載網址: 我用的是: Padavan 登錄的網址是 192.168.123.1 Padavan配置教程: 先用網線連上校園網&#…

多源 BFS 算法詳解:從原理到實現,高效解決多源最短路問題

多源 BFS 是一種解決 邊權為 1 的多源最短路問題 的高效算法。其核心思想是將所有源點視為一個“超級源點”,通過一次 BFS 遍歷即可計算所有節點到最近源點的最短距離。以下從原理、實現和代碼示例三個方面深入講解: 目錄 一、原理分析 1. 單源 BFS vs…

【藍橋杯集訓·每日一題2025】 AcWing 6123. 哞叫時間 python

6123. 哞叫時間 Week 1 2月18日 農夫約翰正在試圖向埃爾茜描述他最喜歡的 USACO 競賽,但她很難理解為什么他這么喜歡它。 他說「競賽中我最喜歡的部分是貝茜說 『現在是哞哞時間』并在整個競賽中一直哞哞叫」。 埃爾茜仍然不理解,所以農夫約翰將競賽以…

C++,設計模式,【工廠方法模式】

文章目錄 如何用汽車生產線理解工廠方法模式?一、傳統生產方式的困境二、工廠方法模式解決方案三、模式應用場景四、模式優勢分析五、現實應用啟示?C++,設計模式,【目錄篇】 如何用汽車生產線理解工廠方法模式? 某個早晨,某車企CEO看著會議室里堆積如面的新車訂單皺起眉…

貪心算法

int a[1000], b5, c8; swap(b, c); // 交換操作 memset(a, 0, sizeof(a)); // 初始化為0或-1 引導問題 為一個小老鼠準備了M磅的貓糧,準備去和看守倉庫的貓做交易,因為倉庫里有小老鼠喜歡吃的五香豆,第i個房間有J[i] 磅的五香豆&#xf…

機器學習·數據處理

前言 對于大規模數據,我們經常會使用python內置函數或者編寫腳本進行批量化處理,從而提高后續使用算法的效率。 1. 正則表達式 定義:用于檢索、替換符合某個模式的文本,是文本預處理常用技術。基本語法 符號描述.匹配除換行符 …

大廠出品!三個新的 DeepSeek 平替網站

前幾天給大家分享了幾個 DeepSeek 免費平替網站,今天又來更新啦。 新增了以下三個平臺:火山引擎、知乎直達、百度搜索。 經過實際測試,這幾個平臺的服務響應速度快,穩定性表現優異,基本不會出現宕機或服務器繁忙的情…

[創業之路-321]:創新開拓思維和經營管理思維的比較

目錄 一、概述 1.1、定義與內涵 1、創新開拓思維: 2、經營管理思維: 1.2、特點與優勢 1、創新開拓思維的特點與優勢: 2、經營管理思維的特點與優勢: 3、應用場景與限制 4、總結 二、創新開拓思維與經營管理思維&#xf…

《深度學習實戰》第1集:深度學習基礎回顧與框架選擇

本專欄系列博文旨在幫助讀者從深度學習的基礎知識逐步進階到前沿技術,涵蓋理論、實戰和行業應用。每集聚焦一個核心知識點,并結合實際項目進行實踐,避免空談理論,簡潔明快,快速切入代碼,所有代碼都經過驗證…

經典復古嘻哈說唱朋克風格專輯海報標題設計psai英文字體安裝包 Punk Of Sad — Ransom Font

Punk Of Sad 將確保您忘記所有簡潔的線條和企業潤色。這種經典的贖金風格字體是一封寫給 DIY 文化的情書,誕生于雜志、演出海報和地下場景的原始能量的剪切和粘貼混亂。每個字母都是不可預測的,都帶有叛逆的邊緣。 這種字體有三種不同的樣式 – Regular…