下載nginx搭建的文件服務器(爬蟲)

下載nginx搭建的文件服務器(爬蟲)

windows版
需要下載python包:pip install requests

import requests
import re
import os#開始訪問的url地址,必須以/結尾
index_url = "https://www.aaa.com/aaaaa/"
#下載到本地的地址,必須以/結尾
local_address = "D:/up/"def getHtml(index_url,local_address):resp = requests.get(index_url)html_content = resp.text# 使用re.DOTALL標志使.匹配包括換行符在內的任何字符  pattern = re.compile(r'<a\s+[^>]*?>(.*?)</a>', re.DOTALL)matches = pattern.findall(html_content)for match in matches:if("../"!=match):if("/"==match[-1]):#遞歸dg_url = index_url+matchdg_local_address = local_address+matchgetHtml(dg_url,dg_local_address)else:hq_index_url = index_url+matchhq_local_address = local_address+matchprint(hq_index_url+"=========="+hq_local_address)downFile(hq_index_url,hq_local_address)# 獲取內容,并下載
def downFile(url,local_address):# 創建目錄# 分離目錄和文件名  directory, filename = os.path.split(local_address)  # 檢查目錄是否存在,如果不存在則創建  if not os.path.exists(directory):  os.makedirs(directory)  response = requests.get(url, stream=True)  # 使用stream=True以節省內存# 檢查響應狀態碼  if response.status_code == 200:  # 打開文件以二進制寫入模式  with open(local_address, 'wb') as f:  # 迭代響應內容  for chunk in response.iter_content(chunk_size=8192):  # 如果chunk存在,則寫入文件  if chunk:  f.write(chunk)  else:  print("下載出錯:"+url)getHtml(index_url,local_address)

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/web/39052.shtml
繁體地址,請注明出處:http://hk.pswp.cn/web/39052.shtml
英文地址,請注明出處:http://en.pswp.cn/web/39052.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

win10顯示毫秒-上午-下午及星期幾,24小時制

關于毫秒 winr regedit 計算機\HKEY_CURRENT_USER\SOFTWARE\Microsoft\Windows\CurrentVersion\Explorer\Advanced 新建ShowSecondsInSystemClock&#xff0c;編輯1顯示&#xff0c;不顯示就刪了它 然后重啟 資源管理器可能有多個全部重啟&#xff0c;就可以啦 根據自己喜好…

黨建科普3D數字化展館支持實時更新迭代

3D虛擬策展逐漸成為新時代下的主流方式&#xff0c;深圳華銳視點作為專業的web3d開發公司&#xff0c;具有專業化的3D數字化空間還原能力&#xff0c;能根據企業/個人不同需求和預算&#xff0c;為您打造純線上虛擬3D藝術展&#xff0c;讓您徹底擺脫實體美術館的限制&#xff0…

面試官:Java文件是如何被加載到內存中的?

面試連環call Java文件是如何被加載到內存中的&#xff1f;Java類的聲明周期都有哪些階段&#xff1f;JVM加載的class文件都有哪些來源&#xff1f;JVM在加載class文件時&#xff0c;何時判斷class文件的格式是否符合要求&#xff1f; 類生命周期 一個類從被加載到虛擬機內存…

【計算機體系結構】緩存的false sharing

在介紹緩存的false sharing之前&#xff0c;本文先介紹一下多核系統中緩存一致性是如何維護的。 目前主流的多核系統中的緩存一致性協議是MESI協議及其衍生協議。 MESI協議 MESI協議的4種狀態 MESI協議有4種狀態。MESI是4種狀態的首字母縮寫&#xff0c;緩存行的4種狀態分別…

【Linux】—Xshell、Xftp安裝

文章目錄 前言一、下載Xshell、Xftp二、安裝Xshell三、使用XShell連接Linux服務器四、修改windows的主機映射文件&#xff08;hosts文件&#xff09;五、遠程連接hadoop102/hadoop103/hadoop104服務器六、安裝Xftp 前言 XShell遠程管理工具&#xff0c;可以在Windows界面下來訪…

[數據集][目標檢測]螺絲螺母檢測數據集VOC+YOLO格式2400張2類別

數據集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路徑的txt文件&#xff0c;僅僅包含jpg圖片以及對應的VOC格式xml文件和yolo格式txt文件) 圖片數量(jpg文件個數)&#xff1a;2400 標注數量(xml文件個數)&#xff1a;2400 標注數量(txt文件個數)&#xff1a;2400 標注…

SpringBoot 整合 Minio 實現文件切片極速上傳技術

Centos7安裝Minio 創建目標文件夾 mkdir minio使用docker查看目標鏡像狀況 大家需要注意&#xff0c;此處我們首先需要安裝docker&#xff0c;對于相關安裝教程&#xff0c;大家可以查看我之前的文章&#xff0c;按部就班就可以&#xff0c;此處不再贅述&#xff01;&#x…

uniapp入門

一、新建項目 進入到主界面&#xff0c;左上角點擊新建——1.項目 輸入項目名稱&#xff0c;Vue版本選擇3 二、創建頁面 選中左側文件目錄里的pages文件夾&#xff0c;右鍵&#xff0c;選擇新建頁面 1輸入名稱 2選中“創建同名目錄” 3選擇模板&…

將json對象轉為xml進行操作屬性

將json對象轉為xml進行操作屬性 文章目錄 將json對象轉為xml進行操作屬性前端發送json數據格式寫入數據庫格式-content字段存儲&#xff08;varchar(2000)&#xff09;Question實體類-接口映射對象QuestionContent 接收參數對象DAO持久層Mapper層Service層Controller控制層接收…

《每天5分鐘用Flask搭建一個管理系統》第13章:性能優化

第13章&#xff1a;性能優化 13.1 性能優化的重要性 性能優化確保應用能夠處理高并發請求&#xff0c;減少響應時間&#xff0c;提高用戶體驗和應用的可擴展性。 13.2 Flask緩存機制 緩存是提高Web應用性能的關鍵技術之一&#xff0c;它可以減少數據庫查詢次數和服務器計算…

Java 開發環境配置

配置Java開發環境涉及幾個主要步驟&#xff0c;包括安裝Java Development Kit (JDK)、配置環境變量和選擇集成開發環境&#xff08;IDE&#xff09;。以下是詳細的配置步驟&#xff1a; ### 1. 安裝 Java Development Kit (JDK) 1. **下載 JDK**&#xff1a; 訪問 Oracle …

完全指南:在Linux上安裝和精通Conda

前言 Conda是一個強大的包管理和環境管理工具&#xff0c;特別適用于數據科學和機器學習項目。本文將詳細指導你在Linux系統上安裝、配置和充分利用Conda的方法。 步驟一&#xff1a;下載和安裝Conda 下載安裝包&#xff1a; wget https://repo.anaconda.com/miniconda/Minic…

普元EOS學習筆記-低開實現圖書的增刪改查

前言 在前一篇《普元EOS學習筆記-創建精簡應用》中&#xff0c;我已經創建了EOS精簡應用。 我之前說過&#xff0c;EOS精簡應用就是自己創建的EOS精簡版&#xff0c;該項目中&#xff0c;開發者可以進行低代碼開發&#xff0c;也可以進行高代碼開發。 本文我就記錄一下自己在…

Golang中swtich中如何強制執行下一個代碼塊

switch 語句中的 case 代碼塊會默認帶上 break&#xff0c;但可以使用 fallthrough 來強制執行下一個 case 代碼塊。 package mainimport ("fmt" )func main() {isSpace : func(char byte) bool {switch char {case : // 空格符會直接 break&#xff0c;返回 false…

2024年6月 | deepin 深度應用商店-應用更新記錄

新增應用 序號應用名稱depein 系統版本應用分類應用類型1bkViewer 照片瀏覽器deepin 20.9 deepin V23網絡應用wine291助手deepin 20.9 deepin V23編程開發wine3風云CAD轉換器deepin 20.9 deepin V23編程開發wine4Disk Savvydeepin 20.9 deepin V23系統工具wine5飛貓盤…

miniconda3 安裝jupyter notebook并配置網絡訪問

由于服務器安裝的miniconda3&#xff0c;無jupyter notebook&#xff0c;所以手工安裝jupyter notebook 1 先conda 安裝相關包 在base 環境下 conda install ipython conda install jupyter notebook 2 生成配置文件 jupyter notebook --generate-config Writing defaul…

Nginx 常用配置與應用

Nginx 常用配置與應用 官網地址&#xff1a;https://nginx.org/en/docs/ 目錄 Nginx 常用配置與應用 Nginx總架構 正向代理 反向代理 Nginx 基本配置反向代理案例 負載均衡 Nginx總架構 進程模型 正向代理 反向代理 Nginx 基本配置反向代理案例 負載均衡 Nginx 基本配置…

新人程序員接手丑陋的老代碼怎么辦?改還是不改......

許多小伙伴在初入職場的時候&#xff0c;都會遇到要接手老代碼的情況&#xff0c;那么問題來了&#xff0c;如果老代碼十分丑陋&#xff0c;你是改還是不改&#xff1f; 不改吧&#xff0c;心里難受&#xff1b;改吧&#xff0c;指不定會遇到什么情況&#xff0c;比如…… 1.…

【嫦娥四號】月球著陸器中子和劑量測量(LND)實驗

一、引言 嫦娥四號任務是中國月球探測計劃的重要里程碑&#xff0c;實現了人類首次在月球背面軟著陸&#xff0c;并展開了月面巡視和中繼通信。本文所描述的嫦娥四號著陸器上的中子與劑量測定實驗&#xff08;Lunar Lander Neutrons and Dosimetry Experiment, LND&#xff09…

【雷豐陽-谷粒商城 】【分布式高級篇-微服務架構篇】【17】認證服務01

持續學習&持續更新中… 守破離 【雷豐陽-谷粒商城 】【分布式高級篇-微服務架構篇】【17】認證服務01 環境搭建驗證碼倒計時短信服務郵件服務驗證碼短信形式&#xff1a;郵件形式&#xff1a; 異常機制MD5參考 環境搭建 C:\Windows\System32\drivers\etc\hosts 192.168.…