python 點擊按鈕采集圖片_python多線程采集圖片

cmd中運行

>python untitled2.py??? 圖片的網站

import requests

import threading

from bs4 import BeautifulSoup

import sys

import os

if len(sys.argv) != 2:

print("Usage : " )

print(" python main.py [URL]" )

exit(1)

# config-start

url = sys.argv[1]

threadNumber = 20

# 設置線程數 # config-end

def getContent(url):

try:

response = requests.get(url)

response.raise_for_status()

response.encoding = response.apparent_encoding

return response.text

except Exception? as e:

print(e)

return str(e)

def getTitle(soup):

try:

return soup.title.string

except:

return "UnTitled"

def getImageLinks(soup):

imgs = soup.findAll("img")

result = []

for img in imgs:

try:

src = img['src']

if src.startswith("http"):

result.append(img['src'])

else:

result.append(domain + img['src'])

except:

continue

return result

def makeDirectory(dicName):

if not os.path.exists(dicName):

os.mkdir(dicName)

def downloadImage(imgUrl,savePath):

local_filename = imgUrl.split('/')[-1]

local_filename = formatFileName(local_filename)

r = requests.get(imgUrl, stream=True)

counter = 0

if not savePath.endswith("/"):

savePath += "/"

f = open(savePath + local_filename, 'wb')

for chunk in r.iter_content(chunk_size=1024):

if chunk:

f.write(chunk)

f.flush()

counter += 1

f.close()

def formatFileName(fileName):

fileName = fileName.replace("/","_")

fileName = fileName.replace("\\","_")

fileName = fileName.replace(":","_")

fileName = fileName.replace("*","_")

fileName = fileName.replace("?","_")

fileName = fileName.replace("\"","_")

fileName = fileName.replace(">","_")

fileName = fileName.replace("

fileName = fileName.replace("|","_")

fileName = fileName.replace(" ","_")

return fileName

def threadFunction(imgSrc,directoryName):

downloadImage(imgSrc,directoryName)

class myThread (threading.Thread):

def __init__(self, imgSrc, directoryName):

threading.Thread.__init__(self)

self.imgSrc = imgSrc

self.directoryName = directoryName

def run(self):

threadFunction(self.imgSrc, self.directoryName)

def getPrefix(url):

# http://doamin/xxx.jpg

return ''.join(i+"/" for i in url.split("/")[0:4])

def getDomain(url):

return ''.join(i+"/" for i in url.split("/")[0:3])

content = getContent(url)

prefix = getPrefix(url)

domain = getDomain(url)

soup = BeautifulSoup(content, "html.parser")

images = getImageLinks(soup)

title = getTitle(soup)

title = formatFileName(title)

print(u"頁面標題 : " , title )

print(u"本頁圖片數量 :",len(images))

print(u"正在創建文件夾以用來保存所有圖片")

makeDirectory(title)

threads = []

for image in images:

print(u"圖片地址 : " + image)

threads.append(myThread(image, title))

for t in threads:

t.start()

while True:

if(len(threading.enumerate()) < threadNumber):

break

print(u"所有圖片已加入下載隊列 ! 正在下載...")

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/276279.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/276279.shtml
英文地址,請注明出處:http://en.pswp.cn/news/276279.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

一起手寫Vue3核心模塊源碼,掌握閱讀源碼的正確方法

最近和一個獵頭聊天&#xff0c;說到現在前端供需脫節的境況。一方面用人方招不到想要的中高級前端&#xff0c;另一方面市場上有大量初級前端薪資要不上價。特別是用 Vue 框架的&#xff0c;因為好上手&#xff0c;所以很多人將 Vue 作為入門框架&#xff0c;但學得深的人并不…

jquery|javascript 回車事件

轉載鏈接&#xff1a;http://www.cnblogs.com/wenbo/archive/2011/08/20/2147014.html 轉載鏈接: http://www.2cto.com/kf/201202/119741.html jquery實現回車事件&#xff0c;代碼如下&#xff1a; 全局&#xff1a; $(function(){ document.onkeydown function(e){…

【Vegas原創】ASP 0131 不允許父路徑的解決

現象&#xff1a; Active Server Pages 錯誤 ASP 0131 不允許的父路徑 /admin/login.asp&#xff0c;行 2 包含文件 ../include/config.asp 不能用 .. 表示父目錄。 解決方案&#xff1a; IIS6>站點屬性>主目錄>配置>選項>啟用父路徑 轉載于:https://www.cnblog…

騰訊正式宣布成立技術委員會,要對組織架構下狠手

2019 年伊始&#xff0c;社交巨人騰訊正式宣布成立技術委員會&#xff0c;計劃在未來發力內部代碼的開源和協同&#xff0c;投入更多資金和精力在技術建設上。BAT 三家里一直被詬病技術建設落后的騰訊&#xff0c;終于開始補足自己的短板。這會對騰訊自身帶來什么&#xff1f;又…

2020 前端技術發展回顧

大家好&#xff0c;我是若川&#xff0c;今天給大家分享一篇來自阿里媽媽前端快爆的好文。另外&#xff0c;偷偷告訴你&#xff0c;截止今晚9點 點此抽獎送紅包還送3本比紅寶書還貴的書可以點擊文章末尾閱讀原文直達知乎鏈接&#xff0c;以下是正文2020 終究是一個不平凡的一年…

php驗證碼函數 使用imagestring() imagefttext()設置字體大小

轉載路徑&#xff1a;http://hi.baidu.com/asdasd_cn/item/62977d1e26ca36e85e53b142 生成驗證碼圖片的兩個函數 第一個是用imagestring bool imagestring ( resource $image , int $font , int $x , int $y , string $s , int $col ) imagestring() 用 col …

提取地圖中道路_非機器學習方法·從遙感影像中提取道路

本科低年級曾經做過一個提取道路線的題目。提供的數據&#xff1a;老師給我們了一幅學校周邊地區的影像&#xff0c;包括RGBInfrared四個波段。一開始使用的方法&#xff1a;當時尚青澀的我和小伙伴們一起使用KMEANS、閾值分割等等方法試圖將那道路從影像中分離出來。遇到的問題…

圖片尺寸自適應

圖片尺寸自適應 οnlοad"javascript:if(this.height>this.width){this.height100}else{this.width100} 轉載于:https://www.cnblogs.com/TangZhongxin/archive/2009/12/14/3942483.html

第一章知識點

第一章知識點 一&#xff1a;SQL語言 1&#xff0c;結構化查詢語言&#xff0c;是關系數據庫的標準語言 2&#xff0c;分類&#xff1a; 2.1&#xff1a;數據操作語言&#xff1a;DML&#xff1b;包括&#xff1a;即增刪查改&#xff1b;insert&#xff0c;update&#xff0c;d…

2021年,推薦這幾個優質公眾號碎片化學習

2021 年了&#xff0c;前端技術日新月異&#xff0c;發展迅速&#xff0c;前端公眾號是不是感覺越來越多了&#xff1f;在著辭舊迎新之際&#xff0c;這里盤點幾個前端開發工程師 2021 年必須關注的優質公眾號&#xff0c;希望對你有所幫助。大家可以像我一樣&#xff0c;利用碎…

php 處理表單里面的 單雙引號

轉載鏈接&#xff1a;http://developer.51cto.com/art/200911/165392.htm 我們今天要向大家介紹的是PHP magic_quotes_gpc的具體使用方法。大家都知道在PHP中一個特殊的函數魔術函數&#xff0c;它在引用的過程中只有在傳遞$_GET,$_POST,$_COOKIE時才會發生作用。 PHP函數preg…

阿里云插件新版發布,多特性助力提升開發者體驗

好消息&#xff01;阿里云 Cloud Toolkit 新版本于近日正式發布&#xff0c;推出了面向 IntelliJ 和 Eclipse 兩個平臺的新款插件&#xff0c;多個重大特性&#xff0c;持續提升開發者體驗&#xff0c;本文將帶大家快速預覽該新版本。 本文只挑選下面三個重大特性進行解讀&…

海鷗表表帶太長了怎么拆_表帶安裝,表帶太長了,怎么拆解和安裝?

表帶太長了&#xff0c;怎么拆解和安裝&#xff1f;1、準備拆表帶前請看清楚表帶背面的箭頭。2、有箭頭的帶粒是可拆卸的。3、擰松拆帶器把手&#xff0c;將表帶放入表槽&#xff0c;并保持拆帶器的鋼針對準針孔&#xff0c;如圖二&#xff0c;且拆帶器的鋼針順著箭頭的指示方向…

python類庫31[文件和目錄os+os.path+shutil]

一 常用函數 os模塊 os.sep 表示默認的文件路徑分隔符&#xff0c;windows為\, linux為/os.walk(spath): 用來遍歷目錄下的文件和子目錄os.listdir(dirname)&#xff1a;列出dirname下的目錄和文件os.mkdir() &#xff1a; 創建目錄os.makedirs(): 創建目錄&#xff0c;包含中間…

上一輪中獎信息公布

大家好&#xff0c;我是若川&#xff0c;抽獎活動其實挺耗時耗力的&#xff0c;尤其是留言和在看抽獎。比如我這篇文章寫完就已經23:50了。特別想說的是&#xff1a;有126人點擊了在看&#xff0c;但我的好友展示只有93人在看。說明還有30多人點擊了在看&#xff0c;但忘記加我…

css判斷不同分辨率顯示不同寬度布局實現自適應寬度

轉載鏈接&#xff1a;http://www.jb51.net/css/151312.html 點評&#xff1a;CSS判斷不同分辨率瀏覽器&#xff08;顯示屏幕&#xff09;顯示不同寬度布局CSS3技術支持IE6到IE8。將用到css3 media樣式進行判斷&#xff0c;但IE9以下版本不支持CSS3技術&#xff0c;這里DIVCSS5給…

安卓相機 高幀率_Android MediaCodec和攝像頭:如何實現更高的幀速率從相機獲取幀原始數據?...

攝像機API有兩個不同的參數用于控制幀速率&#xff1a;setPreviewFrameRate,它采用單幀速率值并且不推薦使用,setPreviewFpsRange采用一系列FPS值,是當前推薦的控制.單FPS設置控制不充分的原因是,有時您希望相機在黑暗條件下降低幀速率以使取景器保持明亮(靜態相機取景器就是這…

開發、測試與QA的區別以及其他

覺得這個比喻比較新穎&#xff0c;覺得蠻有意思的&#xff0c;故轉自過來。 最近部門中有同事在問這個問題&#xff0c;我想應該還是有滿多人對這三個角色的定位還不是很清楚&#xff0c;因此就這三個角色談談我個人的認識。 網絡上關于這三種角色的定義已經夠多&#xff0c;在…

CentOS7Jenkins安裝

2019獨角獸企業重金招聘Python工程師標準>>> CentOS7Jenkins安裝 2017年05月07日 20:20:32 申明霜 閱讀數&#xff1a;13945 版權聲明&#xff1a;本文為博主原創文章&#xff0c;未經博主允許不得轉載。 https://blog.csdn.net/sms15732621690/article/details/713…

2020 全球 JS 現狀調查報告

大家好&#xff0c;我是若川。偷偷告訴你&#xff0c;今天推文的第二條是在我的公眾號回復「網盤」免費領取百度網盤會員&#xff0c;歡迎大家分享轉發。給大家分享一篇好文&#xff0c;往期類似好文&#xff1a;2020 前端技術發展回顧2020年大前端技術趨勢解讀以下是正文&…