python--批量下載豆瓣圖片

溜達豆瓣的時候，發現一些圖片，懶得一個一個扒，之前寫過c#和python版本的圖片下載，因此拿之前的Python代碼來改了改，折騰出一個豆瓣版本，方便各位使用

# -*- coding:utf8 -*-
import urllib2, urllib, socket
import re
import requests
from lxml import etree
import os, timeDEFAULT_DOWNLOAD_TIMEOUT = 30class AppURLopener(urllib.FancyURLopener):version = "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT)"def check_save_path(save_path):if not os.path.exists(save_path):os.makedirs(save_path)def get_image_name(image_link):file_name = os.path.basename(image_link)return file_namedef save_image1(image_link, save_path):file_name = get_image_name(image_link)file_path = save_path + "\\" + file_nameprint("準備下載{0} 到{1}".format(image_link, file_path))try:urllib._urlopener = AppURLopener()socket.setdefaulttimeout(DEFAULT_DOWNLOAD_TIMEOUT)urllib.urlretrieve(url=image_link, filename=save_path)return Trueexcept Exception, ex:print(ex.args)print("下載文件出錯:{0}".format(ex.message))return Falsedef save_image(image_link, save_path):file_name = get_image_name(image_link)file_path = save_path + "\\" + file_nameprint("準備下載{0} 到{1}".format(image_link, file_path))try:file_handler = open(file_path, "wb")image_handler = urllib2.urlopen(url=image_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read()file_handler.write(image_handler)return Trueexcept Exception, ex:print("下載文件出錯:{0}".format(ex.message))return Falsedef get_thumb_picture_link(thumb_page_link):try:html_content = urllib2.urlopen(url=thumb_page_link, timeout=DEFAULT_DOWNLOAD_TIMEOUT).read()html_tree = etree.HTML(html_content)# print(str(html_tree))link_tmp_list = html_tree.xpath('//div[@class="photo_wrap"]/a[@class="photolst_photo"]/img/@src')page_link_list = []for link_tmp in link_tmp_list:page_link_list.append(link_tmp)return page_link_listexcept Exception, ex:print(ex.message)return []def download_pictures(album_link, min_page_id, max_page_id, picture_count_per_page, save_path):check_save_path(save_path)min_page_id = 0while min_page_id < max_page_id:thumb_page_link = album_link + "?start={0}".format(min_page_id * picture_count_per_page)thumb_picture_links = get_thumb_picture_link(thumb_page_link)for thumb_picture_link in thumb_picture_links:full_picture_link = thumb_picture_link.replace("photo/lthumb", "photo/large")save_flag = save_image(image_link=full_picture_link, save_path=save_path)if not save_flag:full_picture_link = thumb_picture_link.replace("photo/thumb", "photo/photo")save_image(image_link=full_picture_link, save_path=save_path)time.sleep(1)min_page_id += 1print("下載完成")# 設置圖片保存的本地文件夾
save_path = "J:\\douban\\gugu"
# 設置相冊地址，注意以反斜杠結尾
album_link = "https://www.douban.com/photos/album/1625969357/"
# 設置相冊總頁數
max_page_id = 11
# 設置每頁圖片數量，默認為18張
picture_count_per_page = 18download_pictures(album_link=album_link,min_page_id=1,max_page_id=max_page_id,picture_count_per_page=picture_count_per_page,save_path=save_path)

=============================================================

相對urllib2來說，urllib 真的比較坑，如果不設置User-Agent，下載速度會超慢無比，另外還需要調用socket模塊來設置超時時間，比較折騰，最終可能還會踩到其他坑里去，比如我下著下著就被豆瓣給‘屏蔽’啦，so建議使用urllib2。

相關參考鏈接：

http://www.jb51.net/article/57239.htm

http://www.crifan.com/use_python_urllib-urlretrieve_download_picture_speed_too_slow_add_user_agent_for_urlretrieve/comment-page-1/

=============================================================

國慶最后一天，祝各位國慶快樂！

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/542482.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/542482.shtml
英文地址，請注明出處：http://en.pswp.cn/news/542482.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！