爬蟲學習(五)——百度貼吧的爬取

import os
import time
import urllib.request
import urllib.parse


# 輸入目標頁碼和吧名
def header():
url = "https://tieba.baidu.com/f?"
baming = input("請輸入要爬取的吧名")
start_page = int(input("請輸入起始頁"))
end_page = int(input("請輸入結束頁"))
# 對目標頁碼進行爬取
for page in range(start_page,end_page+1):
print("正在爬取第%s頁"%page)
request = headle_request(page,url,baming)
download(request,baming,page)
# 設置時間間隔,防止網站識別為惡意攻擊
time.sleep(2)


# 構建請求對象,拼接url
def headle_request(page,url,baming):
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}
pn = (page-1)*50
data = {
"kw": baming,
"ie": "utf8",
"pn": pn
}
data = urllib.parse.urlencode( data )
url += data
request = urllib.request.Request( url, headers=headers )
return request


# 根據請求對象下載指定的目標數據
def download(request,baming,page):
# 獲取響應數據
response = urllib.request.urlopen(request)
# 創建文件存儲的文件夾
if not os.path.exists(baming):
os.mkdir(baming)
# 拼接文件名
filename =baming+"第%s頁"%page+".html"
print(filename)
# 拼接文件路徑
filepath = os.path.join(baming,filename)
# 將相應的數據存儲起來
with open(filepath,"wb") as tf:
tf.write(response.read())
if __name__ == '__main__':
header()



轉載于:https://www.cnblogs.com/kuangkuangduangduang/p/10369636.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/449947.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/449947.shtml
英文地址,請注明出處:http://en.pswp.cn/news/449947.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

什么是嵌入式設備?/ 嵌入式設備的定義

什么是嵌入式設備?/ 嵌入式設備的定義 區別于通用計算機的其他設備都可以稱之為嵌入式設備 (個人電腦,服務器) 一段時期內,必備的硬件配置。 嵌入式開發包括哪些部分: 底層驅動開發: 關鍵字…

Linux mv命令、Linux cp命令、Linux scp命令

前些天發現了一個巨牛的人工智能學習網站,通俗易懂,風趣幽默,忍不住分享一下給大家。點擊跳轉到教程。 Linux mv命令用來為文件或目錄改名、或將文件或目錄移入其它位置。 語法 mv [options] source dest mv [options] source... director…

創業者談:畏懼失敗,但也要擁抱失敗

摘要:本文作者為Paydirt創始人Tristan Gamilis,他在文中分享了如何面對創業過程中的失敗。作為一個創業者,開始的時候并非全才,很多知識都是經歷了創業中的失敗,摸爬滾打之后才學會的。所以,我們在創業過程…

基于STM32F4移植W5500官方驅動庫ioLibrary_Driver(轉)

源: 基于STM32F4移植W5500官方驅動庫ioLibrary_Driver 參考: 基于STM32W5500 的Ethernet和Internet移植 Upgrade W5500 Throughput on Nucleo STM32F401RE Using SPI DMA

redis 資料

redis是什么: Redis is an open source, BSD licensed, advanced key-value store. It is often referred to as a data structure server since keys can contain strings, hashes, lists, sets and sorted sets. redis是開源,BSD許可,高級的key-value存儲系統. 可以用來存儲字…

Android應用開發——onStop的調用時機

onStop的調用時機,網上搜索到的說法大概是:“ onStop的調用是“The activity is no longer visible”,也就是完全不可見的時候調用的,這個完全不可見真的就是指視覺上的完全看不到而已,無論是按home鍵返回桌面&#xf…

UnaryOperator函數式接口

2019獨角獸企業重金招聘Python工程師標準>>> 這是一個函數式接口&#xff0c;因此可以用作lambda表達式或方法引用的賦值目標。 可以看到UnaryOperator<T>繼承了Function<T,T>接口&#xff0c;這里可是兩個T,T,還增加了static修飾的identity()方法。 然…

從程序員到項目經理

推薦研發工程師必看的內容 從程序員到項目經理 從程序員到項目經理”&#xff0c;這個標題讓我想起了很久以前一本書的名字《從Javascript到Java》。然而&#xff0c;從Javascript到Java充其量只是工具的更新&#xff0c;而從程序員到項目經理&#xff0c;卻是一個脫胎換骨的過…

linux--命令rcp和scp

前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 rcp代表“remote file copy”&#xff08;遠程文件拷貝&#xff09;。該命令用于在計算機之間拷貝文件。rcp命令有兩種格式。第一種格式…

Android Camera 2.0 Api

二次圖像處理 Camera2的API擴展了對YUV的支持&#xff0c;及圖像再處理支持。要知道是否據有這個能力&#xff0c;可以調getCameraCharacteristics()方法&#xff0c;檢查REPROCESS_MAX_CAPTURE_STALL這個鍵值 。如果設備支持再處理&#xff0c;則可以調用createReprocessableC…

scala-數組操作

package com.bigdataimport scala.collection.mutable.ArrayBufferobject ArrayO {def main(args: Array[String]): Unit {val arrayBuffer ArrayBuffer[Int]()//默認情況下都是在ArrayBuffer末尾增加元素arrayBuffer 1arrayBuffer (4,5,6,7,8,9,10)arrayBuffer Array(1,2…

spring cloud微服務分布式云架構 - Spring Cloud集成項目簡介

Spring Cloud集成項目有很多&#xff0c;下面我們列舉一下和Spring Cloud相關的優秀項目&#xff0c;我們的企業架構中用到了很多的優秀項目&#xff0c;說白了&#xff0c;也是站在巨人的肩膀上去整合的。在學習Spring Cloud之前大家必須了解一下相關項目&#xff0c;希望可以…

Nokia落寞身影下 三星成為全球最大手機廠商

摘要&#xff1a;在諾基亞統治全球最大手機廠商寶座長達14年后&#xff0c;三星今年首次取代諾基亞&#xff0c;成為全球最大手機廠商。據IHS iSuppli的數據顯示&#xff0c;三星預計今年手機出貨量將占全球29&#xff05;&#xff0c;而落寞的諾基亞市場份額將下降到24&#x…

Linux中cp和scp命令的使用方法

前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 Linux為我們提供了兩個用于文件copy的命令&#xff0c;一個是cp&#xff0c;一個是scp&#xff0c;但是他們略有不同。 cp --- 主要是用…

Django:學習筆記(2)——創建第一個應用

Django&#xff1a;學習筆記(2)——創建第一個應用 創建應用 在 Django 中&#xff0c;每一個應用都是一個 Python 包&#xff0c;并且遵循著相同的約定。Django 自帶一個工具&#xff0c;可以幫你生成應用的基礎目錄結構&#xff0c;這樣你就能專心寫代碼&#xff0c;而不是創…

dubbo源碼解析(十)遠程通信——Exchange層

遠程通訊——Exchange層 目標&#xff1a;介紹Exchange層的相關設計和邏輯、介紹dubbo-remoting-api中的exchange包內的源碼解析。前言 上一篇文章我講的是dubbo框架設計中Transport層&#xff0c;這篇文章我要講的是它的上一層Exchange層&#xff0c;也就是信息交換層。官方文…

嵌入式軟件開發工程師談軟件架構的設計

嵌入式軟件開發工程師談軟件架構的設計 注&#xff1a;此處嵌入式特指基于linux平臺&#xff0c;單片機和其他rtos不在討論范圍 筆者從事嵌入式軟件開發有6&#xff0c;7個年頭&#xff0c;bsp&#xff0c;驅動&#xff0c;應用軟件&#xff0c;android hall&#xff0c;fram…

為何獲得風險投資的公司多數倒閉了?

北京時間12月12日消息&#xff0c;據國外媒體報道&#xff0c;哈佛商學院的高級講師施克哈爾高希(Shikhar Ghosh)指出&#xff0c;風險投資領域的失敗案例比媒體報道的要多得多。 高希的研究表明&#xff0c;在風險資本支持的公司之中&#xff0c;有75%的公司從未向投資者返回過…

Linux rm命令、Linux touch命令、Linux tee命令

前些天發現了一個巨牛的人工智能學習網站&#xff0c;通俗易懂&#xff0c;風趣幽默&#xff0c;忍不住分享一下給大家。點擊跳轉到教程。 Linux rm命令用于刪除一個文件或者目錄。 語法 rm [options] name...[options] name... 參數&#xff1a; -i 刪除前逐一詢問確認。…

highCharts使用中問題總結

想出一張圖表&#xff0c;數據是多條線體&#xff0c;45天的數據展示最近15天的。并且每次展示其中一條。可以切換時間看前面的 或者后面的。最開始遇到的問題是&#xff0c;展示一條線體成功&#xff0c;但是在切換線體的時候&#xff0c;成功但是接著刷新到最開始的狀態。跟同…