python爬蟲urllib 數據處理_Python 爬蟲筆記之Urllib的用法

python爬蟲urllib 數據處理_Python 爬蟲筆記之Urllib的用法

news/2025/8/18 1:10:59/文章來源:https://blog.csdn.net/weixin_39674414/article/details/111000593

urllib總共有四個子模塊,分別為request,error,parse,robotparser

request用于發送request(請求)和取得response(回應)

error包含request的異常,通常用于捕獲異常

parse用于解析和處理url

robotparser用于robot.txt文件的處理

urllib.request 模塊import urllib.request

response=urllib.request.urlopen("http://blog.youhaiqun.mom")

print(response.read().decode('utf-8'))

response是一個Httpresponse對象,它主要包含的方法有 read()

getheader(name),getheaders(),fileno()等函數

主要包含的屬性為status,msg,reason,closed,debuglevel

可以利用response.status,或response.read()來調用并獲取信息

urllib.request.urlopen()模塊urllib.request.urlopen(url,data,timeout,cafile,capath,cadefault,context)

利用URLopen打開url所對應的網址,data為附加參數,其必須為bytes型,(可以利用data來進行post方式的訪問)

urllib.parse.urlencode()模塊urllib.parse.urlencode({'word':'hello'})

可以把字典轉化為字符串

同時利用上面兩個模塊

data={'word':'hello'}

data=bytes(urllib.parse.urlencode(data),encoding='utf-8')

response=urllib.request.urlopen('http://blog.youhaiqun.mom',data,timeout=9)

urllib.request.Request()模塊

當需要在請求中加入header時就需要用到urllib.request.Request(),urllib.request.urlopen()只能利用data來傳遞附加的參數

request=urllib.request.Request(url,data,headers,method='get/post')

注意: 上面并沒有開始對url進行請求,只是構造了一個request,里面包含的headers,data等數據,需要經過下面的語句才算正式開始訪問

response=urllib.request.urlopen(request)

print(response.read().decode('utf-8'))

也可以通過add_header()來添加headers

request=urllib.request.Request(url,data,method='POST')

request.add_header('User-Agent','Mozilla/4.0(compatible;MSIE 5.5;Windows NT)')

urllib.request.Request的高級特征

對于cookie,代理的處理`

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/542338.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/542338.shtml
英文地址，請注明出處：http://en.pswp.cn/news/542338.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

語法分析-C語言程序

語法分析-C語言程序

⑴<C語言程序>——〉begin<語句串>end ⑵<語句串>——〉<語句>{；<語句>} ⑶<語句>——〉<賦值語句> ⑷<賦值語句>——〉ID：<表達式> ⑸<表達式>——〉<項>{<項> | -<項>…

閱讀更多...

python中對比數組長度_在Python中檢索數組長度的首選方法

python中對比數組長度_在Python中檢索數組長度的首選方法

python中對比數組長度The __len__() is a method on container types. However, python also provides another option of retrieving the length of an array, using the method len(). __len __()是關于容器類型的方法。但是，python還使用len()方法提供了另一個檢…

閱讀更多...

html window 屬性,html中window對象top 、self 、parent 等屬性

html window 屬性,html中window對象top 、self 、parent 等屬性

top 屬性返回最頂層的先輩窗口。該屬性返回對一個頂級窗口的只讀引用。如果窗口本身就是一個頂級窗口，top 屬性存放對窗口自身的引用。如果窗口是一個框架，那么 top 屬性引用包含框架的頂層窗口。下面的例子窗口是否在一個框架中，如果是&…

閱讀更多...

python隨機抽簽列表中的同學值日_神奇的大抽簽--Python中的列表_章節測驗,期末考試,慕課答案查詢公眾號...

python隨機抽簽列表中的同學值日_神奇的大抽簽--Python中的列表_章節測驗,期末考試,慕課答案查詢公眾號...

神奇的大抽簽--Python中的列表_章節測驗,期末考試,慕課答案查詢公眾號更多相關問題下圖表示幾個植物類群的進化關系。下列敘述不正確的是[ ]A．最先出現的植物類群是甲B．乙和丙都是由甲進化來的請結合下圖中的有關動物回答問題。(1)___的發育為不完全變態…

閱讀更多...

LightGBM中GBDT的實現

LightGBM中GBDT的實現

現在LightGBM開源了，這里將之前的一個文檔發布出來供大家參考，幫助更快理解LightGBM的實現，整體思路應該是類似的。 LightGBM優雅，快速，效果好，希望LightGBM越來越好:) LightGBM中GBDT的實現 http://www.do…

閱讀更多...

python逗號分隔符_在Python中用逗號將數字打印為數千個分隔符

python逗號分隔符_在Python中用逗號將數字打印為數千個分隔符

python逗號分隔符什么是質數？ (What is a prime number?) Many times, while writing the code we need to print the large number separated i.e. thousands separators with commas. 很多時候，在編寫代碼時，我們需要打印大量的分隔符&…

閱讀更多...

html頁面foot,HTML tfoot用法及代碼示例

html頁面foot,HTML tfoot用法及代碼示例

HTML中的標記用于提供頁腳內容組。此標記在帶有標題和正文的HTML表中使用，稱為“thead”和“tbody”。標記是表的子標記，是和的父標記。用法: // Table footer contents... 屬性：標記包含HTML4.1支持但HTML5不支持的許多屬性。align:設置文本…

閱讀更多...

Tensorflow學習筆記4：分布式Tensorflow

Tensorflow學習筆記4：分布式Tensorflow

簡介 Tensorflow API提供了Cluster、Server以及Supervisor來支持模型的分布式訓練。關于Tensorflow的分布式訓練介紹可以參考Distributed Tensorflow。簡單的概括說明如下： Tensorflow分布式Cluster由多個Task組成，每個Task對應一個tf.train.Server實例…

閱讀更多...

c語言指針訪問靜態變量_使用C中的指針訪問變量的值

c語言指針訪問靜態變量_使用C中的指針訪問變量的值

c語言指針訪問靜態變量As we know that a pointer is a special type of variable that is used to store the memory address of another variable. A normal variable contains the value of any type like int, char, float etc, while a pointer variable contains the me…

閱讀更多...

迭代器 java_Java設計模式8：迭代器模式

迭代器 java_Java設計模式8：迭代器模式

迭代器模式迭代器模式又叫做游標(Cursor)模式，其作用是提供一種方法訪問一個容器元素中的各個對象，而又不暴露該對象的內部細節。迭代器模式結構迭代器模式由以下角色組成：1、迭代器角色負責定義訪問和遍歷元素的接口2、具體迭代器角色實現迭…

閱讀更多...

html二級下拉菜單模板,基于jQuery實現二級下拉菜單效果

html二級下拉菜單模板,基于jQuery實現二級下拉菜單效果

本文通過代碼實例詳細介紹一下簡單的二級下拉菜單是如何實現的，當然還有更為復雜的二級菜單，不過先學會如何制作簡單的，分享給大家供大家參考，具體內容如下代碼如下：下拉菜單nav a{text-decoration:none;}nav>ul>…

閱讀更多...

給定一個整數判斷是否為素數_Ruby程序檢查給定數字是否為素數

給定一個整數判斷是否為素數_Ruby程序檢查給定數字是否為素數

給定一個整數判斷是否為素數檢查素數 (Checking prime number) Before getting into writing the code, let us understand what exactly the prime numbers are? So that we could easily design its logic and implement it in the code. Prime numbers are those numbers w…

閱讀更多...

python 正則findall右斜杠_python中正則表達式的使用

python 正則findall右斜杠_python中正則表達式的使用

本文將介紹幾個最常用的正則符號，以及正則表達式的應用場景。如果說【數學表達式】刻畫的是數字的內在規律，那么【正則表達式】則是用來刻畫和描述字符串內在規律的表達式。記得剛接觸python時學習過slice，replace，split等方法&am…

閱讀更多...

JavaScript | 用戶定義函數的一些示例

JavaScript | 用戶定義函數的一些示例

1) Design a function, print message and assign the function to a variable and print it like a function 1)設計一個功能，打印消息并將該功能分配給變量，然后像打印功能一樣打印 <html lang"en"><head><script>functi…

閱讀更多...

網易 html5,別再想不開做H5了

網易 html5,別再想不開做H5了

寫這篇文章的時候網易噠噠《飼養手冊》H5刷屏了，但我們依舊不建議品牌做H5。H5作為大眾傳播工具的時代，已經過去了。盡管去年有很多H5曾經刷屏過，但在當時我們就一直跟朋友說，不要再嘗試H5了，性價比根本算不過來&#…

閱讀更多...

python打開word后再關閉再打開出錯_用Python寫了個程序調用word，運行完后再手動打開word文檔就變慢了，這是為啥？...

python打開word后再關閉再打開出錯_用Python寫了個程序調用word，運行完后再手動打開word文檔就變慢了，這是為啥？...

公司歸檔文件比較麻煩，于是用Python寫了個程序自動歸檔，運行無錯誤。但是運行完后問題就來了，自己手動打開word文檔時速度變得奇慢，打開一個文檔需要1~2min,請各位同仁幫我看看。下為源代碼#歸檔.pyimport osimport refrom win32c…

閱讀更多...

編程 mcq_MCQ | 8255 PPI（可編程外圍接口）

編程 mcq_MCQ | 8255 PPI（可編程外圍接口）

編程 mcqQuestion 1: How many pins does the 8255 PPI IC contains? 問題1：8255 PPI IC包含多少個引腳？ 24 24 20 20 32 32 40 40 Answer: d. 40 答案：d。 40 Question 2: In which mode do all the Ports of the 8255 PPI work as Input…

閱讀更多...

flex 修改生成html,CSS Flex –動畫教程

flex 修改生成html,CSS Flex –動畫教程

如果一張圖片勝過千言萬語 —— 那么動畫呢？ Flex 無法通過文字或靜態圖像有效地完全解釋。為了鞏固你對flex的了解，我制作了這些動畫演示。注意 overflow: hidden 行為類型是默認值，因為 flex-wrap 還未設置。為了獲得更好的想法&#xff0c…

閱讀更多...

c#c#繼承窗體_C＃繼承能力問題和解答套裝5

c#c#繼承窗體_C＃繼承能力問題和解答套裝5

c#c#繼承窗體1) Which keyword is used to call a superclass constructor from child class? supertopconstbase Answer & Explanation Correct answer: 4base In C#.NET, base keyword is used to call a base class constructor from a derived class. 1)使用哪個關鍵字…

閱讀更多...

python php 網站_python php網站

python php 網站_python php網站

{"moduleinfo":{"card_count":[{"count_phone":1,"count":1}],"search_count":[{"count_phone":4,"count":4}]},"card":[{"des":"阿里技術人對外發布原創技術內容的最大平臺&…

閱讀更多...

最新文章