使用python做最簡單的爬蟲

使用python做最簡單的爬蟲

--之心

#第一種方法
import urllib2 #將urllib2庫引用進來
response=urllib2.urlopen("http://www.baidu.com") #調用庫中的方法,將請求回應封裝到response對象中
html=response.read() #調用response對象的read()方法,將回應字符串賦給hhtml變量
print html #打印出來



#第二中方法
import urllib2
req=urllib2.Request("http://ww.baidu.com")
response=urllib2.urlopen(req)
html = response.read()
print html

一般情況下,上面的爬蟲,如果大量爬行,會被限制訪問,所以要偽裝成瀏覽器進行訪問
這里用偽裝成IE9.0進行訪問


#要求請的url地址
import urllib2
url="http://www.baidu.com"
#要偽裝的瀏覽器user_agent頭
user_agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36;"
#創建字典,使請求的headers中的’User-Agent‘:對應user_agent字符串
headers={'User-Agent':user_agent}
#新建一個請求,將請求中的headers變換成自己定義的
req =urllib2.Request(url,headers=headers)
#請求服務器,得到回應
response=urllib2.urlopen(req)
#得到回應內容
the_page=response.read()
#打印結果
print the_page

轉載于:https://www.cnblogs.com/DaoXin-WXR/p/8012968.html

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。
如若轉載,請注明出處:http://www.pswp.cn/news/453472.shtml
繁體地址,請注明出處:http://hk.pswp.cn/news/453472.shtml
英文地址,請注明出處:http://en.pswp.cn/news/453472.shtml

如若內容造成侵權/違法違規/事實不符,請聯系多彩編程網進行投訴反饋email:809451989@qq.com,一經查實,立即刪除!

相關文章

SurfaceView介紹

SurfaceView介紹 通常情況程序的View和用戶響應都是在同一個線程中處理的,這也是為什么處理長時間事件(例如訪問網絡)需要放到另外的線程中去(防止阻塞當前UI線程的操作和繪制)。但是在其他線程中卻不能修改UI元素&…

產品與市場,究竟哪一個重要

上篇我們講到B2C繼B2B和C2C紅透之后,也正在迅速的竄紅。這一看法可不是我老邢杜撰,憑空想出來的,我們也可以從近期的主要媒體雜志上看到這個彌端。《二十一世紀報道》、《創業家》、《市場與營銷》這些經濟類雜志,均用大幅篇幅甚至…

enumerate()使用

enumerate()使用 如果對一個列表,既要遍歷索引又要遍歷元素時,首先可以這樣寫: list1 ["這", "是", "一個", "測試"] for i in range (len(list1)): print i ,list1[i] 上述方法有些累贅&#xff0…

php在window,php在window上的問題

C:/php-7/php-cgi.exe -b 127.0.0.1:9000 -c C:/php-7/php.ini用以上方式打開php的話,會自動的關閉,到處查了后說什么東西默認是500次,到了的話cgi就會關閉所以才想到用以下的批處理辦法去解決echo offecho Starting PHP FastCGI...set PHP_F…

(三)SpringBoot之配置文件詳解:Properties和YAML

一、配置文件的生效順序,會對值進行覆蓋: 1. TestPropertySource 注解2. 命令行參數3. Java系統屬性(System.getProperties())4. 操作系統環境變量5. 只有在random.*里包含的屬性會產生一個RandomValuePropertySource6. 在打包的j…

fscanf()php,fscanf函數的用法

以前解析有規律的文件的時候要么用正則表達式,要么就是傻傻的自己寫程序來解析有規律的文件。今天突然發現c的庫函數中有一個現成的可以解析有規律的文件的函數,就是fscanf()函數。fscanf 位于頭文件中,函數原型為 int fscanf(FILE * stream,…

ComponentName知識

以下是ComponentName的API /*** Create a new component identifier from a Context and Class object.* * param pkg A Context for the package implementing the component, from* which the actual package name will be retrieved.* param cls The Class object of the de…

為什么設計師應該學習編寫代碼

通常,在完成了一件網頁設計后,設計師的無知都會顯露無遺而備受指責。他們把創建網頁代碼的繁重工作都留給了程序員們。這種現象不只出現在網絡開發行業,在軟件及游戲開發業也是如此(完整圖文版)。殘酷的事實就是&#…

unittest核心要素

1 TestCase 一個TestCase的實例就是一個測試用例。什么是測試用例呢?就是一個完整的測試流程, 包括測試環境的準備(setUp),執行測試代碼(run),以及測試后環境的還原(tearDown)。單元 測試(unit …

iOS內存區域部分內容

目前參考這里: https://www.zhihu.com/question/263823072/answer/273452932 以后整理相關的代碼問題。 更多參考資料: https://stackoverflow.com/questions/79923/what-and-where-are-the-stack-and-heap 堆棧:https://baike.baidu.com/ite…

php 啟動ffmpeg,安裝php擴展 ffmpeg-php

首先先下載擴展包擴展下載地址: http://nchc.dl.sourceforge.net/project/ffmpeg-php/ffmpeg-php/0.6.0/ffmpeg-php-0.6.0.tbz2進入 ffmpeg-php目錄 進行編譯擴展/usr/local/php/bin/phpize./configure --with-php-config/usr/local/php/bin/php-configmake 出錯報錯情況make: …

armeabi和armeabi-v7a的區別

armeabi默認選項, 支持基于 ARM* v5TE 的設備 支持軟浮點運算(不支持硬件輔助的浮點計算) 支持所有 ARM* 設備 armeabi-v7a 支持基于 ARM* v7 的設備 支持硬件 FPU 指令 支持硬件浮點運算 不同手機由于cpu的不同,使用不同的驅動…

淺析Numpy.genfromtxt及File I/O講解

Python 并沒有提供數組功能,雖然列表 (list) 可以完成基本的數組功能,但它并不是真正的數組,而且在數據量較大時,使用列表的速度就會慢的讓人難受。為此,Numpy 提供了真正的數組功能,以及對數據快速處理的函…

麻雀雖小,五臟俱全:分析CVS活動情況的小工具(有源碼供學習)

最近開發團隊發布的版本質量很成問題,追究起來有很多原因,其中之一是CVS的使用不合理, 于是想做個一小工具,分析CVS上每天的活動,以便掌握團隊成員對CVS的使用情況。 也許有現成的開源項目可以完成這項任務&#xff…

php如果實現日歷的制作,教大家制作簡單的php日歷

最近的一個項目中,需要將數據用日歷方式顯示,網上有很多的JS插件,后面為了自己能有更大的控制權,決定自己制作一個日歷顯示。如下圖所示:一、計算數據1、new一個Calendar類2、初始化兩個下拉框中的數據,年份…

Spark之 使用SparkSql操作mysql和DataFrame的Scala實現

通過讀取文件轉換成DataFrame數據寫入到mysql中 package com.zy.sparksqlimport java.util.Propertiesimport org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Row, SparkSession} import org.apache.spark.sql.types…

web服務器之iis,apache,tomcat三者之間的比較

IIS-Apache-Tomcat的區別 IIS與Tomcat的區別 IIS是微軟公司的Web服務器。主要支持ASP語言環境. Tomcat是Java Servlet 2.2和JavaServer Pages 1.1技術的標準實現,是基于Apache許可證下開發的SJP語言環境容器,嚴格得說不能算是一個WEB服務器,而是Apache服務適配器。 …

iOS CAGradientLayer顏色漸變

Gradient:本身就是梯度的意思,所以在這里就是作為漸變色來理解 CAGradientLayer用于處理漸變色的層結構CAGradientLayer的漸變色可以做隱式動畫大部分情況下,CAGradientLayer時和CAShapeLayer配合使用,CAShapeLayer這里就不介紹了CAGradientL…

編程要養成的好習慣

1.- DRY: Don’t repeat yourself. DRY 是一個最簡單的法則,也是最容易被理解的。但它也可能是最難被應用的(因為要做到這樣,我們需要在泛型設計上做相當的努力,這并不是一件容易的事)。它意味著,當我們在…

flink整合java,Flink使用SideOutPut替換Split實現分流

基于apache flink的流處理實時模型44元包郵(需用券)去購買 >以前的數據分析項目(版本1.4.2),對從Kafka讀取的原始數據流,調用split接口實現分流.新項目決定使用Flink 1.7.2,使用split接口進行分流的時候,發現接口被標記為depra…