python 安裝xpath_Python網絡爬蟲（四）- XPath1.XPath2.XPath在python中的應用

1.XPath

XPath即為XML路徑語言（XML Path Language），它是一種用來確定XML文檔中某部分位置的語言。它使用路徑表達式來選取 XML 文檔中的節點或節點集。節點是通過沿著路徑 (path) 或者步 (steps) 來選取的。

XPath語法

2.XPath在python中的應用xpath在Python中有一個第三方庫，支持~ lxml

注意：不要直接使用pip install lxml去安裝~直接安裝很容易安裝一個空殼！

安裝pip,主要參考博客：在shell中輸入import pip; print(pip.pep425tags.get_supported())可以獲取到pip支持的文件名還有版本xpath的安裝

通過wheel方式安裝

下載對應的wheel文件【和Python版本對應的】

安裝wheel插件：python2 -m pip install wheel

根據下載的本地文件安裝lxml：切換到whl文件所在的路徑，進行安裝

python2 -m pip install lxml-3.8.0-cp27-none-win32.whlwheel名一定要跟pip支持的文件名和版本符合

xpath的使用

獲取文本內容用 text()

獲取注釋用 comment()

獲取其它任何屬性用@xx，如 @href

@src

@value

3.XPath中的text()和string()區別

1.XPath中的text()和string()本質區別text()是一個node test，而string()是一個函數，data()是一個函數且可以保留數據類型。此外，還有點號（.）表示當前節點。

2.XML例子：

_知幾

用例舉例text()book/author/text()

string()book/author/string()

data()book/author/data()

.book/author/.

3.特殊用例

XML例子：

pythondjango爬蟲

0.8

text() 經常在XPath表達式的最后看到text()，它僅僅返回所指元素的文本內容。let $x := book/author/text() return $x

返回的結果是python 爬蟲，其中的django不屬于author直接的節點內容。string() string()函數會得到所指元素的所有節點文本內容，這些文本講會被拼接成一個字符串。let $x := book/author/string() return $x

返回的內容是python django 爬蟲。data()

大多數時候，data()函數和string()函數通用，而且不建議經常使用data()函數，有數據表明，該函數會影響XPath的性能。let $x := book/pricing/string() return $x

返回的是200.8

let $x := book/pricing/data() return $x

這樣將返回分開的20和0.8，他們的類型并不是字符串而是>xs:anyAtomicType，于是就可以使用數學函數做一定操作。

let $x := book/pricing/price/data() let $y := book/pricing/discount/data() return $x*$y

比如上面這個例子，就只能使用data()，不能使用text()或string()，因為XPath不支持字符串做數學運算。

text()不是函數，XML結構的細微變化，可能會使得結果與預期不符，應該盡量少用，data()作為特殊用途的函數，可能會出現性能問題，如無特殊需要盡量不用，string()函數可以滿足大部分的需求。

4.爬取誅仙前50章內容

主要分三個步驟：

（1）分析小說網址構成；

（2）獲取網頁，并分離出小說章節名和章節內容；

（3）寫入txt文檔。

代碼操作：# -*- coding:utf-8 -*-

import urllib,urllib2,re

from lxml import etree

#定義函數，爬取對應的數據

def getText(url,file_name):

print('開始爬取第%s章的內容'%file_name)

#偽裝請求頭

my_headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',

}

request = urllib2.Request(url,headers=my_headers)

content = urllib2.urlopen(request).read()

return content

#定義函數，保存爬取到的數據

def save(content):

xml = etree.HTML(content)

datas = xml.xpath('/html/body/div[@id="main"]/h1 | /html/body/div[@id="main"]/p')

data = datas[2].xpath('string(.)').encode('utf-8')

name = datas[0].xpath('string(.)')

print name

print('第%s章的內容爬取完成' % file_name)

with open('txt/%s'%name+'.txt', 'wb') as f:

f.write(data)

#定義主程序接口

if __name__ == '__main__':

x=41277

while x

url = 'http://www.ty2016.net/net/zhuxian/'+str(x)+'.html'

x+=1

file_name = str(x-41278)

try:

content = getText(url,file_name)

save(content)

except Exception,a:

print a

從本地可以看到已經爬取到相關內容

注解：Xpath的獲取

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/276671.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/276671.shtml
英文地址，請注明出處：http://en.pswp.cn/news/276671.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！