python網絡爬蟲與信息提取學習筆記day3

Day3：

只需兩行代碼解析html或xml信息??? 具體代碼實現:day3_1??? 注意BeautifulSoup的B和S需要大寫，因為python大小寫敏感

import requests
r= requests.get("http://python123.io/ws/demo.html")
r.text
demo = r.text
from bs4 import BeautifulSoup
soup = BeautifulSoup(demo , "html.parser")
print(soup.prettify())

BeautifulSoup庫的基本元素：詳參html的基本信息

from bs4 import BeautifulSoup??????? 語句含義：從bs4庫中引入一個BeautifulSoup的類型

下行遍歷，上行遍歷和平行遍歷：

?爬取中國大學排名

import requests
from bs4 import BeautifulSoup
import bs4def getHTMLText(url):try:r = requests.get(url, timeout=30)r.raise_for_status()r.encoding = r.apparent_encodingreturn r.textexcept:return ""def fillUnivList(ulist, html):soup = BeautifulSoup(html, "html.parser")for tr in soup.find('tbody').children:if isinstance(tr, bs4.element.Tag):tds = tr('td')ulist.append([tds[0].string, tds[1].string, tds[3].string])def printUnivList(ulist, num):print("{:^10}\t{:^6}\t{:^10}".format("排名","學校名稱","總分"))for i in range(num):u=ulist[i]print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))def main():uinfo = []url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html'html = getHTMLText(url)fillUnivList(uinfo, html)printUnivList(uinfo, 20) # 20 univs
main()

轉載于:https://www.cnblogs.com/yezhaodan/p/7449785.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/371374.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/371374.shtml
英文地址，請注明出處：http://en.pswp.cn/news/371374.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！