Python -bs4介紹

https://cuiqingcai.com/1319.html

Python -BS4詳細介紹
Python 在處理html方面有很多的優勢,一般情況下是要先學習正則表達式的.
在應用過程中有很多模塊是非常方便的,先嘗試使用BeautifulSoup和Urllib進行網頁的處理,僅供學習.
首先列舉所需要導入的模塊:
from bs4 import BeautifulSoup??? # 處理獲取的網頁信息
import bs4??????????????????????????????????? # 用于判讀各類類型???????????????? ?
import os?????????????????????????????????????? #系統模塊,詳細信息整理于下一章節
import re??????????????????????????????????????? # 正則表達式,其實用不到
import time??????????????????????????????????? # 時間模塊,用于設置超時處理等
from urllib import request?????????????? # 用于獲取網頁信息
相關操作:
url = 'HTTP://XXXX'??? # 定義網頁地址
respons = request.urlopen(url,data=None,timeout=2)???? # 打開地址
data = respons.read().decode('utf-8')?? # 讀取網頁信息
soup = BeautifulSoup(data, "html5lib")????????????????????????? # 用BeautifulSoup 解析
href = soup.find_all('a',target = "XXXX")? # BS4最重要的函數,獲取相關節點兒,詳細信息自行學習
###
剩下的就自己處理就行了.
于2018-6-5 補充如下：

關于解析器引用官方文檔截圖：

??????? 1. tag ?

??????? tag中最重要的屬性: name和attributes

??????? tag.name 和tag["XXX"]

??????? 2. tag.string 和 tag.strings? 獲取字符內容

??????? 3.??? find_all( name , attrs , recursive , text , **kwargs )

??????????????? name：tag的name

??????????????? attrs ：屬性

轉載于:https://www.cnblogs.com/moying-wq/p/10009805.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/278840.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/278840.shtml
英文地址，請注明出處：http://en.pswp.cn/news/278840.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！