Beautiful Soup就是Python的一個HTML或XML的解析庫,可以用它來方便地從網頁中提取數據。它有如下三個特點:
Beautiful Soup提供一些簡單的、Python式的函數來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程序。
Beautiful Soup自動將輸入文檔轉換為Unicode編碼,輸出文檔轉換為UTF-8編碼。你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時你僅僅需要說明一下原始編碼方式就可以了。
Beautiful Soup已成為和lxml、html6lib一樣出色的Python解釋器,為用戶靈活地提供不同的解析策略或強勁的速度。
首先,我們要安裝它:pip install bs4,然后安裝 pip install beautifulsoup4.
Beautiful Soup支持的解析器
下面我們以lxml解析器為例:
from bs4 import BeautifulSoup
soup = BeautifulSoup('
Hello
', 'lxml')print(soup.p.string)
結果:
Hello
beautiful soup美化的效果實例:
?
結果:
?
下面舉例說明選擇元素、屬性、名稱的方法
?
結果:
?
在上面的例子中,我們知道每一個返回結果都是bs4.element.Tag類型,它同樣可以繼續調用節點進行下一步的選擇。
?
結果:
?
(1)find_all()
find_all,顧名思義,就是查詢所有符合條件的元素。給它傳入一些屬性或文本,就可以得到符合條件的元素,它的功能十分強大。
find_all(name , attrs , recursive , text , **kwargs)
他的用法:
?
結果:
?
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持服務器之家。
原文鏈接:https://www.cnblogs.com/xiao02fang/p/13269984.html