是什么?
Beautiful Soup(簡稱BS4)是一種強大而靈活的HTML和XML解析庫,廣泛用于Python爬蟲和數據采集中。相比正則表達式更加簡潔.
Beautiful Soup提供一些簡單的、python式的函數用來處理導航、搜索、修改分析樹等功能。它是一個工具箱,通過解析文檔為用戶提供需要抓取的數據,因為簡單,所以不需要多少代碼就可以寫出一個完整的應用程序。
官網
# 官方
https://beautiful-soup-4.readthedocs.io/en/# 中文版
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
和 xpath以及正則表達式的區別在哪里?
- 正則表達式是進行內容匹配,將符合要求的內容全部獲取;
- xpath()能將字符串轉化為標簽,它會檢測字符串內容是否為標簽,但是不能檢
- 測出內容是否為真的標簽;
- Beautifulsoup是Python的一個第三方庫,它的作用和 xpath 作用一樣,都是用來解析html數據的相比之下
- 三者語法不同,正則表達式使用元字符,將所有獲得內容與匹配條件進行匹配,而xpath和bs4將獲取的解析后的源碼進行按條件篩選,篩選出想要的標簽即根據標簽屬性來找到指定的標簽,之后對標簽進行對應內容獲取。