python中beautifulsoup_面向新手解析python Beautiful Soup基本用法

python中beautifulsoup_面向新手解析python Beautiful Soup基本用法

news/2025/9/16 22:05:15/文章來源:https://blog.csdn.net/weixin_39997443/article/details/110568993

Beautiful Soup就是Python的一個HTML或XML的解析庫，可以用它來方便地從網頁中提取數據。它有如下三個特點：

Beautiful Soup提供一些簡單的、Python式的函數來處理導航、搜索、修改分析樹等功能。它是一個工具箱，通過解析文檔為用戶提供需要抓取的數據，因為簡單，所以不需要多少代碼就可以寫出一個完整的應用程序。

Beautiful Soup自動將輸入文檔轉換為Unicode編碼，輸出文檔轉換為UTF-8編碼。你不需要考慮編碼方式，除非文檔沒有指定一個編碼方式，這時你僅僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的Python解釋器，為用戶靈活地提供不同的解析策略或強勁的速度。

首先，我們要安裝它：pip install bs4,然后安裝 pip install beautifulsoup4.

Beautiful Soup支持的解析器

下面我們以lxml解析器為例：

from bs4 import BeautifulSoup

soup = BeautifulSoup('

Hello

', 'lxml')

print(soup.p.string)

結果：

Hello

beautiful soup美化的效果實例：

?

結果：

?

下面舉例說明選擇元素、屬性、名稱的方法

?

結果：

?

在上面的例子中，我們知道每一個返回結果都是bs4.element.Tag類型，它同樣可以繼續調用節點進行下一步的選擇。

?

結果：

?

(1)find_all()

find_all，顧名思義，就是查詢所有符合條件的元素。給它傳入一些屬性或文本，就可以得到符合條件的元素，它的功能十分強大。

find_all(name , attrs , recursive , text , **kwargs)

他的用法：

?

結果：

?

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持服務器之家。

原文鏈接：https://www.cnblogs.com/xiao02fang/p/13269984.html

本文來自互聯網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。
如若轉載，請注明出處：http://www.pswp.cn/news/276524.shtml
繁體地址，請注明出處：http://hk.pswp.cn/news/276524.shtml
英文地址，請注明出處：http://en.pswp.cn/news/276524.shtml

如若內容造成侵權/違法違規/事實不符，請聯系多彩編程網進行投訴反饋email:809451989@qq.com，一經查實，立即刪除！

相關文章

(轉)mssql2005生成表字典

(轉)mssql2005生成表字典

出處不詳 CodeSELECT TOP 100 PERCENT --a.id, CASE WHEN a.colorder 1 THEN d.name ELSE END AS 表名, CASE WHEN a.colorder 1 THEN isnull(f.value, ) ELSE END AS 表說明, a.colorder AS 字段序號, a.name AS 字段名, CASE WHEN COLUMNPROPERTY(a.id, a.name, IsIdenti…

閱讀更多...

表操作

表操作

2019獨角獸企業重金招聘Python工程師標準>>> 字段修改 alter table TA drop partition (day<2018-12-10); ALTER TABLE TB ADD COLUMNS (userStatus String) CASCADE; ALTER TABLE TC change appversion appCommonVersion String CASCADE; ALTER TABLE TD DROP C…

閱讀更多...

KindEditor js 路徑修改及表單提交注意事項

KindEditor js 路徑修改及表單提交注意事項

參考資料：http://www.kindsoft.net/docs/usage.html 在具體項目中，往往需要將js統一管理，如放置同一目錄js中，那么對應的kindeditor的調用腳本也要跟著變： 目錄結構： |--program |--|--html |--|--|--i…

閱讀更多...

學習underscore源碼整體架構，打造屬于自己的函數式編程類庫

學習underscore源碼整體架構，打造屬于自己的函數式編程類庫

前言上一篇文章寫了 jQuery整體架構，學習 jQuery 源碼整體架構，打造屬于自己的 js 類庫雖然看過挺多 underscore.js分析類的文章，但總感覺少點什么。這也許就是紙上得來終覺淺，絕知此事要躬行吧。于是決定自己寫一篇學習 undersco…

閱讀更多...

python xlsx 大文件_Python這樣操作能存儲100多萬行的xlsx文件!Python讓你事半功倍!

python xlsx 大文件_Python這樣操作能存儲100多萬行的xlsx文件!Python讓你事半功倍!

(1) 如果excel文件是xls，2003版的，使用xlrd和xlwt庫來對xls文件進行操作(2) 如果excel文件是xlsx，2007以上版的，使用openpyxl庫來對xlsx文件進行操作Tips:xlrd、xlwt和openpyxl非python自帶庫，需要進行安裝&#xff0c…

閱讀更多...

linux 如何在命令行下改系統時間

linux 如何在命令行下改系統時間

我們一般使用“date -s”命令來修改系統時間。比如將系統時間設定成2009年6月1日的命令如下。　　 #date -s 06/01/2009 或#date -s 20090601 將系統時間設定成下午15點43分0秒的命令如下。　　 #date -s 15:43:00　　注意，這里說的是系統…

閱讀更多...

$拓撲目的 1.Pc9通過van3訪問pc10 2.Pc9通過Vlan1\Vlan2訪問pc11$

拓撲目的 1.Pc9通過van3訪問pc10 2.Pc9通過Vlan1\Vlan2訪問pc11

1拓撲圖2設置路由器R12的接口的IPint g0/0/0ip address 192.168.20.254 24undo shutdown int g0/0/01ip address 192.168.1.1 24undo shutdownint g2/0/00ip address 192.168.3.1 24undo shutdown 3設置路由器R10的接口的IPint g0/0/0ip address 192.168.2.1 24undo shutdownin…

閱讀更多...

PHP 發送Email的幾種方法

PHP 發送Email的幾種方法

轉載鏈接：http://blog.009it.com/php/75.html 在php中發送Email可以直接調用系統的mail()函數來完成，但是前提是你在php.ini文件中對mail都已經配置好了，以下為相關的配置信息： [mail function] ; For Win32 only. SMTP localho…

閱讀更多...

學習 lodash 源碼整體架構，打造屬于自己的函數式編程類庫

學習 lodash 源碼整體架構，打造屬于自己的函數式編程類庫

前言這是學習源碼整體架構系列第三篇。整體架構這詞語好像有點大，姑且就算是源碼整體結構吧，主要就是學習是代碼整體結構，不深究其他不是主線的具體函數的實現。文章學習的是打包整合后的代碼，不是實際倉庫中的拆分的代碼。上上篇…

閱讀更多...

python數據庫模糊查詢_Python操作mongodb數據庫進行模糊查詢操作示例

python數據庫模糊查詢_Python操作mongodb數據庫進行模糊查詢操作示例

本文實例講述了Python操作mongodb數據庫進行模糊查詢操作。分享給大家供大家參考，具體如下：# -*- coding: utf-8 -*-import pymongoimport refrom pymongo import MongoClient#創建連接#10.20.66.106client MongoClient(10.20.4.79,27017)#client Mong…

閱讀更多...

推薦一個快速反射調用的類

推薦一個快速反射調用的類

使用傳統的.net反射機制，調用類的方法時，在調用頻率大的情況下，會感覺速度很慢。最近瀏覽盧彥的博客時，找到一個他改進后的反射調用類。試用以后感覺效率明顯提高，特推薦給大家。作者重新實現了，反射調用方…

閱讀更多...

CMake 構建項目Android NDK項目基礎知識

CMake 構建項目Android NDK項目基礎知識

本篇文章將介紹如何使用 CMake 構建實現你的第一個 NDK 項目。 ##前言你好！歡迎來到我的的學習筆記分享系列，第一次給大家分享的是 Android NDK 開發的學習筆記，讓我們先開始了解 NDK 的構建方式吧！ NDK 構建方式有兩種&#xff…

閱讀更多...

linux installaccess Nessus-5.2.4

linux installaccess Nessus-5.2.4

1、Download: http://www.tenable.com/products/nessus/select-your-operating-system 2、Current version：Nessus-5.2.4-debian6_i386.deb 3、Install：dpkg -i Nessus-5.2.4-debian6_i386.deb # dpkg -i Nessus-5.2.4-debian6_i386.deb Selecting p…

閱讀更多...

面試官問：JS的繼承

面試官問：JS的繼承

原文作者若川，掘金鏈接：https://juejin.im/post/5c433e216fb9a049c15f841b寫于2019年2月20日，現在發到公眾號聲明原創，之前被《前端大全》公眾號等轉載閱讀量超1w，知乎掘金等累計閱讀量超過1w。導讀：文章主…

閱讀更多...

qt 快速按行讀取文件_這是知識點之Linux下分割文件并保留文件頭

qt 快速按行讀取文件_這是知識點之Linux下分割文件并保留文件頭

點擊上方"開發者的花花世界"，選擇"設為星標"技術干貨不定時送達！這是一個知識點方便快捷的給結構化數據文件分割大小并保留文件的表頭，幾十個G的結構化文件不僅閱讀編輯麻煩，而且使用受限，因此高效…

閱讀更多...

mono 調用windows webService

mono 調用windows webService

1. 實現linux mono Develop中調用windows 中的webService l linux 與 windows 在一個局域網的網段中 l windows 的IIs中發布webService 2. windows 中的設置 l webService 的代碼 using System; using System.Collections.Generic; using System.Linq; using S…

閱讀更多...

Linux 內存機制

Linux 內存機制

轉載鏈接：http://blog.csdn.net/tianlesoftware/article/details/5463790 一. 內存使用說明 Free 命令相對于top 提供了更簡潔的查看系統內存使用情況： [rootrac1 ~]# free total used free shared buffers cached Mem: …

閱讀更多...

network中的請求信息，headers中的每一項分別是什么意義?

network中的請求信息，headers中的每一項分別是什么意義?

這里是修真院前端小課堂，每篇分享文從【背景介紹】【知識剖析】【常見問題】【解決方案】【編碼實戰】【擴展思考】【更多討論】【參考文獻】八個方面深度解析前端知識/技能，本篇分享的是： 【network中的請求信息，headers中的每…

閱讀更多...

學習 sentry 源碼整體架構，打造屬于自己的前端異常監控SDK

學習 sentry 源碼整體架構，打造屬于自己的前端異常監控SDK

前言這是學習源碼整體架構第四篇。整體架構這詞語好像有點大，姑且就算是源碼整體結構吧，主要就是學習是代碼整體結構，不深究其他不是主線的具體函數的實現。文章學習的是打包整合后的代碼，不是實際倉庫中的拆分的代碼。其余三篇分…

閱讀更多...

巴西龜吃什么

巴西龜吃什么

1、活蝦，哈哈，巴西龜最喜歡的食物，超市很多雞尾蝦買的，就那種，要活的，鍛煉它們的天性，一次一只可以吃一、兩天； 2、蚶子，貝殼類，活的，整個扔進去&…

閱讀更多...

最新文章