文章目錄
- 1 html.parser
- 1.1 初始化和基礎使用
- 1.1.1 handle_starttag(self, tag, attrs)
- 1.1.2 handle_endtag(self, tag)
- 1.1.3 handle_startendtag(self, tag, attrs)
- 1.1.4 handle_data(self, data)
- 1.1.5 handle_comment(self, data)
- 1.2 解析HTML文檔的流程
- 2 百度搜索關鍵詞鏈接
- 2.1 檢查頁面元素
- 2.2 獲取html
- 2.3 定義解析器
- 2.4 抽取鏈接和標題
- 2.5 應用測試
- 3 提取新聞內容
- 3.1 獲取html
- 3.2 解析html
- 3.3 觸發安全驗證
- 4 參考附錄
1 html.parser
html.parser是Python標準庫中的一個模塊,用于解析和處理HTML。
它的核心類是HTMLParser,這個類提供了多種方法,允許你處理HTML文檔的各個部分。
通過繼承這個類并重寫其提供的回調方法,可以自定義對HTML標簽、屬性和內容的處理方式。
1.1 初始化和基礎使用
from html.parser import HTMLParser# 創建自定義解析器類,繼承HTMLParser
class MyHTMLParser(HTMLParser):def handle_starttag(self, tag, attrs):print(f"開始tag: {tag}")if attrs:for attr in attrs:print(f" Attribute: {attr}")def handle_endtag(self, tag):print(f"結束tag: {tag}")def handle_data(self, data):print(f"數據: {data}")# 創建解析器實例
parser = MyHTMLParser()