基于tldextract提取URL里的子域名、主域名、頂級域

TLD是TopLevel Domain的縮寫。?tldextract? 是一個用于從URL中提取子域、主域名和頂級域（TLD）的Python庫。它利用公共后綴列表（Public Suffix List）來確保即使是復雜或不常見的URL結構也能被正確解析。tldextract能夠處理包括ICANN管理的公共TLD以及可選的私有域名，幫助開發者準確地分離出URL的各個部分，尤其是在處理多層子域時，避免了簡單的字符串分割帶來的錯誤?。

安裝

pip install tldextract

示例

import tldextractresult = tldextract.extract("https://baijiahao.baidu.com/s?id=1821824643075404089")
print(result)
print(result.subdomain)  # 輸出子域名
print(result.domain)    # 輸出主域名
print(result.suffix)    # 輸出頂級域# ExtractResult(subdomain='baijiahao', domain='baidu', suffix='com', is_private=False)
# baijiahao
# baidu
# com

命令行模式

$tldextract
usage: tldextract [-h] [--version] [-j] [-u][--suffix_list_url SUFFIX_LIST_URL] [-c CACHE_DIR] [-p][--no_fallback_to_snapshot][fqdn|url ...]$tldextract "http://www.baidu.com"
www baidu com