TLD是TopLevel Domain
的縮寫。?tldextract? 是一個用于從URL中提取子域、主域名和頂級域(TLD)的Python庫。它利用公共后綴列表(Public Suffix List)來確保即使是復雜或不常見的URL結構也能被正確解析。tldextract能夠處理包括ICANN管理的公共TLD以及可選的私有域名,幫助開發者準確地分離出URL的各個部分,尤其是在處理多層子域時,避免了簡單的字符串分割帶來的錯誤?。
安裝
pip install tldextract
示例
import tldextractresult = tldextract.extract("https://baijiahao.baidu.com/s?id=1821824643075404089")
print(result)
print(result.subdomain) # 輸出子域名
print(result.domain) # 輸出主域名
print(result.suffix) # 輸出頂級域# ExtractResult(subdomain='baijiahao', domain='baidu', suffix='com', is_private=False)
# baijiahao
# baidu
# com
命令行模式
$tldextract
usage: tldextract [-h] [--version] [-j] [-u][--suffix_list_url SUFFIX_LIST_URL] [-c CACHE_DIR] [-p][--no_fallback_to_snapshot][fqdn|url ...]$tldextract "http://www.baidu.com"
www baidu com
相關鏈接
https://github.com/john-kurkowski/tldextract