TLD是TopLevel Domain
的缩写。tldextract 是一个用于从URL中提取子域、主域名和顶级域(TLD)的Python库。它利用公共后缀列表(Public Suffix List)来确保即使是复杂或不常见的URL结构也能被正确解析。tldextract能够处理包括ICANN管理的公共TLD以及可选的私有域名,帮助开发者准确地分离出URL的各个部分,尤其是在处理多层子域时,避免了简单的字符串分割带来的错误。
安装
pip install tldextract
示例
import tldextractresult = tldextract.extract("https://baijiahao.baidu.com/s?id=1821824643075404089")
print(result)
print(result.subdomain) # 输出子域名
print(result.domain) # 输出主域名
print(result.suffix) # 输出顶级域# ExtractResult(subdomain='baijiahao', domain='baidu', suffix='com', is_private=False)
# baijiahao
# baidu
# com
命令行模式
$tldextract
usage: tldextract [-h] [--version] [-j] [-u][--suffix_list_url SUFFIX_LIST_URL] [-c CACHE_DIR] [-p][--no_fallback_to_snapshot][fqdn|url ...]$tldextract "http://www.baidu.com"
www baidu com
相关链接
https://github.com/john-kurkowski/tldextract