业界动态
python 提取域名_Python实现从url中提取域名的几种方法
2024-12-16 15:21

从url中找到域名,首先想到的是用正则,然后寻找相应的类库。用正则解析有很多不完备的地方,url中有域名,域名后缀一直在不断增加等。通过google查到几种方法,一种是用Python中自带的模块和正则相结合来解析域名,另一种是使第三方用写好的解析模块直接解析出域名。

python 提取域名_Python实现从url中提取域名的几种方法

要解析的url

复制代码 代码如下:

urls = ["http://meiwen.me/src/index.html",

"http://1000chi.com/game/index.html",

"http://see.xidian.edu.cn/cpp/html/1429.html",

"https://docs.python.org/2/howto/regex.html",

"""https://www.google.com.hk/search?client=aff-cs-360chromium&hs;=TSj&q;=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&oq;=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&gs;_l=serp.3...74418.86867.0.87673.28.25.2.0.0.0.541.2454.2-6j0j1j1.8.0....0...1c.1j4.53.serp..26.2.547.IuHTj4uoyHg""",

"file:///D:/code/echarts-2.0.3/doc/example/tooltip.html",

"http://api.mongodb.org/python/current/faq.html#is-pymongo-thread-safe",

"https://pypi.python.org/pypi/publicsuffix/",

"http://127.0.0.1:8000"

]

使用urlparse+正则的方式

复制代码 代码如下:

import re

from urlparse import urlparse

topHostPostfix = (

'.com','.la','.io','.co','.info','.net','.org','.me','.mobi',

'.us','.biz','.xxx','.ca','.co.jp','.com.cn','.net.cn',

'.org.cn','.mx','.tv','.ws','.ag','.com.ag','.net.ag',

'.org.ag','.am','.asia','.at','.be','.com.br','.net.br',

'.bz','.com.bz','.net.bz','.cc','.com.co','.net.co',

'.nom.co','.de','.es','.com.es','.nom.es','.org.es',

'.eu','.fm','.fr','.gs','.in','.co.in','.firm.in','.gen.in',

'.ind.in','.net.in','.org.in','.it','.jobs','.jp','.ms',

'.com.mx','.nl','.nu','.co.nz','.net.nz','.org.nz',

'.se','.tc','.tk','.tw','.com.tw','.idv.tw','.org.tw',

'.hk','.co.uk','.me.uk','.org.uk','.vg', ".com.hk")

regx = r'[^.]+('+'|'.join([h.replace('.',r'.') for h in topHostPostfix])+')$'

pattern = re.compile(regx,re.IGNORECASE)

print "--"*40

for url in urls:

parts = urlparse(url)

host = parts.netloc

m = pattern.search(host)

res = m.group() if m else host

    以上就是本篇文章【python 提取域名_Python实现从url中提取域名的几种方法】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/news/30343.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多   
最新文章
中交地产1元“退房”:战略转型与债务困境下的断臂求生
中交地产的这次“断臂求生”,不仅是企业自救的手段,更是一种行业趋势的缩影。中房报记者 梁笑梅丨北京报道7月25日,深陷退市危
邛崃市2025年7月招聘信息第四期共30家企业
四川金忠食品股份有限公司(邛崃市新邛路517号)1.研发工艺员 1名要求:40岁以下,大专以上学历,食品类专业,具备食品(肉制品
浙江义乌“大企帮小店”探索共富新路径
方静“张大酥是专门经营养生糕点的店铺,今年初才进驻李祖。当时‘大企’主动帮我们设计了具有李祖特色的糕点套装,义乌市市场监
北京移动应急通信保障恢复怀柔区72座基站,抢通40个行政村
7月28日北京青年报记者从北京移动了解到,截至18时,北京移动已抢通怀柔区雁栖开发区至汤河口48芯光缆一条,恢复汤河口、宝山、
小猫看伤花5000元,宠主质疑:诊所每天对小猫进行抽血检查等诊疗行为属于“过度医疗”
近日,芜湖繁昌区法院参考专家辅助人的意见,引导双方申请司法鉴定。调解过程中,专家辅助人详细分析了小猫病历,明确指出检查报
克莱斯勒300C 2.7汽车配件前羊角轴头刹车盘
克莱斯勒300C/2.7三元催化器 峰哲汽车尾灯后保险杠 切诺基大灯 我公司是一家专业从事别克与克莱斯勒汽车配件销售与服务的汽配企
他们是CS上海Major的“幕后功臣”,完美电竞合作伙伴联盟成立
从2019年的第九届DOTA2国际邀请赛(TI9),到2020年的英雄联盟全球总决赛(S10)、2024年的反恐精英世界锦标赛(CS上海Major),
军事资讯AI速递:昨夜今晨军事热点一览 丨2025年8月21日
  军事领域动态复杂,事件可能迅速改变全球安全格局。我们整理了昨夜今晨最重要的军事新闻,包括关键行动和政策变化,让您清晰
刚出炉!上海崇明成功认证“国际湿地城市”,将迎来什么发展机遇?
《湿地公约》第十五届缔约方大会于7月23日至31日在津巴布韦维多利亚瀑布城举行。全球共16个国家31个城市获得第三批“国际湿地城
疑似OPPO Find X9 Pro核心硬件曝光:搭载天玑9500 主频突破4GHz
【TechWeb】去年10月,OPPO推出了OPPO Find X8 Pro,这是全球首款配备双潜望长焦的天玑旗舰,拥有一颗5000万像素3倍索尼LYT-600