业界动态
python 提取域名_Python实现从url中提取域名的几种方法
2024-12-16 15:21

从url中找到域名,首先想到的是用正则,然后寻找相应的类库。用正则解析有很多不完备的地方,url中有域名,域名后缀一直在不断增加等。通过google查到几种方法,一种是用Python中自带的模块和正则相结合来解析域名,另一种是使第三方用写好的解析模块直接解析出域名。

python 提取域名_Python实现从url中提取域名的几种方法

要解析的url

复制代码 代码如下:

urls = ["http://meiwen.me/src/index.html",

"http://1000chi.com/game/index.html",

"http://see.xidian.edu.cn/cpp/html/1429.html",

"https://docs.python.org/2/howto/regex.html",

"""https://www.google.com.hk/search?client=aff-cs-360chromium&hs;=TSj&q;=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&oq;=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&gs;_l=serp.3...74418.86867.0.87673.28.25.2.0.0.0.541.2454.2-6j0j1j1.8.0....0...1c.1j4.53.serp..26.2.547.IuHTj4uoyHg""",

"file:///D:/code/echarts-2.0.3/doc/example/tooltip.html",

"http://api.mongodb.org/python/current/faq.html#is-pymongo-thread-safe",

"https://pypi.python.org/pypi/publicsuffix/",

"http://127.0.0.1:8000"

]

使用urlparse+正则的方式

复制代码 代码如下:

import re

from urlparse import urlparse

topHostPostfix = (

'.com','.la','.io','.co','.info','.net','.org','.me','.mobi',

'.us','.biz','.xxx','.ca','.co.jp','.com.cn','.net.cn',

'.org.cn','.mx','.tv','.ws','.ag','.com.ag','.net.ag',

'.org.ag','.am','.asia','.at','.be','.com.br','.net.br',

'.bz','.com.bz','.net.bz','.cc','.com.co','.net.co',

'.nom.co','.de','.es','.com.es','.nom.es','.org.es',

'.eu','.fm','.fr','.gs','.in','.co.in','.firm.in','.gen.in',

'.ind.in','.net.in','.org.in','.it','.jobs','.jp','.ms',

'.com.mx','.nl','.nu','.co.nz','.net.nz','.org.nz',

'.se','.tc','.tk','.tw','.com.tw','.idv.tw','.org.tw',

'.hk','.co.uk','.me.uk','.org.uk','.vg', ".com.hk")

regx = r'[^.]+('+'|'.join([h.replace('.',r'.') for h in topHostPostfix])+')$'

pattern = re.compile(regx,re.IGNORECASE)

print "--"*40

for url in urls:

parts = urlparse(url)

host = parts.netloc

m = pattern.search(host)

res = m.group() if m else host

    以上就是本篇文章【python 提取域名_Python实现从url中提取域名的几种方法】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/news/30343.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多   
最新文章
跨界融合舞剧《天工开物》即将重返京城
  中新网北京4月17日电 (记者 高凯)以明代科学家宋应星及其巨著《天工开物》为题材的舞剧《天工开物》即将登陆中央歌剧院。舞
华为nova13系列曝光:2799元起售,星环三摄引领中端手机新潮流!华为手机最新款是什么型号「华为nova13系列曝光:2799元起售,星环三摄引领中端手机新潮流!」
近日,华为的动态引发了众多科技爱好者的关注。就在市场上许多人热切期待新产品时,华为突然宣布上架‘华为nova13系列’中端旗舰
支付宝碎屏险究竟是怎么回事?靠谱么?手机碎屏险「支付宝碎屏险究竟是怎么回事?靠谱么?」
由于有很多人看这个文章,所以个人补充一些内容。无论你选什么套餐,在保险条款里面都是保12个月的。已经理赔的不允
如何快速找回小米手机相册小米手机找回「如何快速找回小米手机相册」
: 当您的小米手机相册突然消失时,不要慌张,这里为您提供两种解决方法来帮助您迅速找回丢失的相册。首先,我们来看一下如何重新
米加Scratch3 官方版 v3.0scratch手机版下载「米加Scratch3 官方版 v3.0」
  米加Scratch3官方版是特别为操作不熟练的人群设计的编程软件。该软件可以为使用者提供入门级别的编程平台,图形化的编程方式
虚假宣传自动驾驶可面临2年以下刑期
近日,公安部道路交通安全研究中心官方公众号“交通言究社”发表《智慧领航,安全护航——智能网联汽车辅助驾驶功能使用须谨慎》
怎么能让手机快速充电手机快速充电「怎么能让手机快速充电」
在现代社会,手机已经成为我们日常生活中不可或缺的一部分。然而,随着手机功能的不断增强,电池续航问题也逐渐凸显。因此,如何
华为畅享7支持双4G吗?华为畅享7支持5G吗【详解】华为有5g手机吗「华为畅享7支持双4G吗?华为畅享7支持5G吗【详解】」
  华为畅享7于2017年7月7日在上海发布,整体配置来看华为畅享7表现很出色。华为畅享7在拍照、音质上大幅提升有所升级。相信很
清明档首日票房突破1.5亿 《我的世界大电影》逆袭
截至4月4日20时,清明档首日票房累计超过1.5亿,影片《我的世界大电影》《向阳·花》《哪吒之魔童闹海》《不说话的爱》《猎狐行
期待已久的刑侦剧来了!演员都是知名戏骨,同台飙戏很过瘾
《乌云之上》像是把刑侦剧浸在了冰美式里,苦冽中透着股诡异的清醒。孙俪这次不演娘娘改当痕检专家,手套永远只戴左手——右手留