业界动态
python 提取域名_Python实现从url中提取域名的几种方法
2024-12-16 15:21

从url中找到域名,首先想到的是用正则,然后寻找相应的类库。用正则解析有很多不完备的地方,url中有域名,域名后缀一直在不断增加等。通过google查到几种方法,一种是用Python中自带的模块和正则相结合来解析域名,另一种是使第三方用写好的解析模块直接解析出域名。

python 提取域名_Python实现从url中提取域名的几种方法

要解析的url

复制代码 代码如下:

urls = ["http://meiwen.me/src/index.html",

"http://1000chi.com/game/index.html",

"http://see.xidian.edu.cn/cpp/html/1429.html",

"https://docs.python.org/2/howto/regex.html",

"""https://www.google.com.hk/search?client=aff-cs-360chromium&hs;=TSj&q;=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&oq;=url%E8%A7%A3%E6%9E%90%E5%9F%9F%E5%90%8Dre&gs;_l=serp.3...74418.86867.0.87673.28.25.2.0.0.0.541.2454.2-6j0j1j1.8.0....0...1c.1j4.53.serp..26.2.547.IuHTj4uoyHg""",

"file:///D:/code/echarts-2.0.3/doc/example/tooltip.html",

"http://api.mongodb.org/python/current/faq.html#is-pymongo-thread-safe",

"https://pypi.python.org/pypi/publicsuffix/",

"http://127.0.0.1:8000"

]

使用urlparse+正则的方式

复制代码 代码如下:

import re

from urlparse import urlparse

topHostPostfix = (

'.com','.la','.io','.co','.info','.net','.org','.me','.mobi',

'.us','.biz','.xxx','.ca','.co.jp','.com.cn','.net.cn',

'.org.cn','.mx','.tv','.ws','.ag','.com.ag','.net.ag',

'.org.ag','.am','.asia','.at','.be','.com.br','.net.br',

'.bz','.com.bz','.net.bz','.cc','.com.co','.net.co',

'.nom.co','.de','.es','.com.es','.nom.es','.org.es',

'.eu','.fm','.fr','.gs','.in','.co.in','.firm.in','.gen.in',

'.ind.in','.net.in','.org.in','.it','.jobs','.jp','.ms',

'.com.mx','.nl','.nu','.co.nz','.net.nz','.org.nz',

'.se','.tc','.tk','.tw','.com.tw','.idv.tw','.org.tw',

'.hk','.co.uk','.me.uk','.org.uk','.vg', ".com.hk")

regx = r'[^.]+('+'|'.join([h.replace('.',r'.') for h in topHostPostfix])+')$'

pattern = re.compile(regx,re.IGNORECASE)

print "--"*40

for url in urls:

parts = urlparse(url)

host = parts.netloc

m = pattern.search(host)

res = m.group() if m else host

    以上就是本篇文章【python 提取域名_Python实现从url中提取域名的几种方法】的全部内容了,欢迎阅览 ! 文章地址:http://www78564.xrbh.cn/news/30343.html 
     文章      相关文章      动态      同类文章      热门文章      栏目首页      网站地图      返回首页 迅博思语移动站 http://www78564.xrbh.cn/mobile/ , 查看更多   
最新文章
星聚汇大公鸡七星彩手机版「星聚汇」
  星聚汇app是一款为用户提供各种生活服务的软件,让用户能够轻松找到各种吃喝玩乐信息,满足用户生活需求;用户在软件中能够
苹果手机怎么看定位去过哪苹果手机怎么看定位都去过哪里「苹果手机怎么看定位去过哪」
在隐私设置干瘪页,打开“呼之欲出定位服务”急则抱佛脚设置界面。在定位服务行行重行行页,进入“鞍前马后系统服务”兴致勃勃页
拳皇98手机版拳皇97下载手机版「拳皇98手机版」
拳皇98手机版是一款拳皇系列格斗手游,由街机作品移植而来,在其中还原了街机版本中的全部内容,玩家可以在手机上体验到当年的经
手机计算器分数计算全攻略:从入门到精通手机计算器怎么算百分比「手机计算器分数计算全攻略:从入门到精通」
手机计算器怎么算分数?一篇文章带你轻松掌握大家好!今天我们来聊聊一个日常生活中经常遇到的问题,那就是在手机计算器上如何计
用手机如何快速制作智能个人简历手机简历「用手机如何快速制作智能个人简历」
“念兹在兹,此心不越”的意思是:想到您在这里,您就在这里,我们的心离不开您。出自毛泽东的《四言诗·祭母文》:必秉悃忱,则
朋克农场电脑版怎么玩逍遥模拟器手机版「朋克农场电脑版怎么玩」
使用逍遥模拟器,可以在电脑windows系统上直接玩朋克农场电脑版。逍遥模拟器是一款基于安卓9的免费电脑手机模拟器软件,经过多年
植物大战僵尸2苹果IOS最新版 v3.5.5.76 苹果版wegame手机版「植物大战僵尸2苹果IOS最新版 v3.5.5.76 苹果版」
天天军棋苹果旧版本是一款以军棋为主的下棋游戏,游戏中有很多不同类型的经典游戏内容都是很不错的,这款游戏是由腾讯官方鼎力制
17场展会!济南会展业迎来“最热”4月
会展兴,百业兴。一场展会,能够吸引大量人流、物流、资金流和信息流,在促进相关产业发展的同时,又能带来大量的外来消费。 济
L50(300)A-IPL-V1、NOVA II、JUNO能量计区别之处手机在线a v「L50(300)A-IPL-V1、NOVA II、JUNO能量计区别之处」
L50(300)A-IPL-V1 探头7Z02780 L50 (300)A-IPL是一种热电堆激光测量探头,用于测量来自IPL皮肤病源的脉冲。 孔径为65mm,并有一
死神vs火影游戏满人物版死神vs火影手机版「死神vs火影游戏满人物版」
死神vs火影游戏满人物版中所拥有的角色已经全部可以使用,不用再额外进行解锁,让玩家可以享受近千个角色,让玩家尽情地享受战斗