Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。
Beautiful Soup 4 官方文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
一、安装Beautiful Soup
运行cmd,cd切换到python安装目录下的scripts目录,执行命令
二、安装解析器lxml
Beautiful Soup支持Python标准库中的HTML解析器,也支持一些第三方的解析器,推荐用lxml,速度快,文档容错能力强,需要安装。
三、使用实例
下面测试抓取博客园首页一些信息
1、简单信息的抓取
运行结果:
2、抓取首页的导航条信息
运行结果:
3、抓取网站分类
运行结果:
4、抓取首页的所有随笔信息
运行结果: