推广 热搜:   中国  公司  行业  设备  快速  企业  上海  未来  技术 

微信公众号阅读量 Python python爬取公众号阅读量

   日期:2024-12-20     移动:http://www78564.xrbh.cn/mobile/quote/27367.html


微信公众号阅读量 Python python爬取公众号阅读量

我们知道爬取公众号的方式常见的有两种:通过搜狗搜索去获取,缺点是只能获取最新的十条推送文章。通过微信公众号的素材管理,获取公众号文章。缺点是需要申请自己的公众号。

 

今天介绍一种通过抓包PC端微信的方式去获取公众号文章的方法。相比其他的方法非常方便。


如上图,通过抓包工具获取微信的网络信息请求,我们发现每次下拉刷新文章的时候都会请求 mp.weixin.qq.com/mp/xxx (公众号不让添加主页链接,xxx表示profile_ext) 这个接口。

经过多次测试分析,用到了以下几个参数

  • __biz : 用户和之间的唯一id
  • uin :用户的私密id
  • key :请求的秘钥,一段时候只会就会失效
  • offset :偏移量
  • count :每次请求的条数

数据如下

 

部分代码如下

 

最后打印的list就是公众号的文章信息详情。包括标题(titile)、摘要(digest)、文章地址(content_url)、阅读原文地址(source_url)、封面图(cover)、作者(author)等等...

输出结果如下:

 

获取数据之后,可以保存到数据库中,也可以将文章保存在PDF中。

1、保存在Mongo中

 

结果如下

 

 

2、导入到PDF文件中

Python3中常用的操作PDF的库有python-pdf和pdfkit。我用了pdfkit这个模块导出pdf文件。

pdfkit是工具包Wkhtmltopdf的封装类,因此需要安装Wkhtmltopdf才能使用。

可以访问 https://wkhtmltopdf.org/downloads.html 下载和操作系统匹配的工具包。

 

 

 

实现代码也比较简单,只需要传入导入文件的url即可。

安装pdfkit库


 

 

运行之后成功导出pdf文件。

 

完整代码


本文地址:http://www78564.xrbh.cn/quote/27367.html    迅博思语 http://www78564.xrbh.cn/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


相关最新动态
推荐最新动态
点击排行
网站首页  |  二维码  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2023022329号