目录
一、微信文章爬虫
- 1.1 tips
- 1.2 分析过程
- 1.3 代理
- 1.4 注意事项
- 1.5 代码实现
二、微信实验室
一、微信文章爬虫
1.1 tips
我们用到了搜狗的微信搜索功能,打开 http://weixin.sogou.com/ ,即可搜索微信公众号中感兴趣的热点内容。
其实微信本身也推出了搜索功能,本文第二部分有介绍。
1.2 分析过程
1.2.1 网页链接分析
可以看出链接特点,重要的参数有type,query,page。所以链接可简化为如下:
1 | <!--链接--> |
1.2.2 构造正则匹配文章链接
1 | titlePatten = '<div class="txt-box">.*?(http://.*?)"' |
取回来的链接,打开后会出现参数错误问题。
1 | 问题链接: |
对比分析得出问题是,其中每一个参数后面多了amp;
这几个字符,替换掉
1 | url.replace("amp;","") |
由此,网页链接正常了,可以通过文章链接获取具体的文章源码,从中用正则可以取出标题和内容
1.3 代理
由于频繁爬取微信文章会被搜狗官方屏蔽IP,所以需要找点代理服务器及端口备用。如http://yum.iqianyue.com/proxy 。
Linking注:这个要多试,我在实践的过程中,被警告访问频繁,所以不停的换IP测试。最终成功了。
1.4 注意事项
- 功能分开写,多个函数,一个函数一个功能,
单一职责原则
; 代理
服务器爬取在4.6节;- 爬取关注的内容后,写入对应文件;
- 注意
异常处理
,发生异常,延时处理,time.sleep(7)。
1.5 代码实现
1 | # 2017-08-27 |
结果,爬取了2个主页的文章链接,然后爬取了文章的标题和内容,构造成完整的网页之后存在1.html
这个文件中,可以直接打开。
二、微信实验室
说到微信的搜索,想起微信实验室里的两个功能,暂时是隐藏在设置里,需要手动添加的,推荐给大家。
2.1 搜一搜
此功能比常规搜索功能更强大
与本爬虫类似,微信很早就有了自己的搜索工具,只不过还没有放入主功能目录,还在实验公测阶段,需要自行手动添加。
2.2 看一看
实验室中的另一个项目,看一看
,根据你的日常浏览习惯,为你推荐比较感兴趣的文章。
添加步骤:进入微信-设置-(倒数第一项)实验室(插件)点击进入即可添加。
Linking注:腾讯这是变相的证明“人人都是产品经理”这句话,几亿用户做产品测试。
- 本文作者: Linking
- 本文链接: https://linking.fun/2018/08/27/微信公众号文章爬取/
- 版权声明: 版权所有,转载请注明出处!