python爬虫之新浪微博评论

2018-03-19

× 文章目录

1. [0] 寻找 weibo 评论接口
2. [1] 微博开放平台创建应用
3. [2] 微博api 接口
4. [3] 编写简单测试代码
5. 结尾

今天继续进行毕设工作，昨天完成今日头条爬虫之后，今天开始编写微博评论的爬虫。

环境：
ubuntu16.10
python3.5

一开始我用老一套爬虫方法”chrome登录网站，F12->network查找相应接口”，废老劲找到了评论接口，结果返回结果是html格式。于是google微博api，没想到找到这篇博客，于是开启了轻松愉快的爬虫。

[0] 寻找 weibo 评论接口

爬虫最重要的就是找到合适的接口，这是我目前对爬虫的理解，找到合适的接口能给你减少一半以上的工作。微博作为流量数一数二的平台，早就公开了开发者接口。那我们就来看看怎么使用weibo 开发者 api。

[1] 微博开放平台创建应用

登录微博开放平台，注册个人或公司看自己需求，我注册的个人。
Alt text
微连接–>其他–>随意填写信息，完成新应用创建.
然后就可以在我的应用中看到自己刚刚创建的应用。点击应用信息

我们需要的是这个新应用的两样东西：App Key和App Secret
点击高级信息，将https://api.weibo.com/oauth2/default.html填入授权回调页和取消授权回调页。
到这里我们已经完成开发者的申请。

[2] 微博api 接口

在微博API页面找到评论接口：
Alt text

[3] 编写简单测试代码

首先安装 sinaweibopy 模块，我本来想尝试用python3装，但是遇到错误： Alt text 。google 百度都没有找到解决方法。结合博客：和错误信息，觉得是这个模块并不支持python3，于是用python2.7进行了测试。

测试代码参考文章开头链接。

结尾

上面是很好的方法，但我并没有使用这种方法，而是爬去这两个接口：

热评接口：'https://m.weibo.cn/single/rcList?format=cards&id=' + 单条微博id + '&type=comment&hot=1&page=' + 页码最新评论接口：'https://m.weibo.cn/api/comments/show?id=' + 单条微博id + '&page=' + 页码

我采用的方法：scrapy + redis +（cookies、ip、UserAgent池）+ Mysql。详情下回揭晓。