很多做社交媒体数据分析的同学需要采集一些新浪微博上的数据,新浪微博虽然有提供api,但免费的api对获取的数据项和获取的频率都有很大的限制,商业版api据说限制较少,但是作为屌丝学生党拿来那么多钱买买商业版的api?!!! 微博模拟登陆 直接写爬虫需先登录到新浪微博,否则爬虫一直返回登录页面不给数据 ...
分类:
编程语言 时间:
2016-07-29 22:55:42
阅读次数:
246
早上刷空间发现最近好多人过生日诶~仔细想想,好像4月份的时候也是特别多人过生日【比如我那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下最简单易得的生日数据库大概就是新浪微博了:但是电脑版的新浪微博显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会...
分类:
编程语言 时间:
2015-09-05 12:31:09
阅读次数:
341
这次的项目 和文件都放到了 github 上 https://github.com/poiu1235/weibo-catch:
有兴趣的可以follow一下,或者点个赞咯
我这里采用的深度挖掘的方式:没有设定爬取的边界(这个以后是要考虑的)
大致的思路是,用自己的 账号登陆后,获取自己的微博列表和朋友列表。
然后根据朋友列表然后在爬取对方的微博列表和朋友列表。...
分类:
编程语言 时间:
2015-08-30 17:32:23
阅读次数:
809
刚刚开始学。
目的地是两个,一个微博,一个贴吧
存入的话,暂时还没想那么多,先存到本地文件夹吧
ubuntu14.04 python 自带,
安装了一个beautifulsoup 的 解析器 ,这里我装的是新版本,不是apt-get自带的版本
#安装版本4
apt-get install python-bs4 python-bs4-doc
开始
import...
分类:
编程语言 时间:
2015-07-27 00:24:38
阅读次数:
276
在编写微博爬虫的过程中,免不了要进行模拟登录,因为新浪微博不登陆只能访问少量的微博信息。 然而,由于新浪微博的反爬虫功能在不断更新,例如改变了密码的加密算法(RSA),以前的一些模拟登陆方式已经不适用了。所以一开始试了好几种方法,均不能成功。后来受http://www.jb51.net/art...
分类:
编程语言 时间:
2015-05-04 23:40:17
阅读次数:
3201
背景:实验室大数据分析需要得到社交网站的数据,首选当然是新浪。数据包括指定关键词、话题、位置的微博的内容。字段包括:图片、时间、用户、位置信息。思路分析:要爬新浪的数据主要有2种方法: 1.微博开发者平台提供的微博API,资源包括微博内容、评论、用户、关系、话题等信息。同时,你也可以申请高级接口、....
分类:
其他好文 时间:
2015-04-01 10:53:59
阅读次数:
268
用WebCollector 2.x 配合另一个项目WeiboHelper,就可以直接爬取新浪微博的数据(无需手动获取cookie)...
分类:
Web程序 时间:
2015-01-02 23:44:58
阅读次数:
390
最近手头上有一个项目,是关于新浪微博的,其中有一环要做新浪微博的爬虫。虽然之前把《Python学习手册》和《Python核心编程》都囫囵吞栆地通读完了,不过真正到做项目的时候还是什么都不会。于是在网上找了大量的资料。关于获取新浪微博的内容,大致有两种方法,一种是用纯爬..
分类:
编程语言 时间:
2014-09-07 03:22:35
阅读次数:
670
用WebCollector可以轻松爬取新浪微博的数据.
首先需要一个能查看cookie的浏览器插件,推荐使用 firefox浏览器+firebug(插件).
具体步骤:
1.用浏览器打开 http://weibo.cn/pub/ 这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码...
分类:
Web程序 时间:
2014-09-01 19:39:03
阅读次数:
345
作为国内社交媒体的领航者,很遗憾,新浪微博没有提供以“关键字+时间+区域”方式获取的官方API。当我们看到国外科研成果都是基于某关键字获得的微博,心中不免凉了一大截,或者转战推特。再次建议微博能更开放些!庆幸的是,新浪提供了高级搜索功能。找不到?这个功能需要用户登录才能使用……没关系,下面将详细讲述如何在无须登录的情况下,获取“关键字+时间+区域”的新浪微博。
首先...
分类:
其他好文 时间:
2014-07-27 11:38:44
阅读次数:
386