前言:本文主要内容是介绍如何用最简单的办法去采集新浪微博的数据,主要是采集指定微博用户发布的微博以及微博收到的回复等内容,可以通过配置项来调整爬取的微博用户列表以及其他属性。 既然说是最简单的办法,那么我们就得先分析微博爬虫可能选择的几个目标网址,首先肯定是最常见的web网站了 还有就是m站,也就是 ...
分类:
其他好文 时间:
2020-06-22 23:27:49
阅读次数:
219
Python这门语言因其简单强大已经火了很久了,但我接触的比较晚,前几个月因为一篇博客开始初步了解这门语言,并且之后模仿某位北邮的前辈的微博写了一个新浪微博的爬虫 这里给出链接:python编写的新浪微博爬虫 当时为了能够顺便把从微博上抓下来的数据存储起来,顺便装了MySQL,之所以用MySQL,主 ...
分类:
Web程序 时间:
2019-11-27 23:09:47
阅读次数:
97
早上刷空间发现最近好多人过生日诶~仔细想想,好像4月份的时候也是特别多人过生日【比如我那么每个人生日的月份有什么分布规律呢。。。突然想写个小程序统计一下最简单易得的生日数据库大概就是新浪微博了:但是电脑版的新浪微博显然是动态网页。。。如果想爬这个应该要解析JS脚本【就像上次爬网易云音乐。。然而并不会...
分类:
编程语言 时间:
2015-09-05 12:31:09
阅读次数:
341
这次的项目 和文件都放到了 github 上 https://github.com/poiu1235/weibo-catch:
有兴趣的可以follow一下,或者点个赞咯
我这里采用的深度挖掘的方式:没有设定爬取的边界(这个以后是要考虑的)
大致的思路是,用自己的 账号登陆后,获取自己的微博列表和朋友列表。
然后根据朋友列表然后在爬取对方的微博列表和朋友列表。...
分类:
编程语言 时间:
2015-08-30 17:32:23
阅读次数:
809
刚刚开始学。
目的地是两个,一个微博,一个贴吧
存入的话,暂时还没想那么多,先存到本地文件夹吧
ubuntu14.04 python 自带,
安装了一个beautifulsoup 的 解析器 ,这里我装的是新版本,不是apt-get自带的版本
#安装版本4
apt-get install python-bs4 python-bs4-doc
开始
import...
分类:
编程语言 时间:
2015-07-27 00:24:38
阅读次数:
276
在编写微博爬虫的过程中,免不了要进行模拟登录,因为新浪微博不登陆只能访问少量的微博信息。 然而,由于新浪微博的反爬虫功能在不断更新,例如改变了密码的加密算法(RSA),以前的一些模拟登陆方式已经不适用了。所以一开始试了好几种方法,均不能成功。后来受http://www.jb51.net/art...
分类:
编程语言 时间:
2015-05-04 23:40:17
阅读次数:
3201
用WebCollector 2.x 配合另一个项目WeiboHelper,就可以直接爬取新浪微博的数据(无需手动获取cookie)...
分类:
Web程序 时间:
2015-01-02 23:44:58
阅读次数:
390
最近手头上有一个项目,是关于新浪微博的,其中有一环要做新浪微博的爬虫。虽然之前把《Python学习手册》和《Python核心编程》都囫囵吞栆地通读完了,不过真正到做项目的时候还是什么都不会。于是在网上找了大量的资料。关于获取新浪微博的内容,大致有两种方法,一种是用纯爬..
分类:
编程语言 时间:
2014-09-07 03:22:35
阅读次数:
670
用WebCollector可以轻松爬取新浪微博的数据.
首先需要一个能查看cookie的浏览器插件,推荐使用 firefox浏览器+firebug(插件).
具体步骤:
1.用浏览器打开 http://weibo.cn/pub/ 这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码...
分类:
Web程序 时间:
2014-09-01 19:39:03
阅读次数:
345
作为国内社交媒体的领航者,很遗憾,新浪微博没有提供以“关键字+时间+区域”方式获取的官方API。当我们看到国外科研成果都是基于某关键字获得的微博,心中不免凉了一大截,或者转战推特。再次建议微博能更开放些!庆幸的是,新浪提供了高级搜索功能。找不到?这个功能需要用户登录才能使用……没关系,下面将详细讲述如何在无须登录的情况下,获取“关键字+时间+区域”的新浪微博。
首先...
分类:
其他好文 时间:
2014-07-27 11:38:44
阅读次数:
386