标签:containe 数据 contain 运行 ges 51cto val 接下来 字典
随着代理IP技术的普及,爬虫的使用也变得简单起来,许多企业和个人都开始用爬虫技术来抓取数据。那么今天就来分享一个爬虫实例,帮助你们更好的理解爬虫。下面我们用程序模拟Ajax请求,将我的前10页微博全部爬取下来。随后,我们需要定义一个解析方法,用来从结果中提取想要的信息,比如这次想保存微博的id、正文、赞数、评论数和转发数这几个内容,那么可以先遍历cards,然后获取mblog中的各个信息,赋值为一个新的字典返回即可:
这里我们借助pyquery将正文中的HTML标签去掉。
最后,遍历一下page,一共10页,将提取到的结果打印输出即可:
另外,我们还可以加一个方法将结果保存到MongoDB数据库:
这样所有功能就实现完成了。运行程序后,样例输出结果如下:
查看一下MongoDB,相应的数据也被保存到MongoDB,如下图所示。
这样,我们就顺利通过分析Ajax并编写爬虫爬取下来了微博列表。通过这个实例,我们主要学会了怎样去分析Ajax请求,怎样用程序来模拟抓取Ajax请求。
标签:containe 数据 contain 运行 ges 51cto val 接下来 字典
原文地址:http://blog.51cto.com/14062184/2327612