码迷,mamicode.com
首页 >  
搜索关键字:数据爬取    ( 207个结果
python实现人人网用户数据爬取及简单分析
这是之前做的一个小项目。这几天刚好整理了一些相关资料,顺便就在这里做一个梳理啦~ 简单来说这个项目实现了,登录人人网并爬取用户数据。并对用户数据进行分析挖掘,终于效果例如以下:1、存储人人网用户数据(户主的全部好友、户主好友的全部好友、户主及好友关注的公共主页)。2、信息可视化,绘制户主好友间的关....
分类:编程语言   时间:2016-01-22 13:33:19    阅读次数:164
python爬虫(二):向网页提交数据
python爬虫(二):向网页提交数据回忆一下,我们有的时候在看一些网站的时候,是否遇见过一些网站里面的信息开始显示一部分,然后当我们把鼠标滑轮向下拉动后,又显示出一些信息。这就是异步加载。我的上一篇文章python爬虫百度贴吧标题数据爬取的所有标题都是页面已经加载好的。但是对于这种开始没有加载好的数据我们应该如何爬取呢?接下来我们先介绍下一些概念: 异步加载:举个简单的例子就是说,假如老师判作业,...
分类:编程语言   时间:2015-08-06 16:58:15    阅读次数:327
大数据处理之道 (htmlparser 过滤器<二>)
一:起因 (1)最近用于任务需要一直在爬取网页HTML的内容,与类似于爬虫的HtmlParser接触的比较多,爬取无非就是过滤自己想要的信息,因此Filter是核心,当然String类中的matches(regex)函数和contains(str)函数也是非常有用的 (2)经常和爬虫打交道就会分析各式各样的网站设计以及布局:用的设计的非常有规律,如QQ空间,微博信息等爬取非常简单(当时要想翻页...
分类:Web程序   时间:2014-12-25 18:28:39    阅读次数:325
Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
Spiders Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 对spider来说,爬取的循环类似下文: 以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生...
分类:Web程序   时间:2014-11-20 12:04:07    阅读次数:329
TeamWork#3,Week5,Performance Test of Crawlers
爬虫总体性能不错,能完成基本的网络数据爬取,没有功能上的缺陷。下图为饿了么网站商户信息爬取结果及原网站信息。大部分信息是正确的,但也有一些错误。比如下图,小渝馆家常菜和渝码头川菜位置爬取错了。再比如鑫蜀轩酒楼和久久丫的顺序错了。quantity_sold这一项,有的没有数据,是网站标签的问题,不是爬...
分类:其他好文   时间:2014-11-19 20:18:35    阅读次数:161
数据挖掘工具分析北京房价 (一) 数据爬取采集
一. 前言 房价永远是最让人头疼且激动的话题,尤其是在帝都,多少人一辈子都为了一套房子打拼。正好我也想用一个大家比较关心的话题作为案例,把目前我开发的这套软件进行一次完整的演练。从数据采集,到清洗,分析,和最终可视化和报告的呈现,实现一次完整的流程。一方面可以给大家切实的分享一些有用的信息,再者可....
分类:其他好文   时间:2014-09-01 22:36:13    阅读次数:834
Python爬取京东商品数据
对京东某一商品信息页面的HTML代码进行分析,可以发现它的图书产品信息页面都含有这样一段代码(不同类的商品页面有些不同): window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u79...
分类:编程语言   时间:2014-06-18 11:20:32    阅读次数:275
207条   上一页 1 ... 19 20 21
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!