搜索关键字：数据爬取，搜索到207个结果！码迷,mamicode.com！

python实现人人网用户数据爬取及简单分析

这是之前做的一个小项目。这几天刚好整理了一些相关资料，顺便就在这里做一个梳理啦~ 简单来说这个项目实现了，登录人人网并爬取用户数据。并对用户数据进行分析挖掘，终于效果例如以下：1、存储人人网用户数据（户主的全部好友、户主好友的全部好友、户主及好友关注的公共主页）。2、信息可视化，绘制户主好友间的关....

分类：编程语言时间：2016-01-22 13:33:19 阅读次数：164

python爬虫（二）：向网页提交数据

python爬虫（二）：向网页提交数据回忆一下，我们有的时候在看一些网站的时候，是否遇见过一些网站里面的信息开始显示一部分，然后当我们把鼠标滑轮向下拉动后，又显示出一些信息。这就是异步加载。我的上一篇文章python爬虫百度贴吧标题数据爬取的所有标题都是页面已经加载好的。但是对于这种开始没有加载好的数据我们应该如何爬取呢？接下来我们先介绍下一些概念：异步加载：举个简单的例子就是说，假如老师判作业，...

分类：编程语言时间：2015-08-06 16:58:15 阅读次数：327

大数据处理之道（htmlparser 过滤器<二>）

一：起因（1）最近用于任务需要一直在爬取网页HTML的内容，与类似于爬虫的HtmlParser接触的比较多，爬取无非就是过滤自己想要的信息，因此Filter是核心，当然String类中的matches（regex）函数和contains(str)函数也是非常有用的（2）经常和爬虫打交道就会分析各式各样的网站设计以及布局：用的设计的非常有规律，如QQ空间，微博信息等爬取非常简单（当时要想翻页...

分类：Web程序时间：2014-12-25 18:28:39 阅读次数：325

Scrapy系列教程（3）------Spider（爬虫核心，定义链接关系和网页信息抽取）

Spiders Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说，爬取的循环类似下文: 以初始的URL初始化Request，并设置回调函数。当该request下载完毕并返回时，将生...

分类：Web程序时间：2014-11-20 12:04:07 阅读次数：329

TeamWork#3,Week5,Performance Test of Crawlers

爬虫总体性能不错，能完成基本的网络数据爬取，没有功能上的缺陷。下图为饿了么网站商户信息爬取结果及原网站信息。大部分信息是正确的，但也有一些错误。比如下图，小渝馆家常菜和渝码头川菜位置爬取错了。再比如鑫蜀轩酒楼和久久丫的顺序错了。quantity_sold这一项，有的没有数据，是网站标签的问题，不是爬...

分类：其他好文时间：2014-11-19 20:18:35 阅读次数：161

数据挖掘工具分析北京房价（一）数据爬取采集

一. 前言房价永远是最让人头疼且激动的话题，尤其是在帝都，多少人一辈子都为了一套房子打拼。正好我也想用一个大家比较关心的话题作为案例，把目前我开发的这套软件进行一次完整的演练。从数据采集，到清洗，分析，和最终可视化和报告的呈现，实现一次完整的流程。一方面可以给大家切实的分享一些有用的信息，再者可....

分类：其他好文时间：2014-09-01 22:36:13 阅读次数：834

Python爬取京东商品数据

对京东某一商品信息页面的HTML代码进行分析，可以发现它的图书产品信息页面都含有这样一段代码（不同类的商品页面有些不同）： window.pageConfig={compatible:true,searchType: 1,product:{"skuid":"11408255","name":"\u4f17\u795e\u7684\u536b\u661f\uff1a\u4e2d\u56fd\u79...

分类：编程语言时间：2014-06-18 11:20:32 阅读次数：275

共207条上一页 1 ... 19 20 21

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)