码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
Jython使用jsoup获取网页标题与链接信息
使用jython调用java编写的Html解析库,实现自动爬取网站的链接信息...
分类:Web程序   时间:2014-09-19 01:11:04    阅读次数:304
使用scrapy爬取网站的商品数据
目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息,包括商品的一级类别,二级类别,商品title,品牌,价格。搜索了一下,python的scrapy是一个不错的爬虫框架,于是基于scrapy写了一个简易的爬虫。先分析商品页面,在http://www.muyin...
分类:Web程序   时间:2014-09-14 18:00:07    阅读次数:195
Java版网络爬虫基础
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等。这几天看了点基础,记录下来。 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先,概括的说来如下: 2个数组,一个记录已访问的网页(Al),一个记录未访问的网页(Un...
分类:编程语言   时间:2014-09-14 12:51:17    阅读次数:427
是不是谷歌的简体中文搜索结果质量被百度赶上了?
搜索的质量评估通常是看几个指标:相关度 -- 请受过训练的人来评估每个引擎的前几个结果是否相关,评估时不参考结果的来源、引擎的品牌等。索引规模 -- 每个引擎知道自己的规模,也就是有多少网页(除去重复的),但是不知道对方的规模,可是可以根据两方搜索结果的爬取,得知有多少网页是我有他无,或他有我无,从...
分类:其他好文   时间:2014-09-10 00:23:29    阅读次数:269
Android应用开发-小巫CSDN博客客户端开发开篇
Android应用开发-小巫CSDN博客客户端开发开篇 2014年9月8日 八月十五 祝各位中秋节快乐 小巫断断续续花了几个星期的时间开发了这么一款应用——小巫CSDN博客,属于私人定制的这样的一款应用,整个客户端的数据全部来自本人博客,是通过爬取本人博客地址html页面,然后解析html把数据提取出来,整个客户端的技术难点主要是如何对html界面进行分析和使用Jsoup对html代码进行解析。目...
分类:移动开发   时间:2014-09-08 08:32:26    阅读次数:333
已将GitHub scrapy-redis库升级,使其兼容最新版本Scrapy
1.代码升级 之前的问题: 随着Scrapy库的流行,scrapy-redis作为使用redis支持分布式爬取的工具,也不断的被大家发现。 但是,使用过程中你会发现的问题是由于scrapy-redis是基于较老版本的Scrapy,所以当你使用的是新版本的Scrapy时,不可避免的会出现警告,甚至错误。 关于这个问题,我总结之后在scrapy-redis库中提了出来并开了issue和作者做了...
分类:其他好文   时间:2014-09-07 17:20:55    阅读次数:226
spider JAVA如何判断网页编码 (转载)
原文链接 http://www.cnblogs.com/nanxin/archive/2013/03/27/2984320.html前言 最近做一个搜索项目,需要爬取很多网站获取需要的信息。在爬取网页的时候,需要获得该网页的编码,不然的话会发现爬取下来的网页有很多都是乱码。分析 一般情况下,网页.....
分类:编程语言   时间:2014-09-04 09:31:27    阅读次数:252
数据挖掘工具分析北京房价 (一) 数据爬取采集
一. 前言 房价永远是最让人头疼且激动的话题,尤其是在帝都,多少人一辈子都为了一套房子打拼。正好我也想用一个大家比较关心的话题作为案例,把目前我开发的这套软件进行一次完整的演练。从数据采集,到清洗,分析,和最终可视化和报告的呈现,实现一次完整的流程。一方面可以给大家切实的分享一些有用的信息,再者可....
分类:其他好文   时间:2014-09-01 22:36:13    阅读次数:834
自制数据挖掘工具分析北京房价 (二) 数据清洗
上一节我们通过爬虫工具爬取了近七万条二手房数据,那么这一节就对这些数据进行预处理,也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性 数据分析的前提是数据清洗。不论如何高大上的算法,遇到错误数据,一个异常抛出来,绝对尸横遍野。而你不能指望核心算法为你处理错.....
分类:其他好文   时间:2014-09-01 22:32:33    阅读次数:347
用WebCollector爬取新浪微博数据
用WebCollector可以轻松爬取新浪微博的数据. 首先需要一个能查看cookie的浏览器插件,推荐使用 firefox浏览器+firebug(插件). 具体步骤: 1.用浏览器打开 http://weibo.cn/pub/   这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码...
分类:Web程序   时间:2014-09-01 19:39:03    阅读次数:345
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!