搜索关键字：爬取，搜索到4795个结果！码迷,mamicode.com！

使用jython调用java编写的Html解析库，实现自动爬取网站的链接信息...

分类：Web程序时间：2014-09-19 01:11:04 阅读次数：304

目标是爬取网站http://www.muyingzhijia.com/上全部的商品数据信息，包括商品的一级类别，二级类别，商品title，品牌，价格。搜索了一下，python的scrapy是一个不错的爬虫框架，于是基于scrapy写了一个简易的爬虫。先分析商品页面，在http://www.muyin...

分类：Web程序时间：2014-09-14 18:00:07 阅读次数：195

Java版网络爬虫基础

网络爬虫不仅仅可以爬取网站的网页，图片，甚至可以实现抢票功能，网上抢购，机票查询等。这几天看了点基础，记录下来。网页的关系可以看做是一张很大的图，图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先，概括的说来如下: 2个数组，一个记录已访问的网页(Al)，一个记录未访问的网页(Un...

分类：编程语言时间：2014-09-14 12:51:17 阅读次数：427

是不是谷歌的简体中文搜索结果质量被百度赶上了？

搜索的质量评估通常是看几个指标：相关度 -- 请受过训练的人来评估每个引擎的前几个结果是否相关，评估时不参考结果的来源、引擎的品牌等。索引规模 -- 每个引擎知道自己的规模，也就是有多少网页（除去重复的），但是不知道对方的规模，可是可以根据两方搜索结果的爬取，得知有多少网页是我有他无，或他有我无，从...

分类：其他好文时间：2014-09-10 00:23:29 阅读次数：269

Android应用开发-小巫CSDN博客客户端开发开篇

Android应用开发-小巫CSDN博客客户端开发开篇 2014年9月8日八月十五祝各位中秋节快乐小巫断断续续花了几个星期的时间开发了这么一款应用——小巫CSDN博客，属于私人定制的这样的一款应用，整个客户端的数据全部来自本人博客，是通过爬取本人博客地址html页面，然后解析html把数据提取出来，整个客户端的技术难点主要是如何对html界面进行分析和使用Jsoup对html代码进行解析。目...

分类：移动开发时间：2014-09-08 08:32:26 阅读次数：333

已将GitHub scrapy-redis库升级，使其兼容最新版本Scrapy

1.代码升级之前的问题：随着Scrapy库的流行，scrapy-redis作为使用redis支持分布式爬取的工具，也不断的被大家发现。但是，使用过程中你会发现的问题是由于scrapy-redis是基于较老版本的Scrapy，所以当你使用的是新版本的Scrapy时，不可避免的会出现警告，甚至错误。关于这个问题，我总结之后在scrapy-redis库中提了出来并开了issue和作者做了...

分类：其他好文时间：2014-09-07 17:20:55 阅读次数：226

spider JAVA如何判断网页编码（转载）

原文链接 http://www.cnblogs.com/nanxin/archive/2013/03/27/2984320.html前言最近做一个搜索项目，需要爬取很多网站获取需要的信息。在爬取网页的时候，需要获得该网页的编码，不然的话会发现爬取下来的网页有很多都是乱码。分析一般情况下，网页.....

分类：编程语言时间：2014-09-04 09:31:27 阅读次数：252

数据挖掘工具分析北京房价（一）数据爬取采集

一. 前言房价永远是最让人头疼且激动的话题，尤其是在帝都，多少人一辈子都为了一套房子打拼。正好我也想用一个大家比较关心的话题作为案例，把目前我开发的这套软件进行一次完整的演练。从数据采集，到清洗，分析，和最终可视化和报告的呈现，实现一次完整的流程。一方面可以给大家切实的分享一些有用的信息，再者可....

分类：其他好文时间：2014-09-01 22:36:13 阅读次数：834

自制数据挖掘工具分析北京房价（二）数据清洗

上一节我们通过爬虫工具爬取了近七万条二手房数据，那么这一节就对这些数据进行预处理，也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性数据分析的前提是数据清洗。不论如何高大上的算法，遇到错误数据，一个异常抛出来，绝对尸横遍野。而你不能指望核心算法为你处理错.....

分类：其他好文时间：2014-09-01 22:32:33 阅读次数：347

用WebCollector爬取新浪微博数据

用WebCollector可以轻松爬取新浪微博的数据. 首先需要一个能查看cookie的浏览器插件,推荐使用 firefox浏览器+firebug(插件). 具体步骤: 1.用浏览器打开 http://weibo.cn/pub/ 这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码...

分类：Web程序时间：2014-09-01 19:39:03 阅读次数：345

共4795条上一页 1 ... 473 474 475 476 477 ... 480 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)