码迷,mamicode.com
首页 >  
搜索关键字:webmagic    ( 94个结果
开源通用爬虫框架YayCrawler-开篇
各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品——YayCrawler,其在GitHub上的网址是:https://github.com/liushuishang/YayCrawler,欢迎大家关注和反馈。 YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架 ...
分类:其他好文   时间:2016-08-06 15:46:32    阅读次数:447
webMagic 爬虫
public class MoviePaperPageProcessor implements PageProcessor { private Site page = Site.me().setRetryTimes(3).setSleepTime(1000); public Site getSite ...
分类:Web程序   时间:2016-08-05 08:50:39    阅读次数:228
爬虫框架--webmagic
官方有详细的使用文档:http://webmagic.io/docs/zh/ 简介:这只是个java爬虫框架,具体使用需要个人去定制,没有图片验证,不能获取js渲染的网页,但简单易用,可以通过xpath和css选择符获取网页内容,官方也有超详细的文档,适合爬取简单的网页和新手学习爬虫。图片验证和js ...
分类:Web程序   时间:2016-07-09 22:08:35    阅读次数:183
基于webmagic的爬虫小应用--爬取知乎用户信息
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步。Java是真的不能做爬虫吗? 当然不是。 只不过python的3行代码能解决的问题,而Java要30行。 这里推荐大家一个大牛做的java爬虫框架 【WebMagic】 文档简单易懂!java ...
分类:Web程序   时间:2016-06-20 08:53:37    阅读次数:352
webmagic采集CSDN的Java_WebDevelop页面
使用webmagic采集博客类的网站示例...
分类:编程语言   时间:2016-05-23 15:10:02    阅读次数:1218
Java的IO系统
Java的IO操作 最近想用Java写一个爬虫,知乎了一下,很多人推荐如果业务逻辑不太复杂,都推荐使用国内大牛写的的一个框架webmagic,这个是java实现的,思路参照谷歌的Scrapy 。但是实现爬虫需要用到很多关于IO操作和多线程,发现这两项一直都是我java比较模糊的地方,这次就顺便学习一下,我看的是《java编程思想》。 对于IO的存取,不仅存在与各种I/O源端和想与之通信的接收端...
分类:编程语言   时间:2016-05-20 19:46:00    阅读次数:278
xsoup
Xsoup 0.2.0 发布,HTML 抽取器 黄亿华 发布于: 2014年03月11日 (4评) 分享到: 分享到: 分享到: 分享到: Xsoup 是一款基于 Jsoup 开发的,使用XPath抽取Html元素的工具。它被用于作者的爬虫框架 WebMagic中,进行XPath 解析和抽取。 此次 ...
分类:其他好文   时间:2016-05-11 13:32:27    阅读次数:2594
树莓派上使用webmagic抓取CSDN网站4万7千篇文章配合word分词库进行词频统计
一. 使用的开源库 爬虫:https://github.com/code4craft/webmagic.git 分词:https://github.com/ysc/word.git 本项目:https://github.com/umbrellary/beatles.git 二. 操作过程 进行编译 ...
分类:Web程序   时间:2016-05-08 16:47:37    阅读次数:497
Jsoup代码解读之五-实现一个CSS Selector
Jsoup代码解读之七-实现一个CSS Selector 当当当!终于来到了Jsoup的特色:CSS Selector部分。selector也是我写的爬虫框架webmagic开发的一个重点。附上一张street fighter的图,希望以后webmagic也能挑战Jsoup! select机制 Js ...
分类:Web程序   时间:2016-05-06 21:49:40    阅读次数:290
Jsoup代码解读之一-概述
Jsoup代码解读之一-概述 今天看到一个用python写的抽取正文的东东,美滋滋的用Java实现了一番,放到了webmagic里,然后发现Jsoup里已经有了…觉得自己各种不靠谱啊!算了,静下心来学学好东西吧! Jsoup是Java世界用作html解析和过滤的不二之选。支持将html解析为DOM树 ...
分类:Web程序   时间:2016-05-06 21:44:03    阅读次数:702
94条   上一页 1 ... 5 6 7 8 9 10 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!