各位好!从今天起,我将用几个篇幅的文字向大家介绍一下我的一个开源作品——YayCrawler,其在GitHub上的网址是:https://github.com/liushuishang/YayCrawler,欢迎大家关注和反馈。 YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架 ...
分类:
其他好文 时间:
2016-08-06 15:46:32
阅读次数:
447
public class MoviePaperPageProcessor implements PageProcessor { private Site page = Site.me().setRetryTimes(3).setSleepTime(1000); public Site getSite ...
分类:
Web程序 时间:
2016-08-05 08:50:39
阅读次数:
228
官方有详细的使用文档:http://webmagic.io/docs/zh/ 简介:这只是个java爬虫框架,具体使用需要个人去定制,没有图片验证,不能获取js渲染的网页,但简单易用,可以通过xpath和css选择符获取网页内容,官方也有超详细的文档,适合爬取简单的网页和新手学习爬虫。图片验证和js ...
分类:
Web程序 时间:
2016-07-09 22:08:35
阅读次数:
183
听到“爬虫”,是不是第一时间想到Python/php ? 多少想玩爬虫的Java学习者就因为语言不通而止步。Java是真的不能做爬虫吗? 当然不是。 只不过python的3行代码能解决的问题,而Java要30行。 这里推荐大家一个大牛做的java爬虫框架 【WebMagic】 文档简单易懂!java ...
分类:
Web程序 时间:
2016-06-20 08:53:37
阅读次数:
352
Java的IO操作
最近想用Java写一个爬虫,知乎了一下,很多人推荐如果业务逻辑不太复杂,都推荐使用国内大牛写的的一个框架webmagic,这个是java实现的,思路参照谷歌的Scrapy 。但是实现爬虫需要用到很多关于IO操作和多线程,发现这两项一直都是我java比较模糊的地方,这次就顺便学习一下,我看的是《java编程思想》。
对于IO的存取,不仅存在与各种I/O源端和想与之通信的接收端...
分类:
编程语言 时间:
2016-05-20 19:46:00
阅读次数:
278
Xsoup 0.2.0 发布,HTML 抽取器 黄亿华 发布于: 2014年03月11日 (4评) 分享到: 分享到: 分享到: 分享到: Xsoup 是一款基于 Jsoup 开发的,使用XPath抽取Html元素的工具。它被用于作者的爬虫框架 WebMagic中,进行XPath 解析和抽取。 此次 ...
分类:
其他好文 时间:
2016-05-11 13:32:27
阅读次数:
2594
一. 使用的开源库 爬虫:https://github.com/code4craft/webmagic.git 分词:https://github.com/ysc/word.git 本项目:https://github.com/umbrellary/beatles.git 二. 操作过程 进行编译 ...
分类:
Web程序 时间:
2016-05-08 16:47:37
阅读次数:
497
Jsoup代码解读之七-实现一个CSS Selector 当当当!终于来到了Jsoup的特色:CSS Selector部分。selector也是我写的爬虫框架webmagic开发的一个重点。附上一张street fighter的图,希望以后webmagic也能挑战Jsoup! select机制 Js ...
分类:
Web程序 时间:
2016-05-06 21:49:40
阅读次数:
290
Jsoup代码解读之一-概述 今天看到一个用python写的抽取正文的东东,美滋滋的用Java实现了一番,放到了webmagic里,然后发现Jsoup里已经有了…觉得自己各种不靠谱啊!算了,静下心来学学好东西吧! Jsoup是Java世界用作html解析和过滤的不二之选。支持将html解析为DOM树 ...
分类:
Web程序 时间:
2016-05-06 21:44:03
阅读次数:
702