刚刚接触爬虫,听说webmagic很不错,于是就了解了一下。 webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。 这句话说的真的一点都不假,像我这样什么都不懂的人直接下载部署,看了看可以调用的方法,马上就写出了第一个爬虫小程序。 以下是我 ...
分类:
Web程序 时间:
2017-04-08 18:38:57
阅读次数:
463
在spider类中有三个方法可以初始化startRequests。可以对这些地方进行扩展。 ...
分类:
Web程序 时间:
2017-04-07 00:30:36
阅读次数:
168
今天(17-03-31)忙了一下午研究webmagic,发现自己还太年轻,对于这样难度的框架(类库) 还是难以接受,还是从基础开始吧,因为相对基础的东西教程相多一些,于是乎我找了apache其下的 HttpClient,根据前辈们发的教程自己也简单写了一下,感觉还好。 下面实现的是单个页面的获取: ...
分类:
Web程序 时间:
2017-04-01 00:03:35
阅读次数:
286
此文章是webmagic 0.1.0版的设计手册,后续版本的入门及用户手册请看这里:https://github.com/code4craft/webmagic/blob/master/user-manual.md 之前就有网友在博客里留言,觉得webmagic的实现比较有意思,想要借此研究一下爬虫 ...
分类:
编程语言 时间:
2017-02-21 17:48:24
阅读次数:
541
2016-12-29 22:00:05 [pool-44-thread-1] WARN HttpClientDownloader:104 - download page http://news.fx678.com errorjava.net.SocketTimeoutException: Read ...
分类:
Web程序 时间:
2016-12-30 10:13:13
阅读次数:
2758
在class Spider中有run函数,调用了 processRequest(requestFinal)完成对页面的下载和处理。在这个函数里面先调用downloader.download(request, this);完成页面的下载, pageProcessor.process(page);完成对 ...
分类:
Web程序 时间:
2016-10-19 07:43:05
阅读次数:
610
先看看文档对于Scheduler的作用介绍 https://code4craft.gitbooks.io/webmagic-in-action/content/zh/posts/ch1-overview/architecture.html 之前我们也介绍过了,Scheduler主要负责爬虫的下一步爬 ...
分类:
其他好文 时间:
2016-10-19 07:41:37
阅读次数:
299
【首先,查看一下CSDN的推荐专家的页面】 【然后再查看一下主页面】 准备用爬虫获取一下几个变量 1.姓名 2.访问量 3.积分 4.等级 5.排名 6.原创 7.转载 8.译文 9.评论 10.链接 11.照片 【工程截图】因为主要用到WebMagic,所有的jar包在WebMagic的git地址 ...
分类:
Web程序 时间:
2016-08-31 20:37:51
阅读次数:
171
/** * 通过w3c方式 读取xml内容 * @param lablenames 要读取的节点名称 * @param file_path_name 文件绝对路径 * @return */ public static WebMagic readXML(List<String> lablenames, ...
分类:
其他好文 时间:
2016-08-18 11:17:35
阅读次数:
149
webmagic 是一个很好并且很简单的爬虫框架,其教程网址:http://my.oschina.net/flashsword/blog/180623 webmagic参考了scrapy的模块划分,分为Spider(整个爬虫的调度框架)、Downloader(页面下载)、PageProcessor( ...
分类:
Web程序 时间:
2016-08-06 18:47:43
阅读次数:
858