码迷,mamicode.com
首页 > Web开发 > 详细

投储在线新闻采集(http://www.touchu.cn)-Soukey使用说明

时间:2015-04-24 18:32:38      阅读:169      评论:0      收藏:0      [点我收藏+]

标签:

 

投储在线新闻采集(http://www.touchu.cn)-Soukey使用说明

 

1功能

采集网站数据

 

2定制采集

2.1新建任务

 

 

如果要保存采集的数据,执行类型请选择“采集并发布数据”

 

 

2.2添加采集网址

网页地址填写采集的起始网址。具体说明如下:

要采集http://www.caihuohuo.cn/Vcase.html中的文章内容,该页面可以通过点击“下一页”进行翻页,于是选中“根据下一页标识自动翻页”,下一页标识填写“下一页”。

由于该网页是文章目录列表,通过链接查看全部内容,我们需要采集每篇文章链接中的全部内容。

分析每篇文章的链接格式,均以http://www.caihuohuo.cn/Varticle/index/id/开始,所以添加导航规则:/Varticle/index/id/。如下图:

 

 

2.3添加采集规则

要在导航页面中匹配出关注的内容,通过“起始位置”和“结束位置”进行匹配,“页面采集范围”可以限制起始位置和结束位置的搜索范围。具体规则需要从网页源码中分析。如下图:

 

 

2.4发布数据

如果基本设置中的执行类型选择的是“采集并发布数据”,则可以选择把采集结果存放到文件或数据库。如下图:

 

 

2.5开始采集

开始采集只能从任务分类的任务列表中选择任务,然后再开始执行,否则会出现异常,这是软件本身的问题。

 

投储在线新闻采集(http://www.touchu.cn)-Soukey使用说明

标签:

原文地址:http://www.cnblogs.com/duwamish/p/4454017.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!