标签:
投储在线新闻采集(http://www.touchu.cn)-Soukey使用说明
采集网站数据
如果要保存采集的数据,执行类型请选择“采集并发布数据”
网页地址填写采集的起始网址。具体说明如下:
要采集http://www.caihuohuo.cn/Vcase.html中的文章内容,该页面可以通过点击“下一页”进行翻页,于是选中“根据下一页标识自动翻页”,下一页标识填写“下一页”。
由于该网页是文章目录列表,通过链接查看全部内容,我们需要采集每篇文章链接中的全部内容。
分析每篇文章的链接格式,均以http://www.caihuohuo.cn/Varticle/index/id/开始,所以添加导航规则:/Varticle/index/id/。如下图:
要在导航页面中匹配出关注的内容,通过“起始位置”和“结束位置”进行匹配,“页面采集范围”可以限制起始位置和结束位置的搜索范围。具体规则需要从网页源码中分析。如下图:
如果基本设置中的执行类型选择的是“采集并发布数据”,则可以选择把采集结果存放到文件或数据库。如下图:
开始采集只能从任务分类的任务列表中选择任务,然后再开始执行,否则会出现异常,这是软件本身的问题。
投储在线新闻采集(http://www.touchu.cn)-Soukey使用说明
标签:
原文地址:http://www.cnblogs.com/duwamish/p/4454017.html