码迷,mamicode.com
首页 > 其他好文 > 详细

学习使用Et采集的过程和分析

时间:2014-10-29 01:35:46      阅读:263      评论:0      收藏:0      [点我收藏+]

标签:des   io   os   ar   使用   java   for   sp   on   

bubuko.com,布布扣

ET采集主要逻辑是做好这三个步骤,然后开始工作

采集配置

基本设置一般不用修改

列表设置:列表网址,可能有些人不知道什么是列表网址,就是你所要采集网址放在一个页面就是列表网址,比如我们常说的栏目,一个论坛的版块:

bubuko.com,布布扣

列表页肯定不是一页,一般是有规律的,就需要设置成自动列表,具体规则参考ET

列表区域选择:一个网页大的去了,为了快速找到你想要采集的页面,需要制定区域,

bubuko.com,布布扣

bubuko.com,布布扣

一定要找唯一属性的,一般是找id 之类的,中间是你区域内容

列表分析规则:对列表进行分析,用标记替换找到我们需要的文章标题,文章网址,文章缩略图,常见的是包含a标签的,必须有单独标记

bubuko.com,布布扣

文章网址合成:根据列表分析得到的网址,合成你所要采集的页面的网址

 

学习使用Et采集的过程和分析

标签:des   io   os   ar   使用   java   for   sp   on   

原文地址:http://www.cnblogs.com/geek12/p/4058298.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!