码迷,mamicode.com
首页 > 其他好文 > 详细

火车头采集器

时间:2016-02-01 02:05:09      阅读:170      评论:0      收藏:0      [点我收藏+]

标签:

火车头是比较火的采集器,弄懂采集器的运行原理比较重要,那么火车头的采集器基本的采集方法是什么呢,我给讲讲免费版的基本采集方法。

  1. 1

    下载安装火车头采集器,有付费与免费版,百度查找下载地址。(这里不细说)

  2. 2

    下载好后,双击火车头图标打开采集器。

    技术分享
  3. 3

    进入火车头主程序页面。

    技术分享
  4. 4

    单击新建的黑小三角,新建任务。

    技术分享
  5. 5

    填写任务名,点击第二步。(采集网址不截了,以防广告)

    技术分享
  6. 6

    分析目标页面,找到要采集的内容。

    技术分享
  7. 7

    查看源文件,找到要采的内容(复制内容去搜索)

    技术分享
  8. 8

    建议用360浏览器或者360极速浏览器,找到目标内容,分析目标内容前后的代码。

    技术分享
  9. 9

    此时标题的前后代码为“<h2>”、“</h2>”。

    技术分享
  10. 10

    双击采集器“标题”。

    技术分享
  11. 11

    选择前后截取,把前后代码分别填进去,如图。

    技术分享
  12. 12

    或者,选择正则提取,如图,点击确认。

    技术分享
  13. 13

    标题采集规则制作完成,开始分析其他标签规则。

    内容中有不要的代码(如图div代码不要),可以排除。

    技术分享
  14. 14

    双击内容,进入数据处理,点击添加,出现菜单,选择html标签过滤。

    技术分享
  15. 15

    勾选不要的代码。

    技术分享
  16. 16

    检查要的内容是否全部采集进来了。

    技术分享

火车头采集器

标签:

原文地址:http://www.cnblogs.com/timdes/p/5174147.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!