首页 > 其他好文 > 详细

火车头采集器

时间：2016-02-01 02:05:09 阅读：170 评论：0 收藏：0 [点我收藏+]

标签：

火车头是比较火的采集器，弄懂采集器的运行原理比较重要，那么火车头的采集器基本的采集方法是什么呢，我给讲讲免费版的基本采集方法。

1

下载安装火车头采集器，有付费与免费版，百度查找下载地址。（这里不细说）
2

下载好后，双击火车头图标打开采集器。
3

进入火车头主程序页面。
4

单击新建的黑小三角，新建任务。
5

填写任务名，点击第二步。（采集网址不截了，以防广告）
6

分析目标页面，找到要采集的内容。
7

查看源文件，找到要采的内容（复制内容去搜索）
8

建议用360浏览器或者360极速浏览器，找到目标内容，分析目标内容前后的代码。
9

此时标题的前后代码为“<h2>”、“</h2>”。
10

双击采集器“标题”。
11

选择前后截取，把前后代码分别填进去，如图。
12

或者，选择正则提取，如图，点击确认。
13

标题采集规则制作完成，开始分析其他标签规则。

内容中有不要的代码（如图div代码不要），可以排除。
14

双击内容，进入数据处理，点击添加，出现菜单，选择html标签过滤。
15

勾选不要的代码。
16

检查要的内容是否全部采集进来了。

火车头采集器

标签：

原文地址：http://www.cnblogs.com/timdes/p/5174147.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！