标签:web爬虫
第一、爬虫及其行为方式
1.根集
2.连接的提取和相对链接的标准化
从页面提取出链接,然后把相对链接转化为绝对链接
3.避免环路的出现
4.循环和复制
5.记录爬过得链接
6.规范URL
7.避免循环和重复
8.机器人的HTTP
http1.1加host首部
9.web站点和robots.txt文件
1.获取robots.txt
2.robots文件采用了非常简单的、面向行的语法
robotx.txt有三种类型的行:空行、注释行、规则行
User-Agent:<robot-name>
Disallow:URL list
机器人将期望访问的url与上面的URL list做比较,如果不在list内,说明可以访问该URL
标签:web爬虫
原文地址:http://blog.csdn.net/richard_rufeng/article/details/28626599