首页 > Web开发 > 详细

web爬虫

时间：2014-06-08 17:18:02 阅读：264 评论：0 收藏：0 [点我收藏+]

标签：web爬虫

第一、爬虫及其行为方式

1.根集

2.连接的提取和相对链接的标准化

从页面提取出链接，然后把相对链接转化为绝对链接

3.避免环路的出现

4.循环和复制

5.记录爬过得链接

树和散列表
有损的存在位图
集群和索引

6.规范URL

7.避免循环和重复

规范URL
广度优先的爬行
节流：限制一段时间内机器人可以从一个WEB站点获取的页面的数量
限制URL的大小
URL/站点黑白名单
内容识别
模式检测
人工监视

8.机器人的HTTP

http1.1加host首部

9.web站点和robots.txt文件

1.获取robots.txt

2.robots文件采用了非常简单的、面向行的语法

robotx.txt有三种类型的行：空行、注释行、规则行

User-Agent：<robot-name>

Disallow:URL list

机器人将期望访问的url与上面的URL list做比较，如果不在list内，说明可以访问该URL

web爬虫,布布扣,bubuko.com

标签：web爬虫

原文地址：http://blog.csdn.net/richard_rufeng/article/details/28626599

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！