码迷,mamicode.com
首页 > 其他好文 > 详细

7-5

时间:2018-07-05 19:47:37      阅读:135      评论:0      收藏:0      [点我收藏+]

标签:动态   删除   搜索引擎   特性   情况   arc   更新   http   它的   

重新访问策略
网络具有动态性很强的特性。抓取网络上的一小部分内容可能会花费真的很长的时间,通常用周或者月来衡量。当爬虫完成它的抓取的任务以后,很多操作是可能会发生的,这些操作包括新建,更新和删除。
搜索引擎的角度来看,不检测这些事件是有成本的,成本就是我们仅仅拥有一份过时的资源。最常使用的成本函数,是新鲜度和过时性(2000年,Cho 和Garcia-Molina)\
爬虫的目标是尽可能高的提高页面的新鲜度,同时降低页面的过时性。这一目标并不是完全一样的,第一种情况,爬虫关心的是有多少页面时过时的;在第二种情况,爬虫关心的页面过时了多少。

7-5

标签:动态   删除   搜索引擎   特性   情况   arc   更新   http   它的   

原文地址:https://www.cnblogs.com/coder-2017/p/9269783.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!