码迷,mamicode.com
首页 > 其他好文 > 详细

6-14

时间:2018-06-14 20:52:14      阅读:144      评论:0      收藏:0      [点我收藏+]

标签:权重   通用   分布   rom   质量   pagerank   100%   自己的   有向图   

我在想的一件事情就是相关的问题关于自己的学习计划的问题,自己的学习计划不断的不能完成每一阶段的任务,真的是比较烦的一件事情。

  1. 分类:通用爬虫、聚焦爬虫、分布式爬虫

  2. 网络是一个有向图,所以搜索操作可以总结为对有向图的遍历。爬虫通过web页面的图结构从一个页面到另一个页面。

  3. Google具有较少的垃圾结果和公平的搜索结果两大优点,其来源于googlepagerank算法和锚点词权重。

  4. 爬虫技术:A,通用爬虫:从每一个网页尽可能多的找寻链接,去点速度慢占带宽。B,聚焦爬虫:爬取某一主题的文件,节省带宽。C分布式爬虫:多线程爬取。

  5. 现在爬虫都是同步进行的,有重载、质量和网络等问题。

6-14

标签:权重   通用   分布   rom   质量   pagerank   100%   自己的   有向图   

原文地址:https://www.cnblogs.com/coder-2017/p/9184460.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!