码迷,mamicode.com
首页 > 其他好文 > 详细

什么是搜索引擎?

时间:2019-11-28 20:59:00      阅读:117      评论:0      收藏:0      [点我收藏+]

标签:动向   步骤   运行   视频   导航   系统   文字   网页   重复   

  搜索引擎就是运行一些策略和算法,从互联网上获取网页信息,并将这些信息进行一些处理后保存,供用户检索的程序和系统。

  搜索引擎的主要组成是通用爬虫。

  通用爬虫:是指将网页整体从网络上爬取下来的程序。

  搜索引擎能够获取所有网页的原因:搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地!

  网页网址的来源主要有三种:(1)新网站的主动向搜索引擎提交网址

             (2)网站上面的链接

             (3)和DNS域名解析商合作,每当有新网站注册,搜索引擎就可以获得网址

  搜索引擎的步骤:(1)抓取网页:抓取网页的过程中会有一个去重操作,网页中重复内容过多,搜索引擎可能不会保存

          (2)预处理:提取出文字,中文分词,去除噪音(广告栏、导航栏、版权等文字),建立索引

          (3)排版:设置排名,根据用户索引提供服务

  通用爬虫的缺点:(1)只能整页整页的抓取,九成以上的数据是无用数据

          (2)无法满足不同职业不同人员的需求

          (3)无法爬取视频图片等数据

          (4)无法根据释义判断,只能根据关键字索引

  聚焦爬虫:在爬取数据时会根据需求进行筛选,尽量保证抓取相关的数据。    

  

  

什么是搜索引擎?

标签:动向   步骤   运行   视频   导航   系统   文字   网页   重复   

原文地址:https://www.cnblogs.com/bug-king/p/11953565.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!