什么是搜索引擎？

时间：2019-11-28 20:59:00 阅读：117 评论：0 收藏：0 [点我收藏+]

　　搜索引擎就是运行一些策略和算法，从互联网上获取网页信息，并将这些信息进行一些处理后保存，供用户检索的程序和系统。

　　搜索引擎的主要组成是通用爬虫。

　　通用爬虫：是指将网页整体从网络上爬取下来的程序。

　　搜索引擎能够获取所有网页的原因：搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地！

　　网页网址的来源主要有三种：（1）新网站的主动向搜索引擎提交网址

　　　　　　　　　　　　　（2）网站上面的链接

　　　　　　　　　　　　　（3）和DNS域名解析商合作，每当有新网站注册，搜索引擎就可以获得网址

　　搜索引擎的步骤：（1）抓取网页：抓取网页的过程中会有一个去重操作，网页中重复内容过多，搜索引擎可能不会保存

　　　　　　　　　　（2）预处理：提取出文字，中文分词，去除噪音（广告栏、导航栏、版权等文字），建立索引

　　　　　　　　　　（3）排版：设置排名，根据用户索引提供服务

　　通用爬虫的缺点：（1）只能整页整页的抓取，九成以上的数据是无用数据

　　　　　　　　　　（2）无法满足不同职业不同人员的需求

　　　　　　　　　　（3）无法爬取视频图片等数据

　　　　　　　　　　（4）无法根据释义判断，只能根据关键字索引

　　聚焦爬虫：在爬取数据时会根据需求进行筛选，尽量保证抓取相关的数据。　　　　

原文地址：https://www.cnblogs.com/bug-king/p/11953565.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行