搜索引擎就是运行一些策略和算法,从互联网上获取网页信息,并将这些信息进行一些处理后保存,供用户检索的程序和系统。
搜索引擎的主要组成是通用爬虫。
通用爬虫:是指将网页整体从网络上爬取下来的程序。
搜索引擎能够获取所有网页的原因:搜索引擎将所有互联网上的网页从网络上爬取下来存储在了本地!
网页网址的来源主要有三种:(1)新网站的主动向搜索引擎提交网址
(2)网站上面的链接
(3)和DNS域名解析商合作,每当有新网站注册,搜索引擎就可以获得网址
搜索引擎的步骤:(1)抓取网页:抓取网页的过程中会有一个去重操作,网页中重复内容过多,搜索引擎可能不会保存
(2)预处理:提取出文字,中文分词,去除噪音(广告栏、导航栏、版权等文字),建立索引
(3)排版:设置排名,根据用户索引提供服务
通用爬虫的缺点:(1)只能整页整页的抓取,九成以上的数据是无用数据
(2)无法满足不同职业不同人员的需求
(3)无法爬取视频图片等数据
(4)无法根据释义判断,只能根据关键字索引
聚焦爬虫:在爬取数据时会根据需求进行筛选,尽量保证抓取相关的数据。
原文地址:https://www.cnblogs.com/bug-king/p/11953565.html