码迷,mamicode.com
首页 > 其他好文 > 详细

2-2 搜索引擎工作原理简介

时间:2017-06-21 20:01:10      阅读:154      评论:0      收藏:0      [点我收藏+]

标签:搜索引擎   搜索结果   工作原理   数据库   

搜索引擎的工作过程大体上可以分成三个阶段:

1、爬行和抓取:搜索引擎蜘蛛通过跟踪链接访问网页,获得页面HTML代码存入数据库。

(1)蜘蛛

(2)跟踪链接

(3)吸引蜘蛛

(4)地址库

(5)文件存储

(6)爬行时的复制内容检测

2、预处理:索引程序对抓取来的页面数据进行文字提取、中文分词、索引等处理,以备排名程序调用。

(1)提取文字

(2)中文分词

(3)去停止词

(4)消除噪声

(5)去重

(6)正向索引

(7)倒排索引

(8)链接关系计算

(9)特殊文件处理

3、排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定格式生成搜索结果页面。

(1)搜索词处理

(2)文件匹配

(3)初始子集的选择

(4)相关性计算

(5)排名过滤及调整

(6)排名显示

(7)搜索缓存

(8)查询及点击日志


本文出自 “11934408” 博客,请务必保留此出处http://11944408.blog.51cto.com/11934408/1940669

2-2 搜索引擎工作原理简介

标签:搜索引擎   搜索结果   工作原理   数据库   

原文地址:http://11944408.blog.51cto.com/11934408/1940669

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!