码迷,mamicode.com
首页 > 其他好文 > 详细

搜索引擎原理与实践

时间:2015-10-25 17:46:51      阅读:229      评论:0      收藏:0      [点我收藏+]

标签:

 

 编辑
随着搜索引擎技术的发展和不断完善,越来越多的人开始对搜索引擎原理和技术进行研究,越来越多的人喜欢上了搜索引擎,《搜索引擎原理与实践》一书,从教学的角度出发,全面地阐述了搜索引擎的原理和实践,包括搜索引擎的基本原理与技术、搜索引擎的数据结柳搜索引擎的爬虫、多媒体信息检索技术以及搜索引擎开发技术。该书适合高等院校计算机科学与技术专业及相关专业的高年级学生和研究生阅读参考,也适合相关领域的工程技术人员参阅。
书    名
搜索引擎原理与实践
作    者
袁津生、李群、蔡岳
ISBN
7563518614/9787563518616
页    数
329 页
出版社
北京邮电大学出版社
出版时间
2008年
装    帧
平装
开    本
16开
 

目录

  1. 目录
  2. 序言
  3. 文摘

目录编辑

第1章 搜索引擎概述
1.1 搜索引擎的概念
1.2 搜索引擎的历史
1.3 搜索引擎的分类
1.4 搜索引擎的关键技术
1.5 当代主要搜索引擎介绍
1.5.1 谷歌搜索
1.5.2 雅虎搜索
1.5.3 百度搜索
1.5.4 北大天网搜索
1.6 搜索引擎的发展
1.7 小结
思考题
第2章 搜索引擎的体系结构和工作原理
2.1 搜索引擎的体系结构
2.1.1 搜索器
2.1.2 索引器
2.1.3 检索器
2.1.4 用户接口
2.2 搜索引擎的工作原理
2.2.1 网页搜集
2.2.2 网页处理
2.2.3 查询服务
2.3 元搜索引擎
2.3.1 元搜索引擎的基本构成
2.3.2 元搜索引擎的分类
2.3.3 常用元搜索引擎介绍
2.3.4 元搜索引擎的特点
2.3.5 主要技术指标
2.4 小结
思考题
第3章 信息处理技术
3.1 检索模型
3.1.1 经典模型
3.1.2 代数模型
3.2 文本处理
3.2.1 词法分析
3.2.2 分词技术
3.2.3 无用词汇删除
3.2.4 词干提取
3.2.5 索引词选择
3.2.6 词典
3.3 文本压缩
3.3.1 基本概念
3.3.2 统计方法
3.3.3 字典方法
3.3.4 倒排文档压缩
3.4 Web信息处理
3.4.1 Web信息的特点
3.4.2 Web信息的表现方式
3.4.3 Web信息系统结构
3.5 小结
思考题
第4章 信息检索技术
4.1 顺排检索
4.1.1 表展开法
4.1.2 逻辑树展开法
4.1.3 BF算法
4.1.4 KMP算法
4.1.5 BM算法
4.2 倒排检索
4.2.1 倒排检索
4.2.2 倒排文档
4.2.3 逆波兰表达式
4.2.4 检索指令表的生成
4.2.5 检索实施
4.3 其他检索方法
4.3.1 布尔检索
4.3.2 后缀树和后缀数组
4.3.3 加权检索
4.3.4 全文检索
4.3.5 超文本检索
4.4 web信息检索
4.4.1 网页的搜集
4.4.2 网页的预处理
4.4.3 网页索引的建立
4.4.4 相似度计算与排序方法
4.5 小结
思考题
第5章 信息检索评价
5.1 相关性
5.1.1 相关性的特征
5.1.2 相关性类别
5.1.3 相关性模型
5.2 性能评价指标
5.2.1 有效性
5.2.2 查全率和查准率
5.2.3 其他指标
5.3 相关组织和会议
5.4 小结
思考题
第6章 网络搜索引擎技术
6.1 搜索引擎的基本结构
6.1.1 搜索引擎的结构分类
6.1.2 网页收集模块
6.1.3 网页索引模块
6.1.4 查询模块
6.1.5 用户界面
6.1.6 搜索引擎的主要指标及分析
6.2 搜索引擎的数据结构
6.2.1 存储结构
6.2.2 信息库
6.2.3 文本索引
6.2.4 词典
6.2.5 采样表
6.2.6 前向索引
6.2.7 后向索引
6.3 搜索引擎爬虫
6.3.1 网络爬虫
6.3.2 深度优先策略
6.3.3 广度优先策略
6.3.4 不重复抓取策略
6.3.5 网页抓取优先策略
6.3.6 网页重访策略
6.3.7 网页抓取提速策略
6.3.8 Robots协议
6.3.9 网页内容提取技术
6.4 小结
思考题
第7章 多媒体检索概述
7.1 多媒体信息
7.1.1 多媒体及多媒体技术
7.1.2 音频信息
7.1.3 图形与图像信息
7.1.4 视频信息
7.2 多媒体的基本概念
7.2.1 多媒体技术的特点
7.2.2 多媒体信息系统
7.2.3 多媒体数据库
7.2.4 多媒体信息检索
7.3 多媒体数据压缩
7.3.1 多媒体压缩原理
7.3.2 多媒体压缩编码
7.4 多媒体内容的理解
7.4.1 图像分割
7.4.2 特征提取
7.4.3 分类
7.5 多媒体信息检索的关键技术
7.5.1 信息模型和表示
……
第8章 基于内容的多媒体信息检索技术
第9章 搜索引擎开发技术
参考文献
……

序言编辑

网络的发展彻底改变了人们的思维、习惯与生活。一方面,它使我们更容易获取各种各样的信息,而另一方面,要想在数十亿网页的网络信息中精确地找到自己需要的信息简直就如“大海捞针”一般。那么在巨大的网络信息世界里,怎么样才能找到我们需要的数据呢?这就要靠搜索引擎。
面对浩如烟海的网络资源,搜索引擎就好像是航船的指南针,引领着人们在网络中冲浪。目前,搜索引擎已经成为信息检索最有效的工具。据统计,搜索引擎已经成为仅次于电子邮件的第二大网络应用服务,是用户获取信息的首要途径,在美国有超过84%的网民经常使用搜索引擎,在中国,这个数字每天都在增长。为了适应目前形势的发展,我们编写了这本书。
全书较为系统地阐述了搜索引擎的基本概念以及相关的技术,总共分为9章。第1章全面地介绍了搜索引擎的概念、搜索引擎的发展、分类及建立搜索引擎的关键技术。第2章讨论了搜索引擎的体系结构、工作原理以及元搜索引擎的概念。第3章讲述了信息处理技术,主要内容包括检索模型、文本处理技术、文本压缩技术以及Web信息处理技术。第4章介绍了信息检索技术,主要内容有顺排文档检索技术、倒排文档检索技术、布尔检索技术、加权检索技术、全文检索技术、超文本检索技术以及Web信息检索技术。第5章讨论了信息检索系统的性能评价问题,主要内容有相关性的评价、查全率和查准率等内容。第6章介绍了网络搜索引擎技术,主要内容有搜索引擎的基本结构、搜索引擎的数据结构、搜索引擎爬虫等。第7章介绍了多媒体信息检索的基本概念,主要内容有多媒体信息的知识、多媒体的基本概念、多媒体数据压缩、多媒体内容的理解以及多媒体信息检索的关键技术。第8章讨论了基于内容的多媒体,主要内容有基于内容的多媒体检索原理与特点、基于内容的音频检索、基于内容的图像检索以及基于内容的视频检索。第9章介绍了搜索引擎开发技术,主要内容有搜索引擎开发实例简介、环境的搭建与配置、网页搜集技术、网页预处理技术和查询服务。

文摘编辑

第1章 搜索引擎概述
在浩瀚的网络资源中,搜索引擎(Search Engine)是一种网上信息检索工具,它能帮助用户迅速而全面地找到所需要的信息。我们可以这样对搜索引擎进行定义:搜索引擎是一种能够通过因特网接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统。多数网上用户使用搜索引擎来获得所需信息,据CNNIC的统计,用搜索引擎搜索仅次于电子邮件的应用。目前网上比较有影响的中文搜索工具有:Google、百度(Baidu)、北大天网、爱问(iask)、雅虎(Yahoo)、搜狗(Sogou)等搜索引擎。英文的有:Yahoo、AltaVista、Excite、Infoseek、Lycos、Aol等。另外还有专用搜索引擎,例如,专门搜索歌曲和音乐的;专门搜索电子邮件地址、电话与地址及公众信息的;专门搜索各种文件的FTP搜索引擎等。
本章主要介绍搜索引擎的概念、搜索引擎的发展史、搜索引擎的分类以及一些著名的搜索引擎。
1.1 搜索引擎的概念
搜索引擎是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。
搜索引擎并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。真正意义上的搜索引擎,通常指的是收集了互联网上几千万到几十亿个网页并对网页中的每一个词(即关键词)进行索引,建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候,所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后,这些结果将按照与搜索关键词的相关度高低,依次排列。

搜索引擎原理与实践

标签:

原文地址:http://www.cnblogs.com/little-aladdin/p/4909104.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!