码迷,mamicode.com
首页 > 其他好文 > 详细

《集体智慧编程》 第四章 搜索与排名 学习笔记

时间:2016-03-20 09:13:29      阅读:179      评论:0      收藏:0      [点我收藏+]

标签:

本章我们将学到如何检索网页、建立索引、对网页进行搜索,以及多种不同方式对搜索结果进行排名。

一.搜索引擎的组成

 (一)建立搜索引擎的步骤:

  1.找到一种搜索文档的方法。

    (1)有时可能会涉及针对网页的抓取:在互联网上先从一小组网页开始,然后再根据网页内的链接逐步追踪其它网页。

    (2)而有时可能需要我们在一组固定数量的文档范围内进行搜集,这些文档可能来自于某个公司的内部网络。

  2.为文档建立索引

    通常我们需要建立一张大的表,表中包含了文档及所有不同单词的位置信息。

  3.通过查询返回一个经过排序的文档列表


  为了运行本章中的示例,我们需要建立一个Python的模块,其中包含两个类:

    一个用于检索网页和创建数据库;另一个则通过查询数据库进行全文搜索。

  首先建立一个名为searchengine.py文件,并加入crawler类和相应的方法签名,稍后我们将进一步完善该类:

 

二.一个简单的爬虫程序

三.建立索引

四.查询

五.基于内容的排名

六.利用外部回指链接

七.从点击行为中学习

《集体智慧编程》 第四章 搜索与排名 学习笔记

标签:

原文地址:http://www.cnblogs.com/zzhzhao/p/5297115.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!