码迷,mamicode.com
首页 > 其他好文 > 详细

搜索相关知识

时间:2014-11-02 23:49:24      阅读:398      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   io   color   ar   sp   文件   on   

1,TF-IDF (Term Frequence - Inverse Document Frequency)

这个算法用来评价一个词(Term)对整个文档的重要程度,它只考虑了两个因素:(1) 这个词条在本文档中出现的次数是否高 (2) 这个词在所有文档中出现的次数是否高。算法的思想很容易搞懂:在本文档中出现次数多的词儿自然是重要的,但是得惩罚那些常用词汇,也就是所有文档中出现的次数都很高词。TF-IDF经常用在搜索引擎,用来计算query与document的相关度。

公式去看维基百科:http://en.wikipedia.org/wiki/Tf%E2%80%93idf

 

2,VSM 空间向量模型

是一个用来表示文本文件的代数模型。

维基百科:http://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B

 

3,PageRank Algorithm

PageRank是用来衡量一个网页质量的算法。下面这句话概括的非常精辟:

“PageRank works by counting the number and quality of links to a page to determine a rough estimate of how important the website is. The underlying assumption is that more important websites are likely to receive more links from other websites.”

PageRank算法的输出是一个概率分布,这个概率分布描述了任意一次点击到达互联网上的某一个网页的概率(represent the likelihood that a person randomly clicking on links will arrive at any particular page)。

维基百科:http://en.wikipedia.org/wiki/PageRank

 

4,图解google搜索过程

bubuko.com,布布扣

搜索相关知识

标签:style   blog   http   io   color   ar   sp   文件   on   

原文地址:http://www.cnblogs.com/orchid/p/4070164.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!