标签:style blog http io color ar sp 文件 on
1,TF-IDF (Term Frequence - Inverse Document Frequency)
这个算法用来评价一个词(Term)对整个文档的重要程度,它只考虑了两个因素:(1) 这个词条在本文档中出现的次数是否高 (2) 这个词在所有文档中出现的次数是否高。算法的思想很容易搞懂:在本文档中出现次数多的词儿自然是重要的,但是得惩罚那些常用词汇,也就是所有文档中出现的次数都很高词。TF-IDF经常用在搜索引擎,用来计算query与document的相关度。
公式去看维基百科:http://en.wikipedia.org/wiki/Tf%E2%80%93idf
2,VSM 空间向量模型
是一个用来表示文本文件的代数模型。
维基百科:http://zh.wikipedia.org/wiki/%E5%90%91%E9%87%8F%E7%A9%BA%E9%96%93%E6%A8%A1%E5%9E%8B
3,PageRank Algorithm
PageRank是用来衡量一个网页质量的算法。下面这句话概括的非常精辟:
“PageRank works by counting the number and quality of links to a page to determine a rough estimate of how important the website is. The underlying assumption is that more important websites are likely to receive more links from other websites.”
PageRank算法的输出是一个概率分布,这个概率分布描述了任意一次点击到达互联网上的某一个网页的概率(represent the likelihood that a person randomly clicking on links will arrive at any particular page)。
维基百科:http://en.wikipedia.org/wiki/PageRank
4,图解google搜索过程
标签:style blog http io color ar sp 文件 on
原文地址:http://www.cnblogs.com/orchid/p/4070164.html