标签:
VSM思想
把文档表示成R|v|上的向量,从而可以计算文档与文档之间的相似度(根据欧氏距离或者余弦夹角)
那么,如何将文档将文档表示为向量呢?
首先,需要选取基向量/dimensions,基向量须是线性独立的或者正交的向量。
在IR系统中,有两种方式决定基向量:
1.核心概念的思想(core concept):把词语的类型分类,按照其在不同分类上的“倾斜程度”决定向量的值。but,很难决定基向量。
2.把出现过的term(词语)都当作是一个基向量,假定所有的基向量都是相互正交相互独立的。以下我们采用这一种方式。
一个文档的向量表示就是:所有出现在文档中的term的向量之和。
如何决定权重?
1.在文档中,某个term出现记为1,不出现记为0.
2.tf方法(term frequency):在某个文档中,记下term出现的频率(次数)。
3.tf-idf方法(inverse document frequency):原始的词项频率会面临这样一个严重的问题:即在和查询进行相关度计算时,所有词项都被认为是同等重要的。实际上,某些词项对于相关度计算来说几乎没有或很少有区分能力。一个很直接的想法就是给文档集频率较高的词项赋予较低的权重。
dft表示的是词项t出现在所有文档的数目
idft = log(N/dft) N表示的是所有文档数目。
tf-idft,d = tft,d x idft
如何计算相似度?
1.欧式距离
2.余弦夹角
....
[IR课程笔记]向量空间模型(Vector Space Model)
标签:
原文地址:http://www.cnblogs.com/leeshum/p/4889515.html