文本特征向量 经典的向量空间模型(VSM: Vector Space
Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量...
分类:
其他好文 时间:
2014-06-07 06:02:47
阅读次数:
248
首先,SimHash算法主要是用于文本去重的。文本去重的第一步就是判断文本的相似度,如果两个文本的相似度很
高,那么我们可以认为它们是相同的文本。
对于文本相似度的计算,传统的方法是使用向量空间模型,即Vector Space Model,即VSM,VSM计算文本相似度
的方法是这样的:先对文本进行分词,提取出特征词,然后建立文本向量,把相似度的计算转化成某种特征向量距离
的计算,比...
分类:
其他好文 时间:
2014-06-02 05:02:30
阅读次数:
500
还没读TFIDFSimilarity的代码,读了一下lucene的文档,没有特复杂,感觉还是非常严谨的。对于查询q和文档d,如果查询为纯token查询,套用向量空间模型(VSM),相似度度量使用余弦,另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(预计通常是m...
分类:
其他好文 时间:
2014-05-31 12:26:13
阅读次数:
447
在几何上定义为两个向量空间之间的一个仿射变换或者仿射映射(来自拉丁语,affinis,“和。..相关”)由一个线性变换接上一个平移组成。目录1原理2示例3相关例子1原理编辑在有限维的情况,每个仿射变换可以由一个矩阵A和一个向量b给出,它可以写作A和一个附加的列b。一个仿射变换对应于一个矩阵和一个向量...
分类:
其他好文 时间:
2014-05-26 23:23:27
阅读次数:
557
(来自质数)设 $ \mathbf V=\Bbb F_{n\times n}$ 是域
$\Bbb F$ 上所有 $n$ 阶矩阵组成的向量空间 (这里$\Bbb F=\Bbb R$ 或者 $ \Bbb C$). 证明所有形如 $MN-NM$
的矩阵形成一个线性空间.(来自 质数) 这是一个经典的结果,...
分类:
其他好文 时间:
2014-05-25 11:04:37
阅读次数:
226
## 深度表示工具Word2Vec### 简介Word2vec 是 Google 在 2013
年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K
维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2v...
分类:
其他好文 时间:
2014-05-17 21:25:42
阅读次数:
535
第48期百度技术沙龙上的《大数据场景下主题检索应用》讲座介绍了很多训练大规模主题模型的技术细节。讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献。
1. 主题模型的发展历史
a. 布尔模型 Boolean model
b. 向量空间模型 VSM (Vector space model)
c. 潜在语义索引 LSI (Latent...
分类:
其他好文 时间:
2014-05-03 21:40:07
阅读次数:
371