word2vec介绍word2vec官网:https://code.google.com/p/word2vec/
word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。
它将term转换成向量形式,可以把对文本内容的处理简化为向量空间中的向量运算,计算出向量空间上的相似度,来表示文本语义上的相似度。
word2vec计算的是余弦值,距离范围为0-1之间,值越大代...
分类:
编程语言 时间:
2016-05-22 12:21:15
阅读次数:
647
作者:Peter D. Turney、Patrick Pantel
翻译:华南师范大学-吴玺煜...
分类:
其他好文 时间:
2016-05-13 03:34:44
阅读次数:
111
为充分利用向量空间,克服"假溢出"现象的方法是:将向量空间想象为一个首尾相接的圆环,并称这种向量为循环向量。存储在其中的队列称为循环队列(Circular Queue)。这种循环队列可以以单链表的方式来在实际编程应用中来实现。循环队列有队头和队尾2个指针,是线性结构。元素的个数是由队头指针和队尾指针 ...
分类:
其他好文 时间:
2016-04-19 13:52:03
阅读次数:
199
给定一组有限维向量空间V的基{e1, e2, ... en},一个线性变换T: V->V'的关于这组基的“矩阵分量”[T(i,j)],定义为: T ej = sigma(i = 1 to n, T(i,j) ei) = T(1,j) e1 + T(2,j) e2 + ... T(n,j) en也就是 ...
分类:
其他好文 时间:
2016-04-09 23:35:18
阅读次数:
195
1.赋范线性空间和内积空间 在线性代数的初级教材里,一般是在向量空间中定义内积,然后再由内积来导出范数,比如在n维实向量空间中: |x||=√<x,x> 在线性代数的高级教材中,一般是将内积和范数单独来定义的,而这之间可能并没有直接的关系。在向量空间中引入范数,可以得到一个赋范线性空间(normed ...
分类:
其他好文 时间:
2016-04-07 13:20:51
阅读次数:
226
1.定义 向量空间模型是一个把文本表示为标引项(Index Term)向量的代数模型,原型系统SMART*。 向量空间模型的定义很简单,文档d,查询q都用向量来表示。 查询和文档都可转化成term及其权重组成的向量表示,都可以看成空间中的点。向量之间通过距离计算得到查询和每个文档的相似度。 我们在向 ...
分类:
其他好文 时间:
2016-04-06 15:03:08
阅读次数:
499
建立文本数据数学描述的过程分为三个步骤:文本预处理、建立向量空间模型和优化文本向量。文本预处理主要采用分词、停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串。文本预处理之后,每一个文本的词条串被进一步转换为一个文本向量,向量的每一维对应一个词条,其值反映的是这个词条与这个文本之间的相似度。相似度有很多不同的计算方法,所以优化文本向量就是采用最为合适的计算方法来规范化文本向量,使其能更好...
分类:
其他好文 时间:
2016-03-29 10:48:22
阅读次数:
314
实际生活中,人们为了解决一个问题,如对象的分类(对象可是是文档、图像等),首先必须做的事情是如何来表达一个对象,即必须抽取一些特征来表示一个对象,如文本的处理中,常常用词**来表示一个文档,或把文档表示在向量空间中(称为VSM模型),然后才能提出不同的分类算法来进行分类;又如在图像处理中,我们可以用...
分类:
其他好文 时间:
2016-01-25 11:06:46
阅读次数:
149
在知识图谱构建阶段的实体对齐和属性值决策过程中、判断一篇文章是否是你喜欢的文章、比较两篇文章的相似性等,都涉及到了向量空间模型(Vector Space Model,简称VSM)和余弦相似度计算相关知识。这篇文章主要是先叙述VSM和余弦相似度相关理论知识,然后引用阮一峰大神的例子进行解释,最后通过P...
分类:
编程语言 时间:
2015-12-18 06:54:10
阅读次数:
1518
1、余弦距离余弦距离,也称为余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。向量,是多维空间中有方向的线段,如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。余弦定理描述了三角形中任何一个夹角...
分类:
其他好文 时间:
2015-12-07 13:53:23
阅读次数:
229