文本特征向量 经典的向量空间模型(VSM: Vector Space
Model)由Salton等人于60年代提出,并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量...
分类:
其他好文 时间:
2014-06-07 06:02:47
阅读次数:
248
当然在查询中有的不可避免要执行索引回表读,那么什么情况下索引回表读的效率更高呢回表查询的效率和聚合因子有关如果某个索引列的列值在表中是有序存放的如1
到10000,我们知道索引列的值在索引中是有序存放的,表和索引两者的排列顺序相似度很高我们就说聚合因子比较低如果某个索引列的值在表中是无序存放的,那么...
分类:
其他好文 时间:
2014-06-03 09:09:51
阅读次数:
400
还没读TFIDFSimilarity的代码,读了一下lucene的文档,没有特复杂,感觉还是非常严谨的。对于查询q和文档d,如果查询为纯token查询,套用向量空间模型(VSM),相似度度量使用余弦,另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(预计通常是m...
分类:
其他好文 时间:
2014-05-31 12:26:13
阅读次数:
447
日前各大高校为了防止申请博士、硕士、工程硕士专业学位人员的学位论文存在一些抄袭等学术不端的行为,高校各研究生培养单位普遍启用了论文检测系统,通过论文检测系统来对论文进行论文相似度检测,如果发现论文的抄袭率达到高校所要求的水平会要求重新对论文进行修改,如果论文抄袭率严重超标将会直接取消论文答辩资格,严...
分类:
其他好文 时间:
2014-05-26 02:42:39
阅读次数:
211
1 using System; 2 using System.Collections.Generic;
3 using System.Text; 4 5 namespace ConsoleApplication6 6 { 7 class semblance 8 {
9 10 ...
分类:
数据库 时间:
2014-05-26 02:11:57
阅读次数:
486
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。
为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, ...
分类:
其他好文 时间:
2014-05-25 07:01:04
阅读次数:
317
计算字符串的相似度
提出问题
许多程序会大量使用字符串。对于不同的字符串,我们希望能够有办法判断其相似程度。我们定义了一套操作方法来把两个不相同的字符串变得相同,具体的操作方法为:
1.修改一个字符(如把“a”替换为“b”)。
2.增加一个字符(如把“abdd”变为“aebdd”)。
3.删除一个字符(如把“travelling”变为“traveling”)。
比如,对于“abcdef...
分类:
其他好文 时间:
2014-05-24 19:32:33
阅读次数:
289
有关字符串相关比较问题,一般处理方法都选择动态规划处理方法。或者是单个循环,或者是多个循环;dp遇到这种两个串的问题,很容易想到DP。但是这道题的递推关系不明显。可以先尝试做一个二维的表int[][]
dp,用来记录匹配子序列的个数(以S="rabbbit",T="rabbit"为例): r a b...
分类:
其他好文 时间:
2014-05-21 23:01:16
阅读次数:
229
## 深度表示工具Word2Vec### 简介Word2vec 是 Google 在 2013
年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为 K
维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。Word2v...
分类:
其他好文 时间:
2014-05-17 21:25:42
阅读次数:
535
网上流传很久的一份资料《SEO中HTML标签权重》,这里做一份备份。HTML标签权重分值排列内部链接文字:10分 标题title:10分 域名:7分
H1,H2字号标题:5分 每段首句:5分 路径或文件名:4分 相似度(关键词堆积):4分 每句开头:1.5分 加粗或斜体:1分 文本...
分类:
Web程序 时间:
2014-05-16 03:46:25
阅读次数:
495