搜索关键字：相似度，搜索到854个结果！码迷,mamicode.com！

网络挖掘技术——微博文本特征提取

文本特征向量经典的向量空间模型(VSM: Vector Space Model)由Salton等人于60年代提出，并成功地应用于著名的SMART文本检索系统。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量...

分类：其他好文时间：2014-06-07 06:02:47 阅读次数：248

聚合因子

当然在查询中有的不可避免要执行索引回表读，那么什么情况下索引回表读的效率更高呢回表查询的效率和聚合因子有关如果某个索引列的列值在表中是有序存放的如1 到10000，我们知道索引列的值在索引中是有序存放的，表和索引两者的排列顺序相似度很高我们就说聚合因子比较低如果某个索引列的值在表中是无序存放的，那么...

分类：其他好文时间：2014-06-03 09:09:51 阅读次数：400

Lucene TFIDF打分公式

还没读TFIDFSimilarity的代码，读了一下lucene的文档，没有特复杂，感觉还是非常严谨的。对于查询q和文档d,如果查询为纯token查询，套用向量空间模型(VSM),相似度度量使用余弦，另外再加一个coord(q,d)即d中满足q中must和should查询条件个数的度量(预计通常是m...

分类：其他好文时间：2014-05-31 12:26:13 阅读次数：447

高校启用论文检测系统防止学生论文抄袭行为

日前各大高校为了防止申请博士、硕士、工程硕士专业学位人员的学位论文存在一些抄袭等学术不端的行为，高校各研究生培养单位普遍启用了论文检测系统，通过论文检测系统来对论文进行论文相似度检测，如果发现论文的抄袭率达到高校所要求的水平会要求重新对论文进行修改，如果论文抄袭率严重超标将会直接取消论文答辩资格，严...

分类：其他好文时间：2014-05-26 02:42:39 阅读次数：211

字符串相似度计算的方法，使用SQL以及C#实现，本文非原创摘自网络（.NET SQL技术交流群入群206656202需注明博客园）

1 using System; 2 using System.Collections.Generic; 3 using System.Text; 4 5 namespace ConsoleApplication6 6 { 7 class semblance 8 { 9 10 ...

分类：数据库时间：2014-05-26 02:11:57 阅读次数：486

相似度度量距离

在数据分析和数据挖掘的过程中，我们经常需要知道个体间差异的大小，进而评价个体的相似性和类别。最常见的是数据分析中的相关分析，数据挖掘中的分类和聚类算法，如K最近邻（KNN）和K均值（K-Means）。当然衡量个体差异的方法有很多，最近查阅了相关的资料，这里整理罗列下。为了方便下面的解释和举例，先设定我们要比较X个体和Y个体间的差异，它们都包含了N个维的特征，即X=（x1， x2， x3， ...

分类：其他好文时间：2014-05-25 07:01:04 阅读次数：317

计算字符串的相似度

计算字符串的相似度提出问题许多程序会大量使用字符串。对于不同的字符串，我们希望能够有办法判断其相似程度。我们定义了一套操作方法来把两个不相同的字符串变得相同，具体的操作方法为： 1.修改一个字符（如把“a”替换为“b”）。 2.增加一个字符（如把“abdd”变为“aebdd”）。 3.删除一个字符（如把“travelling”变为“traveling”）。比如，对于“abcdef...

分类：其他好文时间：2014-05-24 19:32:33 阅读次数：289

比较字符串总结：如果计算两个字符串的相似度或者距离

有关字符串相关比较问题，一般处理方法都选择动态规划处理方法。或者是单个循环，或者是多个循环；dp遇到这种两个串的问题，很容易想到DP。但是这道题的递推关系不明显。可以先尝试做一个二维的表int[][] dp，用来记录匹配子序列的个数（以S="rabbbit",T="rabbit"为例）： r a b...

分类：其他好文时间：2014-05-21 23:01:16 阅读次数：229

文本深度表示工具Word2Vec

## 深度表示工具Word2Vec### 简介Word2vec 是 Google 在 2013 年年中开源的一款将词表征为实数值向量的高效工具, 其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为 K 维向量空间中的向量运算，而向量空间上的相似度可以用来表示文本语义上的相似度。Word2v...

分类：其他好文时间：2014-05-17 21:25:42 阅读次数：535

SEO中HTML标签权重列表

网上流传很久的一份资料《SEO中HTML标签权重》，这里做一份备份。HTML标签权重分值排列内部链接文字：10分标题title：10分域名：7分 H1,H2字号标题：5分每段首句：5分路径或文件名：4分相似度（关键词堆积）：4分每句开头：1.5分加粗或斜体：1分文本...

分类：Web程序时间：2014-05-16 03:46:25 阅读次数：495

共854条上一页 1 ... 83 84 85 86 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)