http://www.ruanyifeng.com/blog/2013/03/tf-idf.html作者:阮一峰日期:2013年3月15日这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extractio...
分类:
其他好文 时间:
2015-10-13 13:47:06
阅读次数:
145
进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。 ????这三种相似性都是基于一个称为用户-项目矩阵的数据结构来...
分类:
其他好文 时间:
2015-09-02 19:23:22
阅读次数:
683
定义余弦相似度(cosine similarity),又称为余弦相似性。通过计算两个向量的夹角余弦值来评估他们的相似度。概念向量,是多维空间中有方向的线段,如下图是二维空间的两个向量:如果两个向量的方向一致,即夹角接近零,那么这两个向量就相近。要确定两个向量方向是否一致,可以用余弦定理计算向量的夹角...
分类:
其他好文 时间:
2015-06-18 18:37:06
阅读次数:
195
cosin余弦相似度
两个向量间的余弦值可以很容易地通过使用欧几里得点积和量级公式推导:
鉴于两个向量的属性, A 和B的余弦相似性θ用一个点积形式来表示其大小,如下所示:
产生的相似性范围从-1到1:-1意味着两个向量指向的方向正好截然相反,1表示它们的指向是完全相同的,0通常表示它们之间是独立的,而在这之间的值则表示中度的相似性或相异性。 对于文本匹配,属性向量A 和B 通常...
分类:
其他好文 时间:
2015-05-12 00:10:19
阅读次数:
840
请参看TF-IDF与余弦相似性的应用(一):自动提取关键词http://www.ruanyifeng.com/blog/2013/03/tf-idf.htmlTF-IDF与余弦相似性的应用(二):找出相似文章http://www.ruanyifeng.com/blog/2013/03/cosine_...
分类:
编程语言 时间:
2015-04-13 10:52:02
阅读次数:
213
为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手。句子A:我喜欢看电视,不喜欢看电影。句子B:我不喜欢看电视,也不喜欢看电影。请问怎样才能计算上面两句话的相似程度?基本思路是:如果这两句...
分类:
其他好文 时间:
2015-03-18 17:24:32
阅读次数:
123
类似的算法已经被写成了工具,比如基于Java的Classifier4J库的SimpleSummariser模块、基于C语言的OTS库、以及基于classifier4J的C#实现和python实现。
分类:
其他好文 时间:
2015-02-07 06:48:27
阅读次数:
196
余弦相似性原理:首先我们先把两段文本分词,列出来所有单词,其次我们计算每个词语的词频,最后把词语转换为向量,这样我们就只需要计算两个向量的相似程度.我们简单表述如下文本1:我/爱/北京/天安门/ 经过分词求词频得出向量(伪向量) [1,1,1,1]文本2:我们/都爱/北京/天安门/ 经过分词求词频得...
分类:
编程语言 时间:
2014-12-30 16:50:37
阅读次数:
220
这里隆重推出介绍一种词义消歧的(简单)方法:句子相似度虽然第一反应一定是介个,但是总不能说他们的相似度就是单词出现的重复次数吧= =||,怎么看都觉得不科学233于是,我们想到了最简单却又好用的相似度判断方式,就是"余弦相似性"(cosine similiarity)了啦:我们现在有两句话s1和s2...
分类:
其他好文 时间:
2014-12-04 19:35:45
阅读次数:
143