转:http://www.ruanyifeng.com/blog/2013/03/automatic_summarization.html 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法, ...
分类:
其他好文 时间:
2017-07-07 17:34:50
阅读次数:
187
转自:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请 ...
分类:
其他好文 时间:
2017-07-07 17:28:10
阅读次数:
121
皮尔逊相关系数 维基百科定义:两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商 余弦相似性 皮尔逊相关系数与余弦相似性的关系 皮尔逊相关系数就是减去平均值(中心化)后做余弦相似性 ...
分类:
其他好文 时间:
2016-08-25 20:58:38
阅读次数:
168
TF-IDF与余弦相似性的应用(一):自动提取关键词 转自:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html 作者: 阮一峰 日期: 2013年3月15日 作者: 阮一峰 日期: 2013年3月15日 这个标题看上去好像很复杂 ...
分类:
其他好文 时间:
2016-06-06 00:53:33
阅读次数:
164
百度地图室内定位使用WIFI定位,具体是哪一种WIFI定位技术,fingerprint还是fixed ap? 目前是室内定位基本都是基于这种原理的。基于余弦相似性的指纹匹配算法在WIFI室内定位上的应用百度在使用WiFi的模式下整合了其他的传感器,比如:电子罗盘仪,陀螺仪等。可以参考一下:揭秘百度室 ...
分类:
其他好文 时间:
2016-05-22 16:46:04
阅读次数:
189
http://blog.csdn.net/cscmaker/article/details/7990600 余弦方法计算相似度算法实现 (1)余弦相似性 通过测量两个向量之间的角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间 ...
分类:
编程语言 时间:
2016-04-20 00:31:00
阅读次数:
124
http://www.ruanyifeng.com/blog/2013/03/tf-idf.html TF-IDF与余弦相似性的应用(一):自动提取关键词 http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html TF-IDF与余弦相 ...
分类:
其他好文 时间:
2016-04-20 00:29:03
阅读次数:
1786
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一...
分类:
其他好文 时间:
2016-03-10 12:34:47
阅读次数:
304
上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。 为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,...
分类:
其他好文 时间:
2016-03-10 12:24:36
阅读次数:
175
原文链接:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请...
分类:
其他好文 时间:
2016-01-13 19:24:23
阅读次数:
156