码迷,mamicode.com
首页 > 其他好文 > 详细

如何计算两个文档的相似度

时间:2015-07-29 19:08:52      阅读:120      评论:0      收藏:0      [点我收藏+]

标签:

一、TF-IDF、余弦相似度、向量空间模型

(1)使用TF-IDF算法,找出两篇文章的关键词;

(2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使用相对词频);

(3)生成两篇文章各自的词频向量;

(4)计算两个向量的余弦相似度,值越大就表示越相似。

二、SVD和LSI

LSA(潜在语义分析)的基本思路:LSA希望通过降低传统向量空间的维度来去除空间中的“噪音”,而降维可以通过SVD实现,因此首先对Term-Document矩阵进行SVD分解,然后降维并构造语义空间。

(奇异值分解详解:http://blog.csdn.net/wangzhiqing3/article/details/7446444#comments)

三、LDA

如何计算两个文档的相似度

标签:

原文地址:http://www.cnblogs.com/zhaochunhua/p/4686691.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!