标签:
潜在语义分析通过矢量语义空间来分析文档和词的关系。
基本假设:如果两个词多次出现在同个文档中,则两个词在语义上具有相似性。
LSA使用大量文本构成矩阵,每行表示一个词,一列表示一个文档,矩阵元素可以是词频或TF-IDF,然后使奇异值分解SVD进行矩阵降维,得到原矩阵的近似,此时两个词的相似性可通过其向量cos值。
降维原因:
- 原始矩阵太大,降维后新矩阵是原矩阵的近似。
- 原始矩阵有噪音,降维也是去噪过程。
- 原始矩阵过于稀疏
- 降维可以解决一部分同义词与二义性的问题。
推导:
对于文档集可以表示成矩阵X,行为词,列为文档
词向量的点乘可以表示这两个单词在文档集合中的相似性。矩阵
包含所有词向量点乘的结果
降维的过程其实是奇异值分解,矩阵X可分解成正交矩阵U、V,和一个对角矩阵的乘积
因此,词与文本的相关性矩阵可表示为:
低维的语义空间可以用于以下几个方面:
LSA的一些缺点如下:
摘自:http://blog.csdn.net/roger__wong/article/details/41175967
标签:
原文地址:http://www.cnblogs.com/IvanSSSS/p/4958601.html