标签:
潜在语义分析Latent Semantic Analysis (LSA)也被叫做Latent Semantic Indexing(LSI),是通过分析文档去发现这些文档中潜在的意思和概念,即建立语义(词汇族)与文档潜在含义的关系判别,它把词和文档都映射到一个‘概念’空间并在这个空间内进行比较(注:也就是一种降维技术)。
潜在语义分析(Latent Semantic Analysis),是语义学的一个新的分支。传统的语义学通常研究字、词的含义以及词与词之间的关系,如同义,近义,反义等等。潜在语义分析探讨的是隐藏在字词背后的某种关系,这种关系不是以词典上的定义为基础,而是以字词的使用环境作为最基本的参考。这种思想来自于心理语言学家。他们认为,世界上数以百计的语言都应该有一种共同的简单的机制,使得任何人只要是在某种特定的语言环境下长大都能掌握那种语言。在这种思想的指导下,人们找到了一种简单的数学模型,这种模型的输入是由任何一种语言书写的文献构成的文库,输出是该语言的字、词的一种数学表达(向量)。字、词之间的关系乃至任何文章片断之间的含义的比较就由这种向量之间的运算产生。
潜在语义学的观念也被应用在资讯检索上,所以有时潜在语义学也被称为隐含语义索引(Latent Semantic Indexing,LSI)。
在计算方法上,通过词汇-文档关系矩阵的SVD分解,可进一步实现数据的降维处理,并揭示词汇-文档主题关联度。
参考:
http://blog.csdn.net/bob007/article/details/30496559
http://www.csdn.net/article/2015-02-05/2823865
标签:
原文地址:http://blog.csdn.net/miscclp/article/details/44035473