从频率到意义：语义向量空间模型（4）（From Frequency to Meaning: Vector Space Models of Semantics）

时间：2016-05-13 03:34:44 阅读：111 评论：0 收藏：0 [点我收藏+]

标签：

作者：Peter D. Turney、Patrick Pantel

翻译：华南师范大学-吴玺煜

2.语义向量空间模型

统计语义假说（statistical semantics hypothesis）是我们这篇论文里讨论的形形色色的VSMs的统一主题：人类单词用法的统计模式可以被用来指示人类的意思（statistical patterns of human word usage can be used to figure out what people mean）。这一个一般性假说是很多特定假说的基础，比如词袋模型假说（bag of words hypothesis）、分布假说（distributional hypothesis）、扩展的分布假说（extended distributional hypothesis）、和潜在关系假设（latent relation hypothesis）。这些在下面进行讨论。

2.1文档相似性：项-文档矩阵

在本文，我们用下列符号约定：黑体大写字母表示矩阵：A。黑体小写字母表示向量：b。而标量用小写意大利体表示，c。
如果我们有一个文档的大集合，也就是同时拥有很多文档向量，因此很容易将这堆向量组织成矩阵。矩阵的行向量当做项（term），（通常来说，一个项是一个单词，但我们也考虑别的可能性（比如词对-译者注）），列向量当做文档（比如网页）。这种类型的矩阵叫做项-文档矩阵。
在数学中，一个袋（bag）（又叫做多重集（multiset））很像一个集合，不过它允许重复。举个例子,{a,a,b,c,c,c}是一个包含a，b和c的袋。在袋和结合中，顺序是无关紧要的；袋{a,a,b,c,c,c}和{c,a,c,b,a,c}是相等的。通过规定x中第一个元素是袋中a的数量，第二个元素是袋中b的数量，第三个元素是袋中c的数量，我们把袋{a,a,b,c,c,c}表征为向量x=<2,1,3>。一个袋的集合又被表征成一个矩阵X，其中每一列X：j当做一个袋，每一行Xi：当做一个独一的数字，元素xij是第j-个袋的关于i的频率（frequency）。
在一个项-文档矩阵里，一个文档向量表征一个词袋所相关的文档。在信息检索中，词袋模型假说（bag of words hypothesis）是这样的一个假说：通过把查询和文档都表示成词袋，我们可以计算一个文档和查询的切合程度。词袋模型假说（bag of words hypothesis）是VSM在信息检索里应用的基础（Salton et al., 1975）。这个假说相信一个项-文档中的列向量（在一定程度上）可以捕捉到相关文档意义的某个方面；文档讲的是什么。
令X是一个项-文档矩阵。假定我们的文档集包括了n个文档和m个不重复的项。矩阵X因此有m行（每一行是词典里的每一项）和n列（每一列代表一篇文档）。令wi是词典里的第i项，dj是文档集中的第j篇文档。X里的第i行是行向量xi：，第j列是列向量x：j。行向量xi：包含了n个元素，分别对应着每一个文档；列向量x：j包括了m个元素，分别对应着每一项。假定X是一个简单的频率矩阵。X中的元素xij是第i个项wi在第j个文档dj里的频率。
总之，X中大多数的元素都是0（矩阵是稀疏），因为很多文档只用了整个词典里一小部分。如果我们随机挑选一个项wi和一个文档dj，很可能wi不出现dj里，因此xij等于0。
xi：的数字模式（pattern of numbers）是第i项wi的签名（signature）；类似的，x：j是第j个文档dj的签名。也就是这些数字模式告诉我们，在一定程度上，项和文档讲的是什么。
向量x：j可能是一个文档dj的相当粗糙的表示。告诉了我们词汇在文档里的频率，但损失了词汇的序列顺序（sequential order）。向量不去尝试捕捉词组、句子、段落和文档的章节（phrases, sentences, paragraphs, and chapters of the document）的结构。当然，尽管很粗糙，搜索引擎工作得非常好；向量看起来已经捕捉到语义重要的部分。
萨尔顿的VSM（1975）可以说是第一次实际的、有用的从词汇用法里抽取语义信息的算法。对项-文档矩阵的一个直觉的理由是文档的话题（topic）从概率上影响了作者写文档的时候对词汇的选择（这个理由很类似于Topic model-译者注）。如果两篇文档有相似的话题，然后与此相关的两个列向量倾向于有相似的数字模式。

从频率到意义：语义向量空间模型（4）（From Frequency to Meaning: Vector Space Models of Semantics）

标签：

原文地址：http://blog.csdn.net/u011274209/article/details/51340543

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行