首页 > 其他好文 > 详细

NLP 语义相似度计算整理总结

时间：2019-12-02 17:09:27 阅读：754 评论：0 收藏：0 [点我收藏+]

标签：推理测量参考 sha 向量空间 pow tps 组成原理

更新中

最近更新时间：

2019-12-02 16:55:02

写在前面：

本人是喜欢这个方向的学生一枚，写文的目的意在记录自己所学，梳理自己的思路，同时share给在这个方向上一起努力的同学。写得不够专业的地方望批评指正，欢迎感兴趣的同学一起交流进步。

二、基本概念

三、语义相似度计算方法

四、参考文献

一、背景

在很多NLP任务中，都涉及到语义相似度的计算，例如：

在搜索场景下（对话系统、问答系统、推理等），query和Doc的语义相似度；

feeds场景下Doc和Doc的语义相似度；

在各种分类任务，翻译场景下，都会涉及到语义相似度语义相似度的计算。

所以在学习的过程中，希望能够更系统的梳理一下这方面的方法。

二、基本概念

1. 向量空间模型

向量空间模型简称 VSM，是 VectorSpace Model 的缩写。在此模型中，文本被看作是由一系列相互独立的词语组成的，若文档 D 中包含词语 t1,t2,…,tN，则文档表示为D（t1,t2,…,tN）。由于文档中词语对文档的重要程度不同，并且词语的重要程度对文本相似度的计算有很大的影响，因而可对文档中的每个词语赋以一个权值 w，以表示该词的权重，其表示如下：D（t1,w1；t2,w2；…,tN，wN），可简记为 D（w1,w2,…,wN），此时的 wk 即为词语 tk的权重，1≤k≤N。关于权重的设置，我们可以考虑的方面：词语在文本中的出现频率（tf），词语的文档频率（df，即含有该词的文档数量，log N/n。很多相似性计算方法都是基于向量空间模型的。

三、语义相似度计算方法

1. 余弦相似度（Cosine）

技术图片

余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。

两个向量间的余弦值可以通过使用欧几里得点积公式求出：

余弦相似性θ由点积和向量长度给出，如下所示（例如，向量A和向量B）：

这里的分别代表向量A和B的各分量。

问题：表示方向上的差异，但对距离不敏感。

关心距离上的差异时，会对计算出的每个（相似度）值都减去一个它们的均值，称为调整余弦相似度。

代码：
技术图片

2. 欧式距离

技术图片

技术图片

考虑的是点的空间距离，各对应元素做差取平方求和后开方。能体现数值的绝对差异。

代码：

技术图片

3. 曼哈顿距离（Manhattan Distance）

技术图片

代码：

技术图片

3. 明可夫斯基距离（Minkowski distance）

明氏距离是欧氏距离的推广，是对多个距离度量公式的概括性的表述。

技术图片

技术图片

当p==1,“明可夫斯基距离”变成“曼哈顿距离”
当p==2,“明可夫斯基距离”变成“欧几里得距离”
当p==∞,“明可夫斯基距离”变成“切比雪夫距离”

代码：
技术图片

3. Dice 系数法（DiceCoefficient）

4. Jaccard 相似系数（Jaccard Coefficient）

技术图片

四、参考文献

深度学习解决NLP问题：语义相似度计算

自然语言语义相似度计算方法

余弦相似度

常用的相似度计算方法原理及实现

NLP 语义相似度计算整理总结

标签：推理测量参考 sha 向量空间 pow tps 组成原理

原文地址：https://www.cnblogs.com/shona/p/11971310.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！