归一化数值

时间：2015-12-15 14:21:29 阅读：137 评论：0 收藏：0 [点我收藏+]

标签：

1. 为什么要归一化？

样本集合中，表示一个事物有不同的维度｛即：属性｝，每个属性的取值范围不同，导致计算时此属性占用的权重不同。

如：

计算两个人的差异：

diff = (A.身高-B.身高)² + (A.年龄-B.年龄)²+ (A.收入-B.收入)²

= (1.75-1.81)² + (41-26)²+ (40000-10000)²

= 0.0036 + 225 + 900000000

距离 = diff^1/2= 30000.00375

问题来了，看这些属性，发现收入占用的权重太高，身高和年龄占用的权重相对较低，怎么弱化收入占用的权重呢？

我们把身高，年龄和收入这些属性映射到一个单位区间（0，1）中。

技术分享

图中，根据梯形的特点可以得到如下公式

(1 - 0) / (max - min) = (归一化值 - 0) / (属性值 - min)

所以，归一化值 = (属性值 - min) / (max - min)

假如3个属性最大和最小值如下:

经过归一化操作后：

使用归一化值计算两个人的差异：

diff = (A.身高归一化值-B.身高归一化值)² + (A.年龄归一化值-B.年龄归一化值)²+ (A.收入归一化值-B.收入归一化值)²

= (0.61-0.678)² + (0.294-0.235)²+ (0.397-0.196)²

= 0.004624 + 0.003481 + 0.040401

计算的值可以看出，3个属性占用的权重在一个数量级上，每个属性都不会独大。

距离 = diff^1/2= 0.2202

标签：

原文地址：http://www.cnblogs.com/voipman/p/5046153.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行