码迷,mamicode.com
首页 > 其他好文 > 详细

聚类分析

时间:2019-01-01 17:54:48      阅读:194      评论:0      收藏:0      [点我收藏+]

标签:表达式   集合   display   中间   计算   提前   使用   就是   计算公式   

常用的数据变换方法

    均值:

技术分享图片

    标准差:

技术分享图片

    中心化变换:

技术分享图片

    标准化变换:

技术分享图片

    极化正规化变换(规格化变换):

技术分享图片

    对数变换:

技术分享图片

 

 

距离和相似系数

    距离:

    明氏距离:

 技术分享图片

      当q=1时,为绝对距离

      当q=2时,为欧式距离

      当q=∞时,为切比雪夫距离

    兰氏距离:

技术分享图片

    斜交空间距离:

技术分享图片

    马氏距离:

      两样品间:

技术分享图片

      样品到总体:

技术分享图片

 

    相似系数:

    夹角余弦:

技术分享图片

    相关系数:

技术分享图片

 

八种系统聚类方法

    1.最短距离法

       计算两组间距离时,将两组间距离最短的元素作为两组间的距离

    2.最长距离法

      计算两组间距离时,将两组间距离最长的元素作为两组间的距离

    3.中间距离法

      将Gp,Gq合并成为Gr

      计算Gr与Gk的距离时使用如下公式

        D2kr = 1/2 * D2kp + 1/2 * D2kq + β * D2pq

       β是提前给定的超参数-0.25<=β<=0(取值默认为-0.25)

     4.重心法

      每一组都可以看成一组多为空间中点的集合,计算组间距离时,可使用这两组点的重心之间的距离作为类间距离

      若使用的是欧氏距离,那么有如下计算公式

        D2kr = np/nr * D2kp + nq/nr * D2kq - (np*nq / nr*nr ) * D2pq

    5.类平均法

      两组之间的距离 = 组间每两个样本距离平方的平均值开根号

      表达式为D2kr = np/nr * D2kp + nq/nr * D2kq

 

    6.可变类平均法

      可以反映合并的两类的距离的影响

      表达式为D2kr = np/n* (1- β) * D2kp + nq/nr *(1- β) * D2kq + β*D2pq

      0<=β<1

    7.可变法

      D2kr =  (1- β)/2  * (D2kp + D2kq) + β*D2pq

    8.离差平方和法

      这个方法比较实用

      就是计算两类距离的话,就计算,如果将他们两类合在一起之后的离差平方和

      因为若两类本身就是一类,和本身不是一类,他们的离差平方和相差较大

      离差平方和:类中每个元素与这一类中的均值距离的平方之和

      若统一成之前的公式就是

        D2kr = (nk + np)/(nr + nk)  * D2kp + (nk + nq)/(nr + nk)   -(nk)/(nr + nk) *  * D2pq

 

     对于距离的选择,一般会考察欧氏距离法或者马氏距离法,而聚类的考核重点一般会放在前三种方法上。

 

聚类分析

标签:表达式   集合   display   中间   计算   提前   使用   就是   计算公式   

原文地址:https://www.cnblogs.com/Hikigaya-Hachiman/p/10205317.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!