码迷,mamicode.com
首页 > 其他好文 > 详细

【数据挖掘技术】聚类分析

时间:2014-08-06 01:52:50      阅读:203      评论:0      收藏:0      [点我收藏+]

标签:style   blog   color   os   io   strong   数据   art   

     聚类(Clustering)分析有一个通俗的解释和比喻,那就是“物以类聚,人以群分”。针对几个特定的业务指标,可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后,每个群组内部个对象间的相似度会很高,而在不同群组之间的对象彼此间将具有很高的相异度

      聚类技术一方面本身就是一种模型技术,通过有效聚类后的结果常常可以直接指导落地应用实践;另一方面聚类技术又常常作为数据分析过程中前期进行数据摸底和数据清洗、数据整理(数据转换)的工具,在实践应用中有多样性、多元性等特点。

一、聚类分析的典型应用场景

       可以说,聚类分析的典型应用场景是非常普遍的,业务团队几乎每天都要碰到。比如说,把付费用户按照几个特定的唯独,如利率贡献率、用户年龄、续费次数等进行聚类分析,得到不同特征的群体。

        举个例子:在将付费用户进行聚类分析后,其中一个群体所占的付费人数是40%,其特征的用户年龄是25岁左右,利润贡献不大,但是续费次数多;

                       另外一个群体,占总付费用人数的15%,而该特征的群体是用户年龄咋40岁以上,利润贡献比较大,但是续费次数不多。

        对于运营方来说,这两个典型

二、主要聚类算法分类

      聚类分析的算法可以划分为:

  • 划分的方法(Partitioning Method);
  • 层次的方法(Hierarchical Method);
  • 基于密度的方法(Density-based Method);
  • 基于网格的方法(Grid-based Method);
  • 基于模型的方法(Model-based Method)

等,其中,前面两种方法最常用。

 

1、划分的方法(Partitioning Method)

      当给定m个对象的数据集,以及希望生成的细分群体数量K后,即可采用这种方法将这些对象分为K组(要求K不超过m),使得每个组内对象时想死的,而组建是相异的。最常用的方法是K-Means方法,其具体原理是:

1 【K-Means方法】
2 step1: 随机选择K个对象,并且所选择的每个对象都代表一个组的初始均值或初始组中心值;
3 step2: 对剩余的每个对象,根据其余各个组初始均值或初始中心值得距离远近,将他们分配给最近的(最相似)小组;
4 step3: 重新计算每个小组新的均值;
5 ....
6 这个过程不断仿佛,知道所有的对象在K组分布中都找到离自己最近的组。

 

2、层次的方法(Hierarchical Method)

     指依次让最相似的数据对象两两合并,这样不断的合并,最终就形成了一个聚类数。

 

三、聚类技术的应用

      聚类技术在数据分析和数据化运营中的主要用途表现在:及尅直接作为模型对观察对现象进行群体划分,为业务方面精细化运营提供具体的细分依据和相应的运营方案建议,又可在数据处理阶段用作数据探索的工具,包括发现离散点、孤立点、数据降维的手段和方面。通过聚类发现数据间的深层次的关系等。

四、聚类技术的扩展应用

【数据挖掘技术】聚类分析,布布扣,bubuko.com

【数据挖掘技术】聚类分析

标签:style   blog   color   os   io   strong   数据   art   

原文地址:http://www.cnblogs.com/chenyn68/p/3893534.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!