问题 说到k-means聚类算法,想必大家已经对它很熟悉了,它是基于距离计算的经典无监督算法,但是有一次在我接受面试时,面试官问了我一个问题:“k-means为什么不能使用曼哈顿距离计算,而使用欧式距离进行计算?”,当时我顿时懵了,心想:‘难道不都可以吗?’,我只能说都可以,然后面试官给了我一个眼神 ...
分类:
其他好文 时间:
2020-03-03 00:45:45
阅读次数:
309
本文主要讲解的聚类算法有:k均值算法、均值漂移算法、凝聚层次算法、DBSCAN密度聚类算法,还介绍了聚类算法性能指标——轮廓系数。 聚类(cluster)与分类(class)不同,分类是有监督学习模型,聚类属于无监督学习模型。聚类讲究使用一些算法把样本划分为n个群落。一般情况下,这种算法都需要计算欧 ...
分类:
编程语言 时间:
2020-02-29 17:29:23
阅读次数:
112
K means算法 K means算法简介 k均值聚类算法(k means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚 ...
分类:
其他好文 时间:
2020-02-24 20:50:01
阅读次数:
88
目录 K-Means算法和Mini Batch K-Means算法比较 层次聚类(BIRCH)算法参数比较 DBSCAN算法 一、K-Means算法和Mini Batch K-Means算法比较 1 2 3 4 5 6 7 ... ...
分类:
编程语言 时间:
2020-02-24 00:51:18
阅读次数:
86
目录 简述 K-means聚类 密度聚类 层次聚类 一、简述 聚类算法是常见的无监督学习(无监督学习是在样本的标签未知的情况下,根据样本的内在规律对样本进行分类)。 在监督学习中我们常根据模型的误差来衡量模型的好坏,通过优化损失函数来改善模型。而在聚类算法中是怎么来度量模型的好坏呢?聚类算法模型的性... ...
分类:
编程语言 时间:
2020-02-24 00:03:55
阅读次数:
77
【机器学习】算法原理详细推导与实现(六):k means算法 之前几个章节都是介绍有监督学习,这个章节介绍无监督学习,这是一个被称为 的聚类算法,也叫做 k均值聚类算法 。 聚类算法 在讲监督学习的时候,通常会画这样一张图: 这时候需要用 回归或者 将这些数据分成正负两类,这个过程称之为 监督学习 ...
分类:
编程语言 时间:
2020-02-23 11:14:20
阅读次数:
85
高斯混合模型 本博客根据 百面机器学习,算法工程师带你去面试 一书总结归纳,公式图片均出自该书. 本博客仅为个人总结学习,非商业用途,侵删. 网址 http://www.ptpress.com.cn 高斯混合模型(Gaussian Mixed Model, GMM) 是一种常见的聚类算法,与K均值算 ...
分类:
其他好文 时间:
2020-02-20 18:38:49
阅读次数:
97
无监督学习的目标: 利用无标签的数据学习数据的分部或数据与数据之间的关系被称作无监督学习。 无监督学习最常应用的场景是聚类和降维。 聚类 (sklearn.cluster模块) 定义 聚类(clustering),就是根据数据的“相似性”将数据分为多类的过程。 评估两个不同样本之间的“相似性” ,通 ...
分类:
其他好文 时间:
2020-02-02 21:52:21
阅读次数:
120
[TOC] 资料 "Spark机器学习库(MLlib)中文指南" "关于spark机器学习的知乎专栏" "Spark入门实战系列 8.Spark MLlib(上) 机器学习及SparkMLlib简介" "基本Kmeans算法介绍及其实现" [spark MLlib 概念 1:相关系数( PPMCC ...
分类:
其他好文 时间:
2020-01-31 13:59:26
阅读次数:
104
K-Means算法是典型基于距离的非层次聚类算法,在最小化误差函数的基础上将数据划分为预定的类数K,采用作为相似性的评价指标,即认为2个对象的距离越近,其相似度越大。 1.算法过程 1)从N个样本数据中随机选取K个对象作为初始的聚类中心 2)分别计算每个样本到各聚类中心的距离,将对象分配到距离最近的 ...
分类:
编程语言 时间:
2020-01-23 11:04:46
阅读次数:
105