目录 简述 K-means聚类 密度聚类 层次聚类 一、简述 聚类算法是常见的无监督学习(无监督学习是在样本的标签未知的情况下,根据样本的内在规律对样本进行分类)。 在监督学习中我们常根据模型的误差来衡量模型的好坏,通过优化损失函数来改善模型。而在聚类算法中是怎么来度量模型的好坏呢?聚类算法模型的性 ...
分类:
编程语言 时间:
2019-12-02 14:04:05
阅读次数:
101
本文整理了60个机器学习算法应用场景实例,含分类算法应用场景20个、回归算法应用场景20个、聚类算法应用场景10个以及关联规则应用场景10个。包含了天池、DataCastle、DataFountain中所有竞赛场景。 目录 1 分类算法应用场景实例 1.1 O2O优惠券使用预测 1.2 市民出行选乘 ...
分类:
编程语言 时间:
2019-11-30 09:25:43
阅读次数:
126
聚类算法 概述 无监督问题 手中无标签 聚类 将相似的东西分到一组 难点 如何 评估, 如何 调参 基本概念 要得到的簇的个数 - 需要指定 K 值 质心 - 均值, 即向量各维度取平均 距离的度量 - 常用 欧几里得距离 和 余弦线相似度 ( 先标准化 ) 优化目标 - 需求每个簇中的点, 到质心 ...
分类:
编程语言 时间:
2019-11-25 09:42:34
阅读次数:
54
这里只讨论没有外部标签的情况,有标签自然好判别 数据簇的特点 以中心定义的数据簇:通常球形分布,集合中的数据到中心的距离相比到其他簇中心的距离更近 以密度定义的数据簇:当数据簇不规则或互相盘绕,并且有噪声和离群点时,常常使用 以连通定义的数据簇:具有连通关系 以概念定义的数据簇:同一集合内数据具有某 ...
分类:
编程语言 时间:
2019-11-24 15:44:50
阅读次数:
91
k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚 ...
分类:
编程语言 时间:
2019-11-20 14:11:33
阅读次数:
97
第三阶段 无监督学习与序列模型 【核心知识点】 - K-means、GMM以及EM - 层次聚类,DCSCAN,Spectral聚类算法 - 隐变量与隐变量模型、Partition函数 - 条件独立、D-Separation、Markov性质 - HMM以及基于Viterbi的Decoding - ...
分类:
其他好文 时间:
2019-11-12 15:57:17
阅读次数:
174
一、聚类思想 所谓聚类算法是指将一堆没有标签的数据自动划分成几类的方法,属于无监督学习方法,这个方法要保证同一类的数据有相似的特征,如下图所示: 根据样本之间的距离或者说是相似性(亲疏性),把越相似、差异越小的样本聚成一类(簇),最后形成多个簇,使同一个簇内部的样本相似度高,不同簇之间差异性高。 二 ...
分类:
编程语言 时间:
2019-11-09 21:49:33
阅读次数:
276
Clustering 聚类K-means 聚类是机器学习和数据挖掘领域的主要研究方向之一,它是一种无监督学习算法,小编研究生时期的主要研究方向是“数据流自适应聚类算法”,所以对聚类算法有比较深刻的理解,于是决定开一个专题来写聚类算法,希望可以为入门及研究聚类相关算法的读者带来帮助。聚类可以作为一个单 ...
分类:
其他好文 时间:
2019-11-09 17:50:03
阅读次数:
99
聚类算法 简介 聚类就是对大量 未知标注的数据集 ,按照数据 内部存在的数据特征 将数据集划分为多个不同的类别,使类别内的数据比较相似,类别之间的数据相似度比较小; 属于无监督学习 。 聚类算法的重点是计算样本项之间的 相似度 ,有时候也称为样本间的 距离 相似度/距离 闵可夫斯基距离 $$ dis ...
分类:
其他好文 时间:
2019-11-02 13:37:01
阅读次数:
89
引言:聚类是将数据分成类或者簇的过程,从而使同簇的对象之间具有很高的相似度,而不同的簇的对象相似度则存在差异。聚类技术是一种迭代重定位技术,在我们的生活中也得到了广泛的运用,比如:零件分组、数据评价、数据分析等很多方面;具体的比如对市场分析人员而言,聚类可以帮助市场分析人员从消费者数据库中分出不同的 ...
分类:
移动开发 时间:
2019-10-28 01:03:24
阅读次数:
187