一、定义:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类 二、距离:欧几里得度量(euclidean metric)也称欧氏距离 绝对值距离(manhattan) Lance距离(canberra) 定性变量距离(binary) 闵可夫斯基距离(minkowski) 三、使用函数 ...
分类:
其他好文 时间:
2021-04-24 13:31:05
阅读次数:
0
这是老师上课布置的一道算法题 刚开始理解还是有些困难的 查阅一些大佬的博客做出如下理解: 1.首先你要先确定你要对相关数据分成几类(或者说是几组) —— 先假定为k 2.再从这些数据中选出 k 个数据(成员)为组长(centroid) —— 为便于理解,下面把数据看成成员 可以随机选择,也可以指定第 ...
分类:
编程语言 时间:
2021-04-23 11:52:16
阅读次数:
0
一、kmeans聚类 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import re pd.set_option('max_columns', 600) pd ...
分类:
其他好文 时间:
2021-04-05 12:19:16
阅读次数:
0
1.原理的区别 主要区别在于,非加权组平均法(UPGMA)是基于平均链接方法的聚集层次聚类方法,而邻接法(NJ)是基于最小演化准则的迭代聚类法。 UPGMA的假定条件是:在进化过程中,每一世系发生趋异的次数相同,即核苷酸或氨基酸的替换速率是均等且恒定的。 UPGMA生成有根树,而NJ生成无根树。由于 ...
分类:
其他好文 时间:
2021-03-06 14:32:23
阅读次数:
0
一、学习资料: 北京博雅数据酷客平台大讲堂:http://cookdata.cn/auditorium/course_room/10016/ 相关案例:http://cookdata.cn/note/view_run_note/fa6032a61276f7b5e53f4aab61f2a368/?vi ...
分类:
其他好文 时间:
2021-02-05 10:46:50
阅读次数:
0
无监督学习 通俗来讲,无监督学习就是没有目标值 无监督学习包含算法 聚类 K-means(K均值聚类) 降维 PCA K-means原理 K-means的聚类效果图 K-means聚类步骤 随机设置K个特征空间内的点作为初始的聚类中心 对于其他每个点计算到K个中心的距离,未知的点选择最近的一个聚类中 ...
分类:
编程语言 时间:
2021-01-26 12:18:25
阅读次数:
0
不管是GMM,还是k-means,都面临一个问题,就是k的个数如何选取?比如在bag-of-words模型中,用k-means训练码书,那么应该选取多少个码字呢?为了不在这个参数的选取上花费太多时间,可以考虑层次聚类。 假设有N个待聚类的样本,对于层次聚类来说,基本步骤就是: 1、(初始化)把每个样 ...
分类:
其他好文 时间:
2021-01-20 11:55:49
阅读次数:
0
WEKA的全名是怀卡托智能分析环境(WaikatoEnvironmentforKnowledgeAnalysis),同时weka也是新西兰的一种鸟名,而WEKA的主要开发者来自新西兰。WEKA作为一个公开的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。如果想自己实现数据挖掘算法的话,可以参考weka的接
分类:
其他好文 时间:
2021-01-02 11:36:56
阅读次数:
0
Local Outlier Factor(LOF)是基于密度的经典算法(Breuning et. al. 2000), 文章发表于 SIGMOD 2000, 到目前已经有 3000+ 的引用。在 LOF 之前的异常检测算法大多是基于统计方法的,或者是借用了一些聚类算法用于异常点的识别(比如 ,DBS ...
分类:
编程语言 时间:
2021-01-01 12:03:07
阅读次数:
0
github地址 机器学习概述 | 01 Matplotlib | 02 Numpy | 03 Pandas | 04 K-近邻算法 | 05 线性回归 | 06 逻辑回归 | 07 决策树算法 | 08 集成学习 | 09 聚类算法 | 10 ...
分类:
其他好文 时间:
2020-12-28 10:57:41
阅读次数:
0