● 什么是DBSCAN 参考回答: DBSCAN是一种基于密度的空间聚类算法,它不需要定义簇的个数,而是将具有足够高密度的区域划分为簇,并在有噪声的数据中发现任意形状的簇,在此算法中将簇定义为密度相连的点的最大集合。 ● k-means算法流程 参考回答: 从数据集中随机选择k个聚类样本作为初始的聚 ...
分类:
编程语言 时间:
2019-06-03 21:40:20
阅读次数:
173
机器学习的基本概念 数据 数据集 数据的整体叫做数据集 ( data set ) 样本 每一行数据被称为一个样本 ( sample ) 标记 最后一列, 称为标记 ( label ) 特征 表中的每个列都是一个特征, 用特征向量来表示一个特征值 特征空间 特征进行数据表示后的范围空间 此图中的形式是 ...
分类:
其他好文 时间:
2019-05-31 23:10:07
阅读次数:
108
原标题:蜡炬教育:如何处理机器学习中大型数据的加载问题?蜡炬教育老师表示,在处理机器学习算法时,经常会因为数据库太大而导致无法放入内存中,而遇到这样几个问题:当运行数据集算法而导致崩溃时如何解决?当需要处理大容量数据文件时该如何加载?如何方便快捷的解决内存不足的问题?针对以上问题,蜡炬教育老师给出7个建议:1.分配更多内存某些ML工具或数据库默认内存配置不合理,可以看看是否可以手动分配。2.使用较
分类:
其他好文 时间:
2019-05-29 13:06:13
阅读次数:
120
基础知识 1、数学,这个一般理工科都会学,如果想走机器学习(算法)的道路,更加要学好 * 高等数学 * 离散数学 * 线性代数 * 概率论与数理统计 2、专业基础课有十多门,其中最重要的是四门如下 * 数据结构与算法 * 计算机组成原理 * 操作系统 * 计算机网络 以上这些基础知识,决定你能学得多 ...
分类:
其他好文 时间:
2019-05-28 12:48:54
阅读次数:
118

,然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。其算法本身是通过改变数据分布来实现的,它根据每次训练集之中每个样本的分类是否正确,以及上次的总体分类的准确率,来确定每个样本的权值。将修改过权值... ...
分类:
编程语言 时间:
2019-05-19 22:06:50
阅读次数:
191
一、背景 为什么会学习FP-growth算法?起因是在工作中有两个场景想知道哪些组合比较频繁,分析频繁出现的原因,并以此分类给用户贴上标签或根据频繁组合场景发现是否有必要增改场景。以往一般是直接SQL跑出不同组合的频次分布,但遗憾的是长尾非常多,眼看着某几个组合出现频次很大,但Excel处理就得穷举 ...
分类:
编程语言 时间:
2019-05-16 12:23:12
阅读次数:
149
推荐算法具有非常多的应用场景和商业价值,因此对推荐算法值得好好研究。推荐算法种类很多,但是目前应用最广泛的应该是协同过滤类别的推荐算法。 ...
分类:
编程语言 时间:
2019-05-14 11:29:37
阅读次数:
215
相比其他的聚类方法,基于密度的聚类方法可以在有噪音的数据中发现各种形状和各种大小的簇。DBSCAN(Ester, 1996)是该类方法中最典型的代表算法之一。 ...
分类:
编程语言 时间:
2019-05-11 18:20:34
阅读次数:
192