谱聚类算法总结 简述 谱聚类是一种基于图论的聚类方法——将带权无向图划分为两个或两个以上的最优子图,使子图内部尽量相似,而子图间距离尽量距离较远,以达到常见的聚类的目的。其中的最优是指最优目标函数不同,可以是割边最小分割,也可以是分割规模差不多且割边最小的分割。 谱聚类算法首先根据给定的样本数据集定 ...
分类:
其他好文 时间:
2019-01-29 01:16:00
阅读次数:
356
数据可视化是数据分析或机器学习项目中十分重要的一环。通常,你需要在项目初期进行探索性的数据分析(EDA),从而对数据有一定的了解,而且创建可视化确实可以使分析的任务更清晰、更容易理解,特别是对于大规模的高维数据集。在项目接近尾声时,以一种清晰、简洁而引人注目的方式展示最终结果也是非常重要的,让你的受 ...
分类:
编程语言 时间:
2019-01-06 00:05:10
阅读次数:
262
给定一个分布 $p(x)$,计算机中如何进行采样?本文大致介绍了计算机中如何对均匀分布进行采样,并对离散分布和连续分布采样进行了简单介绍。本文不涉及 MCMC 和 Gibbs 采样。 ...
分类:
其他好文 时间:
2019-01-02 23:30:31
阅读次数:
539
转自局部敏感哈希(Locality-Sensitive Hashing, LSH) 一、局部敏感哈希LSH 在很多应用领域中,我们面对和需要处理的数据往往是海量并且具有很高的维度,怎样快速地从海量的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个难点和问题。如果是低维的小 ...
分类:
其他好文 时间:
2019-01-02 17:33:43
阅读次数:
209
普通最小二乘法 损失函数: 权重计算: 1、对于普通最小二乘的系数估计问题,其依赖于模型各项的相互独立性。 2、当各项是相关的,且设计矩阵 X的各列近似线性相关,那么,设计矩阵会趋向于奇异矩阵,这会导致最小二乘估计对于随机误差非常敏感,产生很大的方差。 例如,在没有实验设计的情况下收集到的数据,这种 ...
分类:
其他好文 时间:
2018-11-16 22:35:22
阅读次数:
626
概念 随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定 优点:适合离散型和连续型的属性数据;对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题;实现简单,训练速度快,适合 进行分布式计算 1 impo ...
分类:
编程语言 时间:
2018-10-05 23:59:35
阅读次数:
492
PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。网上关于PCA的文章有很多,但是大多数只描述了PCA的分析过程,而没有讲述其中的原理。这篇文章的 ...
分类:
其他好文 时间:
2018-10-04 09:00:38
阅读次数:
125
概念 均方差 MSE mean square error 平均绝对差 MAE mean absolute error 交叉损失熵 cross entropy 欠拟合:训练集和测试集性能接近 过拟合:训练集远远高于测试集性能 有监督学习算法比较 knn 调节:n_neighbors 优点:模型很容易解 ...
分类:
编程语言 时间:
2018-09-24 13:51:44
阅读次数:
158
Pytorch是基于python的科学计算包,为两类受众提供服务 作为Numpy的替换,让你可以使用GPU的算力 作为一个深度学习计算平台提供最大的计算灵活性与速度 开始体验pytorch的基础功能 Tensor: tensor与Numpy的高维数据概念类似,可以在GPU上进行计算 建立一个5*3的 ...
分类:
其他好文 时间:
2018-09-10 21:19:38
阅读次数:
306
五、高维数据映射为低维数据 换一个坐标轴。在新的坐标轴里面表示原来高维的数据。 低维 反向 映射为高维数据 PCA.py 六、scikit-learn 中的 PCA 七、试手MNIST数据集 通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维,寻求其高维数据流形本征结 ...
分类:
其他好文 时间:
2018-08-30 22:43:09
阅读次数:
254