学习大数据分析与应用课程的首要任务,是先了解统计与建模方法和数据挖掘方法所呈现出来的效果,然后依次学习Excel数据处理及编程、MySQL数据库的简单操作及Hadoop的基础知识。从而为进阶、提高打好基础。基础统计与建模方法演示探索性数据分析演示常用概率分布和渐进性演示置信区间和假设检验演示线性回归模型演示广义线性回归模型演示数据挖掘方法演示分类预测基本流程演示数据预处理演示分类方法演示聚类分析演
分类:
其他好文 时间:
2019-07-20 17:15:41
阅读次数:
121
聚类凝聚度和K值得选择 在聚类分析中,有的时候数据数量过多,我们用拐点发选择K值,横轴为聚类簇数的变化,纵轴为数据的凝聚度(SSE方差),当凝聚度的大小随着K值得增多降低数量较小时,证明,K值得增加对凝聚度的影响变小,那么选择拐点的K值是可行的,因为继续增加K值,对分类的准确度增加不高,但是会增加分 ...
分类:
其他好文 时间:
2019-07-16 12:39:04
阅读次数:
134
聚类算法: K 均值聚类(K Means) K 中心点聚类(K Meaoids) 密度聚类(Densit based Spatial Clustering of Application with Noise,DBSCAN) 系谱聚类(Hierarchical Clustering) 期望最大化聚类( ...
分类:
编程语言 时间:
2019-07-12 12:54:03
阅读次数:
178
1.什么是聚类 聚类:数据对象的集合/蔟 2.聚类的一般应用 模式识别 空间数据分析 图象处理 经济科学 3.聚类方法 数据挖掘对聚类的要求 4.聚类分析中的数据类型 数据结构 相异度矩阵 评估聚类的质量 区间标度变量 对象之间的相似性/相异性 二元变量,对称的,不对称的 标称变量-分类变量,名义变 ...
分类:
其他好文 时间:
2019-05-16 12:24:01
阅读次数:
126
# coding = utf-8 from sklearn.feature_selection import VarianceThreshold from sklearn.decomposition import PCA ''' 数据降维:特征的数量减少(即columns减少) 1、特征选择原因: ... ...
分类:
其他好文 时间:
2019-05-10 23:21:21
阅读次数:
145
1数据挖掘: 从数据中"淘金",从大量数据(包括文本)中挖掘出,隐含的,未知的,对决策有潜在价值的关系,模式和趋势 ,并用这些 知识和规则建立用于决策支持的模型,提供预测性决策支持的方法、工具和过程,就是数据挖掘。 2,数据挖掘的基本任务 数据额度挖掘基本任务包括分类与预测、聚类分析、关联规则 、时 ...
分类:
其他好文 时间:
2019-04-13 21:59:51
阅读次数:
231
对比分析,交叉分析,相关分析,回归分析,聚类分析 等数据分析方法。 数据分析方法论的重要性: 指导数据分析师进行一次完整性的数据分析,而只有在营销,管理等方法和理论指导下,结合实际业务情况,才能确保数据分析维度的完整性和有效性及正确性。 * 理顺分析思路,确保数据分析结构体系化。 * 把问题分解成相 ...
分类:
其他好文 时间:
2019-03-09 10:20:04
阅读次数:
206
一、分类和回归 回归分析研究的范围大致如下: 1、逻辑回归 2、决策树 运行上述代码,生成tree.dot文件,对其稍作修改 得到决策树的可视化 3、人工神经网络 二、评价指标 三、聚类分析 聚类效果评价 聚类可视化——TSNE ...
分类:
编程语言 时间:
2019-01-28 01:02:51
阅读次数:
228
SPSS是社会统计科学软件包的简称, 其官方全称为IBM SPSS Statistics。SPSS软件包最初由SPSS Inc.于1968年推出,于2009年被IBM收购,主要运用于各领域数据的管理和统计分析。作为世界社会科学数据分析的标准,SPSS操作操作界面极其友好,结果输出界面也很美观,同时还... ...
分类:
其他好文 时间:
2019-01-25 16:07:03
阅读次数:
295
因子分析-对商户进行综合评价 虽然系统聚类分析可以对变量进行分类,但是,难以判断变量分类结果的合理性。如果要衡量每个变量对类别的贡献,也难以通过聚类分析来实现。因子分析,就是找出隐藏在变量背后具有共性的因子。 1.1 因子分析简介 因子分析师通过研究变量间的相关系数矩阵,把这些变量间错综复杂的关系归... ...
分类:
其他好文 时间:
2019-01-18 10:18:14
阅读次数:
243