标签:基础 分析 集成 规律 很多 互联网 模式 实践 海量数据
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等
.....
相对于传统的统计分析技术,数据挖掘有如下特点:
数据挖掘是统计分析技术的延伸和发展
数据挖掘和统计分析的差别:
统计分析的基础之一就是概率论,对数据进行统计分析需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性,数据挖掘应用中,不需要对数据发布做任何假设,数据挖掘中的算法会自动寻找变量间的关系,相对于海量数据数据挖掘有明显的应用优势
统计分析在预测中常常表现为一个或者一组函数关系式,数据挖掘在预测应用中重点在于预测结果,很多时候不会从结果中产生明确的函数关系式,有时候不知道那些变量起作用,如何起作用
2.3.1决策树:是一种非常成熟、普遍采用的数据挖掘技术,建模过程类似树的成长过程,分析的数据样本先是集成为一个树根,经过层层分支,最终形成N个节点,每个节点代表一个结论
最常用的3种决策树算法分别是
CHAID局部最优原则,利用卡方检验来选择对应变量最有影响的自变量
CART依据总体最优原则,利用基尼系数等
标签:基础 分析 集成 规律 很多 互联网 模式 实践 海量数据
原文地址:https://www.cnblogs.com/jp-mao/p/9778873.html