码迷,mamicode.com
首页 > 其他好文 > 详细

第二章:数据挖掘概述

时间:2018-10-12 17:04:17      阅读:123      评论:0      收藏:0      [点我收藏+]

标签:基础   分析   集成   规律   很多   互联网   模式   实践   海量数据   

数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为规则、概念、规律及模式等

2.1数据挖掘的发展历史

.....

2.2数据分析与数据挖掘的主要区别

相对于传统的统计分析技术,数据挖掘有如下特点:

  • 数据挖掘擅长处理大数据(几十几百万行或者更多的数据)
  • 数据挖掘在实践应用中一般都会借助数据挖掘工具
  • 数据分析应用的趋势是用大型数据库中抓取数据

数据挖掘是统计分析技术的延伸和发展

数据挖掘和统计分析的差别:

统计分析的基础之一就是概率论,对数据进行统计分析需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性,数据挖掘应用中,不需要对数据发布做任何假设,数据挖掘中的算法会自动寻找变量间的关系,相对于海量数据数据挖掘有明显的应用优势

统计分析在预测中常常表现为一个或者一组函数关系式,数据挖掘在预测应用中重点在于预测结果,很多时候不会从结果中产生明确的函数关系式,有时候不知道那些变量起作用,如何起作用

2.3数据挖掘的主要成熟技术以及在数据化运营中的主要应用

2.3.1决策树:是一种非常成熟、普遍采用的数据挖掘技术,建模过程类似树的成长过程,分析的数据样本先是集成为一个树根,经过层层分支,最终形成N个节点,每个节点代表一个结论

最常用的3种决策树算法分别是

  • CHAID(卡方自动相互关系检测):依据局部最优原则,利用卡方检验来选择对应变量最有影响的自变量,应用前提是因变量为类别型变量
  • CART(分类和回归树):依据总体最优原则,利用基尼系数等不纯度的指标
  • ID3(包括C4.5\C5.0)

CHAID和CART的区别:

CHAID局部最优原则,利用卡方检验来选择对应变量最有影响的自变量

CART依据总体最优原则,利用基尼系数等

2.4互联网行业数据挖掘应用的特点

第二章:数据挖掘概述

标签:基础   分析   集成   规律   很多   互联网   模式   实践   海量数据   

原文地址:https://www.cnblogs.com/jp-mao/p/9778873.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!