码迷,mamicode.com
首页 > 其他好文 > 详细

第一章·导论

时间:2018-11-14 19:48:20      阅读:169      评论:0      收藏:0      [点我收藏+]

标签:比较   特定   目标变量   变量   ali   预测   分析   不同   差距   

数据挖掘主要有两大类:

  • 预测任务:根据其他属性的值,预测特定属性的值
  • 描述任务:导出概括数据中潜在联系的模式(相关,趋势,聚类,轨迹和异常)

4种主要的数据挖掘任务:

  • 预测建模:
  1. 分类:用于预测离散的目标变量(如预测web与用户是否会在网上买书,预测花类型)。
  2. 回归:用于预测连续的目标变量(如预测未来股票价格)。
  • 关联分析:用来发现描述数据中强关联特征的模式。(如找事物间联系,通过购物篮数据发现买尿布的顾客多半会买牛奶)。
  • 聚类分析:发现紧密相关的观测值组群,每个族群中的每个观测值都尽可能相同(如对顾客进行分类)

 

  • 异常检测:识别特征显著不同于其他数据的观测值。这样的观测值被称为异常值或者离群点,目标是发现真正异常点,而避免将正确对象标注为异常点(如检验欺诈,寻找疾病的不寻常模式)

         例:信用卡欺诈检验:比如合法交易需要一系列步骤,而非法交易步骤相对简单,可以通过步骤比较,如果和合法交易步骤差距很大就有可能是非法交易。

第一章·导论

标签:比较   特定   目标变量   变量   ali   预测   分析   不同   差距   

原文地址:https://www.cnblogs.com/windsWater/p/9959868.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!