码迷,mamicode.com
首页 > 其他好文 > 详细

数据挖掘入门 -

时间:2019-10-29 20:06:06      阅读:79      评论:0      收藏:0      [点我收藏+]

标签:青年   入门   离散   离散化   数据   好的   原因   不能   div   

一、概念性名词

1、数据的离散化

有些数据本身很大, 自身无法作为数组的下标保存对应的属性。如果这时只是需要这堆数据的相对属性, 那么可以对其进行离散化处理。当数据只与它们之间的相对大小有关,而与具体是多少无关时,可以进行离散化。

例如:

①原数据:1,999,100000,15;处理后:1,3,4,2;

②原数据:1234567、123456789、12345678、123456

排序:123456<1234567<12345678<123456789

=>1<2<3<4
那么这4个数可以表示成:2、4、3、1
 
2、概念分层
通过使用高层的概念(比如:老年,中年,青年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据。概念分层可以用树来表示,树的每一个节点代表一个概念(比如:按地区划分世界)
 
3、过拟合
一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

数据挖掘入门 -

标签:青年   入门   离散   离散化   数据   好的   原因   不能   div   

原文地址:https://www.cnblogs.com/GjqDream/p/11760910.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!