4.1 数据清洗: 删除原始数据集中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘无关的数据,处理缺失值、异常值 4.1 数据清洗: 删除原始数据集中的无关数据、重复数据、平滑噪声数据,筛选掉与挖掘无关的数据,处理缺失值、异常值 常见的插补方法:均值/中位数/众数 插补;使用固定值;最近邻插补;回 ...
分类:
其他好文 时间:
2016-12-10 19:46:51
阅读次数:
300
1.常见问题 1.1 什么是偏差与方差? 1.2 为什么会产生过拟合,有哪些方法可以预防或克服过拟合? 2.模型选择 3.特征选择 4.特征工程与数据预处理 ...
分类:
其他好文 时间:
2016-12-06 13:33:33
阅读次数:
675
作者:李君威U201310747 一、该系统有哪些强实时功能需求?需要对哪些实时事件进行实时响应,对允许的实时延迟的数量级进行估计。 答:在数控系统中,位置控制、插补计算、紧急控制等严格实时性任务需要利用实时时钟(最小周期为4ms甚至更低)来完成实时任务的处理。另外还有坐标显示、图形显示、数据预处理 ...
分类:
其他好文 时间:
2016-11-26 18:16:16
阅读次数:
201
归一化处理 数据降维 数据规约产生更小但保持数据完整性的新数据集。在规约后的数据集上进行数据分析和挖掘将更有效率。 机器学习领域中所谓的降维就是指采用某种映射方法,将原高维空间中的数据点映射到低维度的空间中。降维的本质是学习一个映射函数 f : x->y,其中x是原始数据点的表达,目前最多使用向量表 ...
分类:
其他好文 时间:
2016-11-13 19:37:12
阅读次数:
357
1. 基本技能要求 数据库知识(SQL至少要熟悉)、基本的统计分析知识、EXCEL要相当熟悉,对SPSS或SAS有一定的了解,对于与网站相关的业务还可能要求掌握GA等网站分析工具,当然PPT也是必备的。 2、数据挖掘工程师 更多是通过对海量数据进行挖掘,寻找数据的存在模式、或者说规律,从而通过数据挖 ...
分类:
其他好文 时间:
2016-11-07 14:18:19
阅读次数:
155
一、日期时间、字符串的处理 日期 Date: 日期类,年与日 POSIXct: 日期时间类,精确到秒,用数字表示 POSIXlt: 日期时间类,精确到秒,用列表表示 Sys.date(), date(), difftime(), ISOdate(), ISOdatetime() 字符串处理 ncha ...
分类:
编程语言 时间:
2016-11-05 20:37:21
阅读次数:
419
在一个实例中,有近60个特征,上千组数据样本。考虑到数据受噪声污染可能比较严重,希望能首先筛除部分不合理数据,也就是仅采用高度集中区域的数据。那么,问题就是,如何找到数据高度集中区域。找到数据密集区,数据之间的规律性更强,更利于接下来的识别。 首先考虑到的就是抽样,或者美其名曰蒙特卡洛抽样。这是一种 ...
分类:
其他好文 时间:
2016-10-22 11:44:52
阅读次数:
192
数据预处理 1. 数据质量的三个要素:准确性、完整性、一致性 2. 数据预处理的主要任务: 数据清理、数据集成、数据归约、数据变换 一. 数据清理 数据清理主要:填补缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性。 通常是一个两步的迭代过程,包括偏差检测和数据变换 注意:在某些情况下,缺失值 ...
分类:
其他好文 时间:
2016-10-13 14:01:57
阅读次数:
151
一、MXnet数据预处理 整个数据预处理的代码都集成在了toosl/im2rec.py中了,这个首先要造出一个list文件,lst文件有三列,分别是index label 图片路径。如下图所示: 我这个label是瞎填的,所以都是0。另外最新的MXnet上面的im2rec是有问题的,它生成的list ...
分类:
Web程序 时间:
2016-09-30 21:04:48
阅读次数:
4258
原文链接:http://blog.csdn.net/dulingtingzi/article/details/51374487 问题由来 在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", " ...
分类:
其他好文 时间:
2016-09-27 09:07:32
阅读次数:
157