标签:
(4)数据规约 —— 主要方法包含:数据立方体聚集,维度归约,数据压缩,数值归约,离散化和概念分层等。
(5)图说事实
通过填补遗漏数据、消除异常数据、平滑噪声数据,以及纠正不一致数据,去掉数据中的噪音、填充空值、丢失值和处理不一致数据
四:用图说话,(我还是习惯用统计图说话)
结尾:计算机领域存在一条歧视链的 ---- 学java的歧视学C++的,有vim的歧视用IDE的等等。
数据清洗的路子:刚拿到的数据 ----> 和数据提供者讨论咨询 -----> 数据分析(借助可视化工具)发现脏数据 ---->清洗脏数据(借助MATLAB或者Java/C++语言) ----->再次统计分析(Excel的data analysis不错的,最大小值,中位数,众数,平均值,方差等等,以及散点图) -----> 再次发现脏数据或者与实验无关的数据(去除) ----->最后实验分析 ----> 社会实例验证 ---->结束。
标签:
原文地址:http://www.cnblogs.com/gcczhongduan/p/4251909.html