王曰芬 章成志 张蓓蓓 吴婷婷 定义:数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。 目的:数据清洗的目的是为信息系统提供准确而有效的数据。 基本原理:利用有关技术,如统计方法、数据...
分类:
其他好文 时间:
2015-01-02 22:25:20
阅读次数:
309
一、数据预处理1、数据如果能够满足其应用的要求,那么他是高质量的。 数据质量涉及许多因素:准确性、完整性、一致性、时效性、可信性、可解释性。2、数据预处理的主要任务:数据清洗、数据集成、数据规约、数据变换。二、数据清理:试图填充缺失值,光滑噪声、识别利群点、纠正数据中的不一致。1、缺失值的处理:1)...
分类:
其他好文 时间:
2014-10-25 22:56:59
阅读次数:
291
卸载Cloudera-Managersudo /usr/share/cmf/uninstall-cloudera-manager.sh一直选择Yes就好卸载完成后,它会问你是否要将database里的数据清理,选择Yes2 按照官方的介绍,删除cloudera的安装目录sudo rm -rf /us...
分类:
其他好文 时间:
2014-10-15 18:18:01
阅读次数:
208
mysql数据清理dbname:mytest表特征:my_table_test_20140701#!/bin/shdbname="mytest"formonthin`seq-f%02g17`;domysql-h"$ip"-u-p$dbname-s-e"showtableslike‘%2014${month}%‘;">tablelist_${month}.txtsed-i‘/Tables_in_mytest/d‘/data/tablelist_*.txt;#mytest为dbnamefo..
分类:
数据库 时间:
2014-10-03 01:27:04
阅读次数:
276
linux系统的定时任务:1:linux系统自身定期执行的任务工作:系统周期性执行的任务工作,如轮询系统日志,备份系统数据,清理系统缓存等。[root@10-4-5-9 ~]# ll /var/log/messages*-rw-------. 1 root root 958906 Sep 20 08...
分类:
系统相关 时间:
2014-09-20 11:03:37
阅读次数:
263
向量之间的相似度
度量向量之间的相似度方法很多了,你可以用距离(各种距离)的倒数,向量夹角,Pearson相关系数等。
皮尔森相关系数计算公式如下:
分子是协方差,分子是两个变量标准差的乘积。显然要求X和Y的标准差都不能为0。
因为,所以皮尔森相关系数计算公式还可以写成:
当两个变量的线性关系增强时,相关系数趋于1或-1。
用户评分预测
...
分类:
其他好文 时间:
2014-08-21 19:28:24
阅读次数:
796
tair是一个分布式KV存储引擎,当新增机器或者有机器down掉的时候,tair的dataserver会根据ConfigServer生成的新的对照表进行数据的迁移和清理。在数据清理的过程中就用到了在tair中新增的Compaction方式——CompactRangeSelfLevel,顾名思义,这个...
分类:
数据库 时间:
2014-08-03 12:37:25
阅读次数:
885
数据预处理(Data Preprocess):通过采用数据清理、数据集成与变换以及数据规约等方法对数据预先进行处理,处理后的数据用于数据挖掘。在当前社会中,由于大数据、数据源不唯一等原因使得在真实数据库存放的数据存在噪声、缺失和不一致的问题。基于数据的信息挖掘在数据不能保证的情况下,挖掘得到的信息也...
分类:
其他好文 时间:
2014-07-31 19:33:40
阅读次数:
258
数据质量
数据挖掘使用的数据通常是为其他用途收集或者收集的时候还没有明确目的。因此数据常常不能在数据的源头控制质量。为了避免数据质量的问题,所以数据挖掘着眼于两个方面:数据质量问题的检测和纠正(数据清理);使用可以容忍低质量数据的算法。
测量和数据收集问题
完美的数据在实际中几乎是不存在的,对于存在的数据质量问题,我们先定义测量误差和数据收集错误,然后考虑测量误差的各种问题:噪声...
分类:
其他好文 时间:
2014-07-26 15:26:11
阅读次数:
235
数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)OLAP是一种分析技术,具有汇总,合并和聚集功能,以及从不同的角度观察信息的能力。但,对于深层次的分析,如数据分类,聚类和数据随时间变化的特征,仍然需要其他
分析工具。尽管市场上已有许多“数据挖掘系统”,但是并非所有的 都能进行真正的数据挖...
分类:
其他好文 时间:
2014-05-08 20:18:07
阅读次数:
323