在数据挖掘的过程中,数据预处理占到了整个过程的60% 脏数据:指一般不符合要求,以及不能直接进行相应分析的数据 脏数据包括:缺失值、异常值、不一致的值、重复数据及含有特殊符号(如#、¥、*)的数据 数据清洗:删除原始数据集中的无关数据、重复数据、平滑噪声数据、处理缺失值、异常值等 缺失值处理:删除记 ...
分类:
编程语言 时间:
2017-02-28 00:21:38
阅读次数:
2813
通过 采集系统 我们采集了大量文本数据,但是文本中有很多重复数据影响我们对于结果的分析。分析前我们需要对这些数据去除重复,如何选择和设计文本的去重算法?常见的有余弦夹角算法、欧式距离、Jaccard相似度、最长公共子串、编辑距离等。这些算法对于待比较的文本数据不多时还比较好用,如果我们的爬虫每天采集 ...
分类:
其他好文 时间:
2017-02-16 14:25:14
阅读次数:
247
1、实时性要求不高,采用全删全插的方式(适合于维度表、大数据量表) 2、有时间维度,直接从事实表同步的数据,可以采用根据时间字段进行筛选,增量同步。这个网上有很多例子,就不重复写了。 3、没有时间维度,同时表数据量比较大,且不能采用全删全插方式的,可以采用增量更新的方法。 在第三种方法中,尤其需要注 ...
分类:
其他好文 时间:
2017-02-16 11:22:15
阅读次数:
197
转 sql中exists,not exists的用法 exists : 强调的是是否返回结果集,不要求知道返回什么, 比如: select name from student where sex = 'm' and mark exists(select 1 from grade where ...) ...
分类:
数据库 时间:
2017-02-06 19:33:25
阅读次数:
281
1、row_number() over()排序功能: (1) row_number() over()分组排序功能: 在使用 row_number() over()函数时候,over()里头的分组以及排序的执行晚于 where group by order by 的执行。 partition by 用 ...
分类:
编程语言 时间:
2017-01-23 17:25:52
阅读次数:
177
查询及删除重复记录的SQL语句 查询及删除重复记录的SQL语句 1、查找表中多余的重复记录,重复记录是根据单个字段(Id)来判断 select * from 表 where Id in (select Id from 表 group byId having count(Id) > 1) 2、删除表中 ...
分类:
数据库 时间:
2017-01-23 16:42:48
阅读次数:
172
多表关联时本身有一条数据,但是视图查出重复数据用distinct可以解决。 如: 视图如下 SELECT DISTINCT t1.station_id as station_id, t1.tick_sn as tick_sn, t1.order_id as order_id, t2.station_ ...
分类:
其他好文 时间:
2017-01-22 17:48:34
阅读次数:
188
day3 --添加多行数据: INSERT [INTO] 表名 [(列的列表)] --SELECT UNION --SELECT 'HAHA',1,32--UNION ALL --全部显示/显示重复数据 即使集合相同--UNION 将查询的两个结果集合并。结构必须一致 -->常见面试题 --SELE ...
分类:
数据库 时间:
2017-01-20 21:56:04
阅读次数:
342
如果我们需要将两个select语句的结果作为一个整体显示出来,我们就需要用到union或者union all关键字。 union(或称为联合)的作用是将多个结果合并在一起显示出来。 union和union all的区别是,union会自动压缩多个结果集合中的重复结果,而union all则将所有的结 ...
分类:
数据库 时间:
2017-01-13 14:51:43
阅读次数:
207
我之前在项目中用EF读取一个视图的数据,页面展示出现重复数据,当时百思不得其解,跟踪代码,数据读取时取到的数据并不是重复,为什么在前台显示就有重复了呢,我当时就在业务层将数据去重,但取到的数据跟数据库的数据就对不上了,最后是因为 实体对象中 没有设置所谓的“复合主键”(就是唯一区别的标识,当然在视图 ...
分类:
其他好文 时间:
2017-01-03 18:32:55
阅读次数:
165