码迷,mamicode.com
首页 >  
搜索关键字:清洗    ( 781个结果
Data Flow ->> Fuzzy Lookup & Fuzzy Grouping
这两个任务的作用是数据清洗(Data Cleansing)。Fuzzy Lookup通过引用另外一张数据库表或者索引来进行相似值匹配。这种组件对于标准化和查找可能错误的客户端数据非常有用。例如像地址或者像城市名这种属性栏位非常有用。Fuzzy Lookup不仅会输出它的匹配值,同时还会输出simil...
分类:其他好文   时间:2015-06-13 18:20:29    阅读次数:176
Hive优化
一、什么时候可以避免执行MapReduce?select *where语句中只有分区字段 二、Jion优化驱动表最右边查询表表的大小从左边到右边依次增大标志机制显示的告知查询优化器哪张表示大表/*+streamtable(table_name)*/ 三、Map-side聚合sethive.map.aggr=true;这个设置可以将顶层的聚合操作放在Map阶段执行,从而减轻清洗...
分类:其他好文   时间:2015-06-12 17:24:34    阅读次数:174
数据清洗小记:“时间段”数据获取小心错误的习惯
原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。 深蓝的blog:   【背景】 某项目中,有查询时间段的业务需求,java代码类似如下: and BANKJLSJ_BANKJLSJSSJto_date( #{endDate},’yyyy-mm-dd’) and BANKJLSJ_BANKJLSJSSJ=]]> to_da...
分类:其他好文   时间:2015-06-11 11:11:50    阅读次数:164
《实体解析与信息质量》- 2.1.7 信息质量的演变
尽管信息质量是最近才被归并为一门学科,但是它在作用范围和意义上已经经历了好几个阶段的演变。分别是数据清洗,预防,产品概述和企业资产这几个阶段。 问题认知:数据清洗阶段 九十年代初期,在Inmon (1992),Kimball, etal. (1998) 等人的共同努力下,来自于数据仓库运动中的大部分概念和当前的实践所形成的信息质量,开始变得普及起来。大多数组织机构都不知道如何处理操作性数据...
分类:其他好文   时间:2015-06-08 11:48:25    阅读次数:128
数据清洗小记:主键类ID字段的生成
【背景】 在由源端抽取数据插入目标端后,需要创建一个主键ID字段。   【解决】 方法一、使用sys_guid()函数生成32位的随记数 例如向emp表中,新建一个字段,并且设置字段默认值为用sys_guid()函数自动生成一个32位不重复的随机数。 altertable EMP addIDvarchar2(32) default sys_guid();   方法二、使用触发器...
分类:其他好文   时间:2015-06-03 15:51:59    阅读次数:150
数据清洗小记:判断是否为数字函数
【背景】 在处理数据时,在向为number类型的字段插入数据的时候,出现大量中文或无意义英文,查看发现均为垃圾数据,需要清洗。   【解决】 计划调用数字判断函数来完成判断,如果判断为数字类型的,存入数据,如果为非数字类型的,赋空值处理。 编写“判断是否为number”函数,如下: createorreplacefunction isnum(v_in varchar2) retu...
分类:其他好文   时间:2015-06-03 09:46:25    阅读次数:135
数据清洗小记:全角数字转换半角数字
【背景】 在将某数字类型字段插入到目标端时,报错,提示类型不正确,查看数据发现确实为number,但发现为“全角”数字。   【解决】 利用函数,将“全角”转换成“半角”,使用如:to_single_byte()函数,对其转换,转换成半角后,成功存入数据库。 另外,如果遇到需要“半角”转换成“全角”的场合时,可以使用to_multi_byte()函数。   【实验】 小知识...
分类:其他好文   时间:2015-06-03 09:46:23    阅读次数:166
数据清洗小记:多用户调用同一个函数
原创作品,出自 “深蓝的blog” 博客,欢迎转载,转载时请务必注明出处,否则有权追究版权法律责任。 深蓝的blog:   【背景】         做数据抽取时,源端遇到多用户访问不同所属表情况,需要使用相同的函数时,在多用户下需要重新创建。   【解决】         多用户下遇到使用相同函数的情况时,我们可以选择重新创建函数,但有时由于函数过多,执行起来不方便,每个用户都执行...
分类:其他好文   时间:2015-06-03 09:45:36    阅读次数:150
kettle使用log4j管理输出日志
在使用kettle进行数据分析和清洗时日志非常多而且杂乱,使用原有的日志有时找不到异常的位置,有时日志不够详细,说简单一点就是日志不是我们想要的。因而对kettle日志进行相应的管理就想得尤为重要了。大家都知道java最常用的日志管理包log4j可以很好地实现java日志的管理,然而kettle.....
分类:其他好文   时间:2015-06-02 13:10:29    阅读次数:4546
碳酸氢钠sodium bicarbonate
家庭清洁对洗涤剂过敏的人,不妨在洗碗水里加少许小苏打,既不烧手,又能把碗、盘子洗得很干净。也可以用小苏打来擦洗不锈钢锅、铜锅或铁锅,清洗锅底(把小苏打均匀地撒在烧焦的铝锅底上,随后用水泡一泡,数小时后,锅底上的焦巴就容易擦去了)小苏打还能清洗热水瓶内的积垢。方法是将50克的小苏打溶解在一杯热水中,然...
分类:其他好文   时间:2015-06-01 22:22:58    阅读次数:241
781条   上一页 1 ... 67 68 69 70 71 ... 79 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!