组件:值映射如下如所示:首先,给出官方给出的文档:个人理解:Target field
name:可以理解为将source column的字段复制为另一个target column的名字。Default upon
non-matching:就是将target column的所有值(除去null),都替...
分类:
其他好文 时间:
2014-05-27 16:28:38
阅读次数:
767
最近使用hive做一些etl工作,除了日常sql的编写,了解hadoop及hive的一些底层原理性质的东西包括调优非常有必要,一次hive调优就把原来的零散文件做了合并。首先记下hadoop常用的命令:(hadoop
fs -help列出全部)1,hadoop fs –fs [local | ]:声...
分类:
其他好文 时间:
2014-05-26 20:44:49
阅读次数:
308
今天准备在 @zhangkai05
写的小工具model_sql基础上,进一步完善功能,使其更加自动化。方便建模人员开发etl任务。源代码更改后 ,会发布到
git(url地址)上,逐步完善。描述现状及问题团队 数据仓库建模在2013年下开始使用 oracle sql developser data...
分类:
数据库 时间:
2014-05-20 08:08:37
阅读次数:
643
最近在整理之前的同步的kettle代码,现把之前的kettle同步的思路记录在此。
1.同步流程图,下图是同步的整个流程图
2.外部的数据表,根据业务逻辑更新到服务器端的业务表,下图是其中的一个示例图:
这个的思路是:获取最新需同步的数据、分别查出药品分类ID、药品分类与分类关联ID以及药品ID(不存在,则生成新的UUID)、查询数据库中药品分类ID的记录数是否存在(即是否不...
分类:
其他好文 时间:
2014-05-15 09:02:58
阅读次数:
415
数据库同步的方式有设置标志位同步方式、以时间戳同步的方式,对于一对一的同步这两种方式都满足,但是对于一对多的同步,则只能选择时间戳的同步方式了,但是已时间戳同步的方式的一个问题是如何可靠的保证数据可以不丢失的同步到数据库中。下面有两种方式来保证以时间戳同步的可靠性。
1、计算服务器与客户端两台电脑的时间差,将该时间差记入在同步时间的比对当中,下图是使用kettle做的一个计算同步的时间差的思路:...
分类:
其他好文 时间:
2014-05-15 08:02:56
阅读次数:
460
今天在设置kettle的界面时,想看看中文是什么样子的,于是就把如图的地方都改成了中文重启后,kettle启不来了一直报错java.lang.ArrayIndexOutOfBoundsException:5
atorg.pentaho.di.ui.spoon.dialog.TipsDialog.getTip(TipsDialog.java:191)
atorg.pentaho.di.ui.spoon.dialog..
分类:
其他好文 时间:
2014-05-13 01:53:37
阅读次数:
625
关于如何用kettle创建job以及如何部署kettle到linux上,我就不细说了,大家应该都会,下面重点说一下,如何让job执行起来先将创建好的脚本上传到kettle指定目录下面,创建调用job执行的脚本文件,exportJAVA_HOME=/usr/java/jre1.6.0_23
exportPATH=$JAVA_HOME/bin:$PATH
expor..
分类:
系统相关 时间:
2014-05-09 21:25:51
阅读次数:
521
原文:SSIS从理论到实战,再到应用 一,是什么(What?)
1.SSIS是Microsoft SQL Server Integration
Services的简称,是生成高性能数据集成解决方案(包括数据仓库的提取、转换和加载 (ETL) 包)的平台.
以上的这段文字来自于百度,脱离这个概念,我一...
分类:
其他好文 时间:
2014-05-09 07:49:45
阅读次数:
308
通过excel进行快速开发报表:
建设思路:
1.首先制订相关的execl模板。
2.通过etl工具(kettle)可以快速的
将数据库中的数据按excel模板导出成新的excel即可。
其中kettle 按excel模板导出excel 可以参考:
http://type-exit.org/adventures-with-open-source-bi/2010/12/using...
分类:
其他好文 时间:
2014-05-09 01:22:42
阅读次数:
311
版本:cdh5.0.0+hadoop2.3.0+hbase0.96.1.1+Spoon5.0.1一、HBase数据导入HBase数据导入使用org.apache.hadoop.hbase.mapreduce.ImportTsv 的两种方式,一种是直接导入,一种是转换为HFile,然后再次导入。1. HDFS数据为(部分):[root@node33 data]# hadoop fs -ls /inp...
分类:
其他好文 时间:
2014-05-09 00:25:48
阅读次数:
515