一个实战的示例,利用kettle组件导入excel文件到数据库,然后通过java代码调用,完整有效,自由掌控。...
分类:
数据库 时间:
2014-11-14 10:47:24
阅读次数:
286
在kettle中实现数据验证和检查 在ETL项目,输入数据通常不能保证一致性。在kettle中有一些步骤能够实现数据验证或检查。验证步骤能够在一些计算的基础上验证行货字段;过滤步骤实现数据过滤;javascript步骤能够实现更复杂的计算。 通常以某种方式查看那些数据是有缺陷的也是实用的,由于大多....
分类:
其他好文 时间:
2014-11-12 19:21:09
阅读次数:
235
我们知道所谓ETL步骤其实就是把数据从源系统加载到数据仓库或数据集市的操作,并在此过程中实现数据的清洗及转换。除了数据的清洗转换之外,一次ETL的过程中另一个十分重要的部分就是:本次抽取能不能直接定位到上次数据处理后变动的数据,即增量抽取(IncrementalLoad)。取决于..
分类:
其他好文 时间:
2014-11-11 14:31:47
阅读次数:
213
对于任何事物而言,监督都是提高自身的有效手段,BI也是如此。从我个人的经验而言,BI的监督可以分为两类(欢迎拍砖讨论):运行时监督(RuntimeMonitoring)与数据仓库健康状况的监督(DWHealthyMonitoring):1.运行时监督所谓运行时监督是指监督数据从数据源到流到数据仓库的过程..
分类:
其他好文 时间:
2014-11-07 19:15:14
阅读次数:
320
通过命令行也可以调用,然后java中调用命令行代码也可以;这样没有和java代码逻辑无缝集成。本文说明kettle5.1中如果通过其他API和java代码无缝集成;网上大多数资料都是低版本的,在kettle5.x中已经不能运行。...
分类:
编程语言 时间:
2014-11-07 07:33:27
阅读次数:
239
今天在做SSIS的ETL工作时,其中一个left join组件的运行结果总是会多出一些记录。分析了一下,该问题的原因是右表中作为关联的那一列数据有重复。left join的运行策略可以理解为根据左表的每一条记录的关联字段去对照右表的关联字段,如果右表的关联字段存在重复,就会生成重复的记录。如果左.....
分类:
数据库 时间:
2014-11-06 21:27:06
阅读次数:
230
piggybank里面有很多函数,可以用register和define调用。也可以用java仿照piggybank自行开发。
比如读sequence二进制文件,可以用piggybank里面函数SequenceFileLoader,也可以自行开发函数。
--REGISTER piggybank.jar;
REGISTER wizad-etl-udf-0.1.jar;
--DEFINE...
分类:
其他好文 时间:
2014-11-05 17:22:15
阅读次数:
217
阿里云-采云间DPC
数据集成
支持本地数据上传和RDS数据同步到ODPS;持续增加更多数据源之间的相互同步,实现云端数据的无缝
流通
数据处理
提供ODPS IDE工具、SQL代码管理和任务调度功能,是ETL研发利器,也是分析师的基础数据处理工具
数据分析
通过拖拽和可视化的方式分析大数据,将数据...
分类:
其他好文 时间:
2014-11-03 16:00:41
阅读次数:
458
最近工作中刚好碰到excel 作为源导入db的需求,于是写下来帮助自己以后回顾和总结逐步扩展对excel的处理1.单纯的excel导入目标库这步实现是最为简单,不考虑任何的扩展性和容错处理,缺点也很明显,源文件名和文件所在的路径都需要固定并且无法处理一个批次多个文件的情况2.扩展循环处理多个文件这种...
分类:
其他好文 时间:
2014-10-29 12:54:15
阅读次数:
150
kettle的javascript步骤自己写代码连接数据库,实现查询,更加灵活,一些业务场景中会用到。...
分类:
数据库 时间:
2014-10-29 09:14:21
阅读次数:
240