kettle的子转换,及映射类的步骤详细介绍。是重用转换的一种有用的方式,让一些公共算法重构成子转换,供其它转换调用。...
分类:
其他好文 时间:
2014-10-05 19:07:08
阅读次数:
220
业务模型: 在关系型数据库中有张很大的表,被设计成奇偶库存储,每个库100张一模一样的表,每张表存储1000W,字段切换到下一个表。现需要同步这个数据到hive中(hdfs),循环抽取这些数据。如果是抽取增量的带上增量字段(每天增量数据存储在哪个表,奇数库还是偶数库是不知道的)。...
分类:
其他好文 时间:
2014-10-01 09:25:40
阅读次数:
367
一、前言每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现
手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工..
分类:
其他好文 时间:
2014-09-28 19:50:56
阅读次数:
221
每每提到数据挖掘,总有些人上来就是ETL、是算法、是数学模型,作为搞工程实施的我而言,很是头疼。其实作为数据挖掘的而言,算法只是其实现手段、是工具和实现手段而已,我们不是在创造算法(国外职业搞研究的除外),我们是在使用算法而已,换句话说我们是算法的工程化实践者。数据挖掘非今日之物,大数据挖掘也不是一...
分类:
其他好文 时间:
2014-09-28 14:24:02
阅读次数:
177
数据抽取的开源工具一个是RDBMS一个是基于分布式的数据ETL工具====================原则: 主要是映射规则,基础字典数据,详细数据注意与ESB的编程模型的差异(编程思想上)
分类:
其他好文 时间:
2014-09-24 03:20:35
阅读次数:
302
ETL 概念 ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据;(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工。(3)数据加载...
分类:
其他好文 时间:
2014-09-23 20:46:15
阅读次数:
432
(1)老妈十一要回老家,才突然发现买票好难啊。有亲朋很重要(2)这周我做了什么。jdic,ETL,groovy,Nutz好多东西想学。(3)想改变,却发现这么久,还是在原地踏步。(4)人的性质真是很不相同啊。看贝儿很快就会去拉客来买东西,杨阳洋就羞涩些。生活中每个人处理问题的方式各不相同也是他们性质...
分类:
其他好文 时间:
2014-09-22 00:48:11
阅读次数:
218
1.ETL: 数据层之间,主要在数据库层面上进行数据抽取过程------数据库层2.ESB 异构系统之间通过总线技术,实现系统交互---------------系统通信层3.BPM 自动化流程处理,监控机制-------------------------------业务编排,系统组合服务
分类:
其他好文 时间:
2014-09-21 05:51:49
阅读次数:
391
http://blog.csdn.net/zlp321002/article/details/3413365ETL设计之-Foreach 循环容器应用场景:批量导入某一文件夹下的所有文件.就可以用foreach循环容器里面的文件枚举。要求:需要把D:/Temp目录下所有csv导入某一个表。如下图:步...
分类:
其他好文 时间:
2014-09-21 02:47:19
阅读次数:
292
需求: 1.你是否遇到了需要将mysql数据库中的所有表与数据迁移到Oracle。 2.你是否还在使用kettle重复的画着:表输入-表输出、创建表,而烦恼。 下面为你实现了一套通用的数据库迁移流程。 技术引导: 实现之初,...
分类:
数据库 时间:
2014-09-17 15:43:12
阅读次数:
303