piggybank里面有很多函数,可以用register和define调用。也可以用java仿照piggybank自行开发。
比如读sequence二进制文件,可以用piggybank里面函数SequenceFileLoader,也可以自行开发函数。
--REGISTER piggybank.jar;
REGISTER wizad-etl-udf-0.1.jar;
--DEFINE...
分类:
其他好文 时间:
2014-11-05 17:22:15
阅读次数:
217
阿里云-采云间DPC
数据集成
支持本地数据上传和RDS数据同步到ODPS;持续增加更多数据源之间的相互同步,实现云端数据的无缝
流通
数据处理
提供ODPS IDE工具、SQL代码管理和任务调度功能,是ETL研发利器,也是分析师的基础数据处理工具
数据分析
通过拖拽和可视化的方式分析大数据,将数据...
分类:
其他好文 时间:
2014-11-03 16:00:41
阅读次数:
458
最近工作中刚好碰到excel 作为源导入db的需求,于是写下来帮助自己以后回顾和总结逐步扩展对excel的处理1.单纯的excel导入目标库这步实现是最为简单,不考虑任何的扩展性和容错处理,缺点也很明显,源文件名和文件所在的路径都需要固定并且无法处理一个批次多个文件的情况2.扩展循环处理多个文件这种...
分类:
其他好文 时间:
2014-10-29 12:54:15
阅读次数:
150
kettle的javascript步骤自己写代码连接数据库,实现查询,更加灵活,一些业务场景中会用到。...
分类:
数据库 时间:
2014-10-29 09:14:21
阅读次数:
240
R7-全称翱旗创业(北京)科技有限公司,位于北京市朝阳区奥运村科技园区。是在高新软件技术应用领域中专业从事数据交互、ETL数据抽娶数据容灾备份、数据复制、数据整合的高新技术企业。R7致力于为政府、能源、金融、医疗、物流等行业提供数据交互中的专业服务。R7的研发团队来..
分类:
数据库 时间:
2014-10-27 06:59:58
阅读次数:
367
ETL工具完成的差不多了,今天遇到一个问题,就是给C3P0配置了maxPoolSize为10,目的是想让整个应用同时获得的最大的Connection个数为10,但是在测试应用的这一部分之后,发现PostgreSQL端的链接远远超过10个。因为工具是多线程的,所以就想,是不是多线程的问题,查了一下Connection的个数,也确实是10*线程个数。于是做了一个测试:
将maxPoolSize配置为...
分类:
编程语言 时间:
2014-10-26 11:43:26
阅读次数:
213
增量抽取 增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在ETL使用过程中。增量抽取较全量抽取应用更广。如何捕获变化的数据是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据按一定的频率准确地捕获到;性能,不能对业务系统造成太大的压力,影响现有业务。目前...
分类:
其他好文 时间:
2014-10-26 01:36:07
阅读次数:
147
举例说明kettle中javascript步骤的错误处理功能。...
分类:
编程语言 时间:
2014-10-23 09:32:42
阅读次数:
327
Key words: merge compare columnswhen we contact merge sql in ETL,When we update some columns we should compare the value change or not.We always write...
分类:
其他好文 时间:
2014-10-22 14:24:51
阅读次数:
160
这几天协作实施人员做BI的项目。项目的开发已经接近尾声,后期的工作主要就是定义指标以及定义多维分析模型以及ETL的过程。下面具体把这次的工作总结一下:环境: 系统: ERP,HIS以及其他的子系统-------主要是业务数据以及一些数据字典(SQLServer2005) BI系统---...
分类:
其他好文 时间:
2014-10-17 23:17:55
阅读次数:
859