码迷,mamicode.com
首页 >  
搜索关键字:etl kettle    ( 2602个结果
【第二天】用kettle向hdfs复制文件
http://blog.csdn.net/greatelite/article/details/18676281遇到的问题:在连接到hdfs服务器上,一直提示unable to connect to HDFS Server解决过程中:①网上找了各种说是jar包驱动不兼容,端口号不对,最后都没解决②最...
分类:其他好文   时间:2014-07-13 00:38:07    阅读次数:632
用一个MapReduce job实现去重,多目录输出功能
总结之前工作中遇到的一个问题。 背景: 运维用scribe从apache服务器推送过来的日志有重复记录,所以这边的ETL处理要去重,还有个需求是要按业务类型多目录输出,方便挂分区,后面的使用。 这两个需求单独处理都没有问题,但要在一个mapreduce里完成,需要一点技巧。 1、map输入数据,经过一系列处理,输出时: if(ttype.equals("other"))...
分类:其他好文   时间:2014-07-11 00:20:13    阅读次数:226
BI开发(ETL-DW)
来到公司已经参与开发了一段时间的BI项目,但是仅仅是按照需求开发,今天下午公司给大家培训数据仓库的知识,老大(女程序员)在上面讲,我们在下面听,2到3个小时吧,什么纬度,主题,几乎听的一脸茫然,最后演示了基于BI的成本分析系统,感觉好复杂,主要是对于医疗项目的业务,反正挺繁琐的。做这个项目的目的主要...
分类:其他好文   时间:2014-07-06 17:24:53    阅读次数:193
Kettle笔记: Transformation 笔记
触发器表输入:selecta.*,b.*,0asztflagfromexchange_triggeraleftjoinMAEA_NET_BIZ_BASEINFObon(a.keyvalue=b.id)wherea.flag=0anda.tablename=‘MAEA_NET_BIZ_BASEINFO‘附件处理脚本://Scriptherevarbyte_FILEDATA=null;if(FILEDATA!=null&&FILEDATA!=‘‘){varbb=newP..
分类:其他好文   时间:2014-07-04 06:17:57    阅读次数:279
kettle中denormalizer(列转行)的使用
需要列转行的数据分为两种:有主键和无主键,先说无主键的转以前的内容转以后的内容看到了吧,转过来了,好来张整体流程图开始分析:第一个图标打开后为这是第一步里面主要的一步,这里配置好了就可以进行第二步了。因为没有主键,所以要给城市那一列添加一个相同的主键,这样..
分类:其他好文   时间:2014-07-04 00:59:23    阅读次数:267
OutOfMemoryError与StackOverFlowError
最近在用kettle做数据统计,遇到了标题中说的问题,解决方法也简单,不过还要说明一下虽然这两个都是内存溢出,但是是有区分的,OutOfMemoryError表示堆溢出,StackOverFlowError表示栈溢出,一般出现前者的情况比较多,后者的情况出现的较少,除非你用了深度循环。一般情况下s..
分类:其他好文   时间:2014-07-02 06:21:41    阅读次数:246
kettle的乱码和null值无法插入
今天再弄kettle 的时候遇到两个问题, 1.更新数据的时候,遇到一个问题,就是我的输入表主键不是null,但是他一直说我插入null值 2.更新的数据,出现乱码首先说第一个 其实kettle在进行更新数据的时候,它是需要你根据你的主键进行更新,你的数据的,如果你的主键只进行比较而不进行更新,.....
分类:其他好文   时间:2014-07-01 20:38:03    阅读次数:275
使用kettle实现关键字查询,更新单列数据
中间库---->机构代码表 本地数据库------>机构表他们两张表的结构是这样的: 机构代码表 Id 机构表 Id Flag需求是这样的,我本地的机构表中的Id只要在中间库的机构代码表里存在,我就要把机构表里的Flag列更新为1,其实一开始想的是使用变量应该是可以的,...
分类:其他好文   时间:2014-07-01 20:27:52    阅读次数:928
Greenplum-概念篇
Greenplum主要组件包括:Master、Segments、Interconnect;其他组件包括ETL Server、Greenplum command center等。0. 组件之-Master:master功能master也是一个gp的独立的数据库,是gp的入口,负责接受和管理客户端的连接...
分类:其他好文   时间:2014-07-01 16:57:59    阅读次数:411
ETL数据抽取
1.ETL:数据抽取2.抽取数据在不同的数据源之间,把数据进行转化,加载,清洗操作,保证抽取的数据合法。3.开源实现:Kettle 工具====================================================================学习:大家可以学学这个Ket...
分类:其他好文   时间:2014-06-26 13:05:42    阅读次数:210
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!