依然在北京,早上停电了,整个人感觉对不好了,接下来就说一下在使用ETL工具kettle做数据校验的时候遇到的一些问题,一级解决方案.1:数据校验效果图下图:原始表数据(需要校验的表数据)对上表数据进行校验,校验规则,order_nane、order_type不为空,order_money2>orde...
分类:
其他好文 时间:
2015-03-11 12:46:21
阅读次数:
202
最近参与了一个信托行业的BI项目,由于信托业务系统设计的问题,很多都是用户手工录入的数据,也有一些是需要分析的但是用户没有录入的数据,针对这样的数据质量,我们就要在ETL抽取的过程中来对数据流进行校验,今天我们就说一下如何利用ETL开源工具kettle来完成对数据的基础性校验1:非空校验if(INT...
分类:
Web程序 时间:
2015-03-07 15:29:02
阅读次数:
229
Kettle是Pentaho的一个组件,主要用于数据库间的数据迁移,到我用过的4.2版,还不支持noSQL,不知道4.4是不是支持了。
Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变量:pentaho_java_home,例如:C:\Program Files\Java\jdk1.7.0_25...
分类:
其他好文 时间:
2015-03-03 15:09:42
阅读次数:
108
kettle登录加载job 报错 Can't find Job 1...
分类:
其他好文 时间:
2015-02-28 18:45:29
阅读次数:
113
sqlnet.ora 添加NAMES.DIRECTORY_PATH= (TNSNAMES, EZCONNECT)SQLNET.ALLOWED_LOGON_VERSION=8
分类:
数据库 时间:
2015-02-27 11:40:30
阅读次数:
125
Kettle汇总时手动执行小时汇总命令:./kitchen.sh -norep -file /usr/local/evqm/kettle/kettle_scripts/rpt_hour.kjb -param:start_time='2015-2-3 10:00:00' -param:end_time...
分类:
其他好文 时间:
2015-02-10 11:13:46
阅读次数:
220
普通开发电脑,如果没有网络查询步骤,kettle正常的速度应该在3000~20000条/秒。如果速度在2000条/秒一下,就可能需要调优。性能优化的方式包括如下几种:1.通过改变开始复制的数量(针对查询控件,这种方式比较简单,需要多长尝试合理的复制数量)2.在查询的控件中,条件是相等查询的话,可以使...
分类:
其他好文 时间:
2015-01-30 20:53:11
阅读次数:
781
文本类型在kettle中作为数据源的时候,需要注意的几点,ktr的机构如下图1:txt文本的格式2:文本输入控件的设置--2.1:选择文件所在物理位置--2.2:设置分隔符,注意头部数量去掉,不然第一行可能会丢掉,当然也可以根据这里设置从第几行开始抽取--2.3:设置数据类型和字段名PS:需要特别注...
分类:
其他好文 时间:
2015-01-29 19:28:27
阅读次数:
167
最近由于工作业务需要,一直在研究pdi工具中解析xml、json等格式数据的方法,解析xml和json都较简单。
解析xml的时候,只需要选择相应的文件(不一定要是xml文件,txt的也行,只要是数据是xml格式就可以),然后选择循环读取路径,设置好标签对名称即可:
一:选择文件,如果xml数据是上一过程输入的,不用选择文件:
二:选择循环解析xml的节点,你所选择的节点应该是所以数...
分类:
Web程序 时间:
2015-01-27 18:40:24
阅读次数:
1850