标签:对象 操作 实现 关系 pac job 文件输入 类型 transform
Spoon.bat 图形界面方式启动作业和转换设计器。
Pan.bat 命令行方式执行转换。
Kitchen.bat 命令行方式执行作业。
Carte.bat 启动web服务,用于Kettle的远程运行或集群运行。
Encr.bat 密码加密。
Kettle的Spoon.bat设计器用来设计转换(Transformation)和作业(job)。
###输入、输出、转换、过滤、字段选择、连接###
元数据的通用概念:
ETL的元数据:
在Kettle里元数据的存储方式:
资源库宝库文件资源库,数据库资源库
Kettle资源库类型可以插件扩展
.ktr转换文件的XML的根节点必须是<transformation>
.kjb作业XML的根节点是<job>
数据库资源库:
文件资源库:
在文件的基础上的封装,实现了org.pentaho.di.respositpory.Repository接口。
是Kettle4.0以后版本里增加的资源库类型
不使用资源库:
直接保存为 ktr 或 kjb 文件。
数据库资源库的缺点:
文件资源库的缺点:
不使用资源库:
使用SVN进行文件版本控制。
参考:
Kettle企业资源库:基于Apache Jackrabbit 的CMS系统。
开发、测试、确认、发布
开发资源库、测试(确认)资源库、发布资源库
1.从开发资源库带测试资源库:
注意命名规则。
由一个人统一发布,避免冲突。
两种移植方法:断开重连、导入/到处。
2.从测试(确认)资源库到发布资源库:导入/到处
SVN版本控制,测试打tag,发布建branch
为什么要参数化:
在资源库之间移植作业时,因为各个阶段的环境不一样,在作业里使用的数据库连接等元数据不能硬编码。
参数化的几个方法:
参数表的结构
Environment parameter_name parameter_value valid_from valid_to
Dev host_name localhost 2011-01-01 2099-01-01
Test host_name 192.168.12.10 2011-01-01 2013-05-01
Test hose_name 192.168.12.11 2011-05-02 2099-01-01
图形化界面:Spoon
命令行:Pan、Kitchen
API:Kettle Java API 嵌入到其它应用
本地:在本地执行
远程:在远程服务执行,需要远程服务器执行Carte。
集群:在集群上执行,需要转换里的某个步骤实现设置为集群方式运行。
标签:对象 操作 实现 关系 pac job 文件输入 类型 transform
原文地址:https://www.cnblogs.com/Diyo/p/11371254.html