码迷,mamicode.com
首页 > 其他好文 > 详细

自己总结的etl数挖掘据工具-Kettle

时间:2018-01-24 11:07:31      阅读:241      评论:0      收藏:0      [点我收藏+]

标签:工作流   ati   就是   int   密码   脚本   自己   nec   编译   

etl工作中
Kettle软件介绍
Pentaho Data Integration (Kettle)是Pentaho生态系统中默认的ETL工具。Kettle是一款国外开源的etl工具,纯java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。
通过非常直观的图形化编辑器(Spoon),您可以定义以XML格式储存的流程。在Kettle运行过程中,这些流程会以不同的方法编译。用到的工具包括命令行工具(Pan),小型服务器(Carte),数据库存储库(repository)(Kitchen)或者直接使用IDE(Spoon)。
?
Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle 将 ELT 流程编译为 XML 格式,学起来十分简单,Pentaho Data Integration (Kettle) 使用 Java (Swing)开发。Kettle 作为编译器对 XML 格式书写的流程进行编译。这些功能和组件比起 Talend 在丰富性方面稍逊一些,但是您建立复杂 ETL 流程需要的一切元素。Kettle 的 JavaScript 引擎(和 Java 引擎)可以深层地控制对数据的处理。
Kettle使用教程:
Kettle自己有三个主要组件:Spoon,Kitchen,Pan。其中Spoon是一个图形化的界面,用于windows的时候,先设置环境变量:pentaho_java_home,例如:C:\Program Files\Java\jdk1.7.0_25,其实就是你的java安装目录,1.6以上即可。windows下双击Spoon.bat就可以了.

安装Kettle

1.由于软件是由java 编写 需要 先安装jdk jdk 版本要求是1.6
2.安装完成后 要在window 下 设置环境变量
3.在administratorbian变量path 中 增加java变量 ;C:\Program Files\Java\jdk1.6.0_43\bin
4.新建 系统变量 JAVA_HOME C:\Program Files\Java\jdk1.6.0_43

  1. 系统变量path 中 ;C:\Program Files\TortoiseSVN\bin;C:\Program Files\Java\jdk1.6.0_43\bin
    6.在dos 下 输入javac 测试 环境变量
    7.如果需要连接mysql 数据库需要把mysql 数据库的安装包mysql-connector-java-5.1.18-bin放到D:\工具\kettle\data-integration\libext\JDBC
    8.使用spoon 不需要安装 双击spoon 用户名admin 密码不输入 进入软件界面
    9.进入界面后 新建作业或者转换 进行数据库连接

自己总结的etl数挖掘据工具-Kettle

标签:工作流   ati   就是   int   密码   脚本   自己   nec   编译   

原文地址:http://blog.51cto.com/10975663/2064477

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!