码迷,mamicode.com
首页 >  
搜索关键字:kettle 开源工具 etl    ( 3189个结果
kettle系列教程二
kettle系列教程二...
分类:其他好文   时间:2014-08-21 15:02:04    阅读次数:224
文本分类——机器学习常用工具
文本分类现已比较成熟,各类开源工具不少,现推荐几个比较常用简单的工具:1、scikit-learn:http://scikit-learn.org/stable/index.html python编写调用,里面有各种分类算法svm、随机森林、贝叶斯等,和特征提取,如字、ngram等,几行代码便可以构...
分类:其他好文   时间:2014-08-18 17:52:42    阅读次数:193
informatica介绍
一、总体概述ETL包括Extract、Transform、Cleaning和Load,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。其中ETL培训的内容是如何利用Informatic PowerCenter把源数据库的内容提取...
分类:其他好文   时间:2014-08-15 15:55:59    阅读次数:337
ETL调度开发(4)——FTP加载文件子程序
ETL工具中最基础的功能是加载远程服务器的文件,如下小程序以二进制方式获取远程服务器上的文件: #!/usr/bin/bash #created by lubinsu #2014 source ~/.bash_profile filename=$6 srcdir=$4 descdir=$5 ftpip=$1 ftpusr=$2 ftppwd=$3 #get files ftp -i -in <<...
分类:其他好文   时间:2014-08-14 23:55:16    阅读次数:198
ETL调度开发(5)——连接数据库执行数据库命令子程序
ETL调度中读写数据信息,都需要连接数据库,下面的子程序通过传入的数据库连接字符串和数据库命令(或SQL)执行所需要的操作: #!/usr/bin/bash #created by lubinsu #2014 source ~/.bash_profile values=`sqlplus -S $1 << EOF set heading off feedback off pagesize 0...
分类:数据库   时间:2014-08-14 23:54:46    阅读次数:242
BIAPPS开发
biapps是基于obiee的 BIAPPS开发概要 1.         搭建数据仓库 2.         数据抽取(ETL) 3.         搭建数据模型 4.         搭建报表系统 1、数据仓库     数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate...
分类:移动开发   时间:2014-08-13 19:05:07    阅读次数:346
ETL调度开发(1)——编写说明
前言: 在数据库运行维护过程中经常会需要在系统之间进行文件传输,对数据进行抽取、转换、整合等操作。并且在数据整合之后进行统计调度,这里将会对本人开发的一个ETL调度进行详细的说明。 需求概述: 调度分为如下方式: ü  一个是SHELL编写的ETL调度,支持小时、日、周、月文件的调度。 ü  一个是流程调度,主要是根据配置表调用指定过程,并发执行。 进程描述: 文...
分类:其他好文   时间:2014-08-13 01:21:55    阅读次数:315
ETL调度开发(2)——配置表说明
根据需求我们需要创建部分所需的配置表,各表说明如下: 1、文件FTP主机配置表:SHELL_HOST_CFG COLUMN_NAME DATA_TYPE COMMENTS LATN_ID NUMBER   HOST_ID NUMBER 主机ID HOST_NAM...
分类:其他好文   时间:2014-08-13 01:20:15    阅读次数:284
Hive运行架构及配置部署
Hive 运行架构 由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具;    构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库;    设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据:            使用HQL作为查询接口;            使用HDFS作为存储底层;...
分类:其他好文   时间:2014-08-12 19:05:44    阅读次数:314
Vertica: 基于DBMS架构的列存储数据仓库
Vertica与传统数据库系统和其他列式数据仓库系统相比的话,在性能上有比较明显的优势,在设计上有一些异同,比较适合ad-hoc查询,OLAP类型的作业。总的来说,Vertica通过列存储减少了io开销,再加上高效的压缩手段,极大节省了磁盘空间,基于此Vertica采用多备份来保证高可用性,并且多备份又能够增强查询性能。在使用和运维角度了,Vertica自带工具帮助用户做物理表的存储,能提供标准SQL接口,也兼容现有的BI、ETL工具方便作业往Vertica上迁移,而且Vertica部署对硬件没有特殊要求,...
分类:数据库   时间:2014-08-11 02:58:21    阅读次数:483
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!