ETL 概念 ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据;(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工。(3)数据加载...
分类:
其他好文 时间:
2014-09-23 20:46:15
阅读次数:
432
1.ETL: 数据层之间,主要在数据库层面上进行数据抽取过程------数据库层2.ESB 异构系统之间通过总线技术,实现系统交互---------------系统通信层3.BPM 自动化流程处理,监控机制-------------------------------业务编排,系统组合服务
分类:
其他好文 时间:
2014-09-21 05:51:49
阅读次数:
391
最近开始折腾数据,起源是多业务数据源需要转换到数据分析平台。这个过程需要跨机器,跨库。同时还需要将业务数据表的内容进行转换,合并,清洗等等操作。经过多方选型,最终决定使用kettle来作为数据抽取处理的工具。但是,在这里,是想吐槽下kettle这东西的问题。1.kettle的版本使用的是5.1,搭建...
分类:
其他好文 时间:
2014-08-28 17:47:45
阅读次数:
308
biapps是基于obiee的
BIAPPS开发概要
1. 搭建数据仓库
2. 数据抽取(ETL)
3. 搭建数据模型
4. 搭建报表系统
1、数据仓库
数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrate...
分类:
移动开发 时间:
2014-08-13 19:05:07
阅读次数:
346
方法一:使用awk处理,先读入文件中的一列数据,然后在第二文件中做判断awk -F'\t' 'FILENAME=="commUsers_Hotel"{F[$0]=1}FILENAME=="Hotel3"{if($0 in F){print}}' commUsers_Hotel Hotel3 > .....
分类:
其他好文 时间:
2014-07-29 21:35:33
阅读次数:
204
DMCTextFilterV4.2是由北京红樱枫软件有限公司研制和开发的纯文本抽出通用程序库产品。本产品可以从各种各样的文档格式的数据中或从插入的OLE对象中,完全除掉特殊控制信息,快速抽出纯文本数据信息。便于用户实现对多种文档数据资源信息进行统一管理,编辑,检索和浏览。本产..
分类:
其他好文 时间:
2014-07-24 23:48:54
阅读次数:
360
每个项目的都有各自的场景,但是其实往小处说,场景的处理基本都是很相似,之前做copy文件的程序,其实就是一种很常见的ETL的过程(转移文件,异构系统通过文件系统交换数据,存在数据同步)。了解一下ETL:就是数据转移的一个处理过程(A库与B库之间进行数据抽取)---最重要就是格式的转换。了解一下ESB...
分类:
其他好文 时间:
2014-07-24 09:45:22
阅读次数:
256
DMC文本抽出支持office、pdf、邮件、压缩文件等几乎所有软件的各个版本的文本提取以及邮件中的附件、压缩文件中的压缩文件、嵌入文件中的文件的文本提取。...
分类:
其他好文 时间:
2014-07-23 17:08:51
阅读次数:
359
GoldenGate作为Oracle公司大力发展的核心战略产品,在高可用、容灾、数据抽取转换方面扮演着越来越重要的作用。goldengate可以做什么,说起来真的太多了,高可用、容灾、Real-Time数据同步,如果你做过BI,一定知道ETL的工具(datastage、infomatica等),goldengate也可以做,而..
分类:
数据库 时间:
2014-07-21 12:11:24
阅读次数:
473
使用DOM方法来遍历一个文档你有一个HTML文档要从中提取数据,并了解这个HTML文档的结构。将HTML解析成一个Document之后,就可以使用类似于DOM的方法进行操作。示例代码: @Test public void getData() throws IOException{ ...
分类:
Web程序 时间:
2014-07-16 17:57:27
阅读次数:
284