首页 > 其他好文 > 详细

使用kettle把XML文档转换成数据表结构

时间：2014-09-02 15:55:33 阅读：273 评论：0 收藏：0 [点我收藏+]

标签：kettle etl kettle 权威

使用kettle把XML文档转换成数据表结构

在kettle中Get data from xml 步骤和 XML Input Stream (StAX)步骤读取并解析xml文件。Get data from xml 步骤使用dom方式解析，比较消耗内存，当文件很大时，就不可取。XML Input Stream (StAX)步骤使用完全不同的方式解析大而复杂的文件，且能快速载入数据，所以建议使用该步骤。

下面通过示例来展示如何使用该步骤，源xml文件内容如下：

<?xml version="1.0"?>

<timeseries>

<measurementyear="2000">

<itemname="A">8.5</item>

<itemname="B">9.8</item>

</measurement>

<measurementyear="2001">

<itemname="A">12.2</item>

<itemname="B">9.4</item>

</measurement>

<measurementyear="2002">

<itemname="A">11.1</item>

<itemname="B">7.2</item>

</measurement>

</timeseries>

解析成数据表的格式数据如下：

bubuko.com,布布扣

使用下面步骤去实现该功能

xmlinput stream（stax）：流方式载入xml文档
过滤行：去除掉不相关的文档元素
switch/case步骤：分离第一级（measurement）和第二级（item）
Rowdenormaliser：把第二级的多行转成一行（行专列）
MergeJoin：合并子元素到第一级行(增加列）

示例可以从这里下载

bubuko.com,布布扣

Rowdenormaliser步骤

最容易理解执行情况的方式，通过预览没步骤的执行结果（5.x版本可以直接查看数据流），下图显示该步骤的执行原理。

MergeJoin 步骤

把两个来自不同数据源的流进行合并，其实和SQL中join原理是一样的，只不过在kettle中是针对流数据，不是表数据。非常重要的是：流数据要根据键（join中使用的）排序，本列中第一步载入xml文件时，已经排序，所以不再选哟“sort rows”步骤。

bubuko.com,布布扣

使用kettle把XML文档转换成数据表结构

标签：kettle etl kettle 权威

原文地址：http://blog.csdn.net/neweastsun/article/details/39006487

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！