标签:
一、把数据从HDFS抽取到RDBMShadoop fs -put weblogs_aggregate.txt /user/grid/aggregate_mr/3. 打开PDI,新建一个转换,如图1所示。
图1
4. 编辑‘Hadoop File Input‘步骤,如图2到图4所示。
图2
图3
图4
说明:
图5
说明:
图6
. “数据库字段”标签不需要设置use test; create table aggregate_hdfs ( client_ip varchar(15), year smallint, month_num tinyint, pageviews bigint );
图7
从图7可以看到,转换已经成功执行。
图8
从图8可以看到,数据已经从HDFS抽取到了mysql表中。create table weblogs ( client_ip string, full_request_date string, day string, month string, month_num int, year string, hour string, minute string, second string, timezone string, http_verb string, uri string, http_status_code string, bytes_returned string, referrer string, user_agent string) row format delimited fields terminated by '\t';2. 从下面的地址下载示例文件。
hadoop fs -put weblogs_parse.txt /user/hive/warehouse/test.db/weblogs/至此,hive表里的数据如图9所示。
图9
4. 打开PDI,新建一个转换,如图10所示。
图10
5. 编辑‘Table input‘步骤,如图11所示。
图11
说明:hive_101是已经建好的一个hive数据库连接,设置如图12所示。
图12
说明:PDI连接 Hadoop hive 2,参考http://blog.csdn.net/wzy0623/article/details/50903133。
图13
说明:use test; create table aggregate_hive ( client_ip varchar(15), year varchar(4), month varchar(10), month_num tinyint, pageviews bigint );8. 保存并执行转换,日志如图14所示。
图14
从图14可以看到,转换已经成功执行。
图15
从图15可以看到,数据已经从hive数据库抽取到了mysql表中。Pentaho Work with Big Data(七)—— 从Hadoop集群抽取数据
标签:
原文地址:http://blog.csdn.net/wzy0623/article/details/51160948