码迷,mamicode.com
首页 > 其他好文 > 详细

cdh5.14.2中集成安装kylin与使用测试

时间:2018-06-11 23:41:21      阅读:994      评论:0      收藏:0      [点我收藏+]

标签:大数据   CDH5.14.2   hadoop   kylin   

cdh5.14.2中集成安装kylin与使用测试

标签(空格分隔): 大数据平台构建


  • 一:kylin 简介
  • 二:安装配置kylin
  • 三:kylin 运行实例

一:kylin 简介

Apache Kylin?是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由eBay Inc. 开发并贡献至开源社区。它能在亚秒内查询巨大的Hive表。

技术分享图片

kylin 软件下载:

社区版kylin下载地址:https://archive.apache.org/dist/kylin/ ,本次测试使用apache-kylin-2.3.1.tar.gz 

技术分享图片

二:在cdh5.14.2 上面配置安装kylin

2.1: kylin 安装的环境配置

login: node-01.flyfish

tar -zxvf apache-kylin-2.3.1-cdh57-bin.tar.gz -C /usr/local/

cd /usr/local/

mv apache-kylin-2.3.1-bin/ kylin

vim /etc/profile
----
### kylin #### 
export KYLIN_HOME=/usr/local/kylin
PATH=$PATH:$HOME/bin:$KYLIN_HOME/bin
---
source /etc/profile

技术分享图片

2.2:kylin的启动验证

cd /usr/local/kylin/
./check-env.sh

技术分享图片

su - hdfs 

hdfs dfs -chmod -R 777 /

技术分享图片

从新检测处理
cd /usr/local/kylin/
./check-env.sh

技术分享图片

启动kylin
./kylin.sh start 

技术分享图片

技术分享图片

技术分享图片

默认用户名:ADMIN 
密码:KYLIN

技术分享图片

三:kylin 运行实例使用测试

cd /usr/local/kylin/bin

./sample.sh

技术分享图片

技术分享图片

技术分享图片

技术分享图片

从启kylin

cd /usr/local/kylin/bin
./kylin.sh stop 
./kylin.sh start 

技术分享图片

重新刷新kylin的元数据

技术分享图片

技术分享图片

技术分享图片

技术分享图片

impala的加载表:
impala-shell -i "INVALIDATE METADATA" 
单独刷新一张表:
refrash  + 表名

hive 的default库 当中多了几张kylin的表

技术分享图片

构建cube 

技术分享图片

技术分享图片

这个地方如果机器配置不够的话,尽量日期间隔选小一点。

技术分享图片

技术分享图片

这一步会比较耗时,因为这步会进行预计算,默认是MapReduce作业。

技术分享图片

技术分享图片

kylin的数据查询

技术分享图片

技术分享图片

技术分享图片

查询构建完成的cube
先运行简单的count,可以看到耗时4.12s,再次执行基本在0.5s级,基本是毫秒级别
就可以查询出来,这是因为kylin 支持缓存的功能

技术分享图片

复杂的查询:

select sum(KYLIN_SALES.PRICE) 
as price_sum,KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME 
from KYLIN_SALES inner join KYLIN_CATEGORY_GROUPINGS
on KYLIN_SALES.LEAF_CATEG_ID = KYLIN_CATEGORY_GROUPINGS.LEAF_CATEG_ID and 
KYLIN_SALES.LSTG_SITE_ID = KYLIN_CATEGORY_GROUPINGS.SITE_ID
group by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME
order by KYLIN_CATEGORY_GROUPINGS.META_CATEG_NAME asc,KYLIN_CATEGORY_GROUPINGS.CATEG_LVL2_NAME desc

技术分享图片

技术分享图片

四:kylin 运行实例二

4.1 数据文件准备

create_table.sql  department.csv  employee.csv

技术分享图片

4.2 在hdfs 上面创建文件上传

在hdfs 上面创建上传目录

hdfs dfs -mkdir /kylin-test

hdfs dfs -put department.csv  employee.csv /kylin-test

技术分享图片

4.3 在hive 上面执行sql 脚本加载数据与验证

执行create_table.sql 

create_table 内容如下
---
DROP TABLE IF EXISTS employee;

CREATE TABLE employee(
id int,
name string,
deptId int,
age int,
salary float
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,‘
STORED AS TEXTFILE;

DROP TABLE IF EXISTS department;

CREATE TABLE department(
id int,
name string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,‘
STORED AS TEXTFILE;

LOAD DATA INPATH ‘/kylin-test/employee.csv‘ OVERWRITE INTO TABLE employee;
LOAD DATA INPATH ‘/kylin-test/department.csv‘ OVERWRITE INTO TABLE department;
---

在hive 中执行create_table.sql 

hive -f create_table.sql 

技术分享图片

hive -e "use default;select * from employee"

技术分享图片

hive -e "use default;select * from department" 

技术分享图片

4.4 在kylin 上面创建project

技术分享图片

技术分享图片

技术分享图片

加载hive数据到kylin当中

技术分享图片

技术分享图片

技术分享图片

技术分享图片

创建model,入project的名称和描述:

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

选择事实表,并点击add Lookup Table查询表

技术分享图片

选择维度字段

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

创建cube

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

cube创建完成

技术分享图片

构建cube

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

技术分享图片

查询测试:
 select count(*) from department;

 select max(salary) from EMPLOYEE;

技术分享图片

技术分享图片

技术分享图片

统计各部门员工薪资总和:

select d.ID,sum(e.SALARY) as salary from EMPLOYEE as e left join DEPARTMENT as d on e.DEPTID=d.id group by d.ID order by salary desc

技术分享图片

技术分享图片

cdh5.14.2中集成安装kylin与使用测试

标签:大数据   CDH5.14.2   hadoop   kylin   

原文地址:http://blog.51cto.com/flyfish225/2128254

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!