任务 根据数据仓库中某一个构建模板" Java信用卡前台组件A"列表的数据对构建时长进行数据统计 解决步骤 数据清洗->数据抽样->正态拟合 数据清洗 进行数据拟合去掉最大值,和最小值。 随机抽样 随机抽取300条数据。 图 1. 抽样对话框 正态拟合 300条数据的正态拟合如下: 图 2. 正态拟...
分类:
其他好文 时间:
2015-09-04 07:07:50
阅读次数:
167
数据仓库是面向主题的、集成的、不可更新的、随时间的变化而不断变化的,这些特点决定了数据仓库的系统设计不能采用同开发传统的OLTP数据库一样的设计方法。数据仓库系统的原始需求不明确,且不断变化与增加,开发者最初不能确切了解到用户的明确而详细的需求,用户所能提供的无非是需求的大的方向以及部分需求,更不....
分类:
其他好文 时间:
2015-09-02 18:36:18
阅读次数:
179
1、首先安装SVN这个软件 apt-get?install?subversion 2、在home目录下创建一个名为svn的文件夹(文件夹的名字随便起) mkdir?/home/svn 3、创建数据仓库(可以根据需要创建多个) svnadmin?create?/home/svn...
分类:
系统相关 时间:
2015-09-01 22:55:32
阅读次数:
271
转自: http://tech.meituan.com/hive-sql-to-mapreduce.html (美团技术团队) Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存...
分类:
数据库 时间:
2015-08-31 23:30:31
阅读次数:
391
目前Teradata数据仓库的ETL作业采用ELT方式, 因为loading太重了, 需要将ETL压力转移到专门的ETL Server上. 对于ETL工具, 市场上已有很成熟的商业/开源工具, 比如Informatica的PowerCenter, IBM的Datastage, 开源的Kettle. ...
分类:
数据库 时间:
2015-08-31 19:06:53
阅读次数:
272
所谓数据可视化是对大型数据库或数据仓库中的数据的组态可视化,它是可视化技术在非空间数据领域的应用,使人们不再局限于通过关系数据表来观察和分析数据信息,还能以更直观的方式看到数据及其结构关系。数据可视化技术的基本思想是将数据库中每一个数据项作为单个图元元素表示,大量的数据集构成数据图像,同时将数据.....
分类:
其他好文 时间:
2015-08-30 19:17:43
阅读次数:
151
Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语句作为数据访问接口。...
分类:
其他好文 时间:
2015-08-20 10:41:59
阅读次数:
154
【注】该系列文章以及使用到安装包/测试数据 可以在《倾情大奉送--Spark入门实战系列》获取1、Hive介绍1.1Hive介绍Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL语...
分类:
其他好文 时间:
2015-08-20 09:10:11
阅读次数:
134
1.Hive概述1.1在hadoop生态圈中属于数据仓库的角色。它能够管理hadoop中的数据,同时可以查询hadoop中的数据。 本质上讲,hive是一个SQL解析引擎。Hive可以把SQL查询转换为MapReduce中的job来运行。 hive有一套映射工具,可以把SQL转换为Map...
分类:
其他好文 时间:
2015-08-17 19:28:48
阅读次数:
197
数据库和数据仓库的区别:1)数据库内数据是动态变化的; 而数据仓库是用来存储数据的(一次写入,多次读取),数据是静态的,只能通过修改数据文件来修改数据仓库中的数据;2)数据库中的数据结构比较复杂,而数据仓库中的数据结构则相对简单;3)数据库在操作数据时要求响应速度快,即实时的进行增删改查;而数据仓....
分类:
其他好文 时间:
2015-08-17 11:41:15
阅读次数:
321