1:项目技术架构图: 2:流程图解析,整体流程如下: ETL即hive查询的sql; 但是,由于本案例的前提是处理海量数据,因而,流程中各环节所使用的技术则跟传统BI完全不同: 1) 数据采集:定制开发采集程序,或使用开源框架FLUME 2) 数据预处理:定制开发mapreduce程序运行于hado ...
分类:
Web程序 时间:
2017-12-09 23:50:23
阅读次数:
262
1、介绍 Terracotta服务器为Terracotta产品提供分布式数据平台。Terracotta服务器集群被称为Terracotta服务器阵列(TSA)。Terracotta服务器阵列可以从单个服务器,到一个用于高可用性(HA)的基本的双服务器串联,再到一个提供可配置的规模、高性能和深度故障转 ...
分类:
系统相关 时间:
2017-11-29 12:49:56
阅读次数:
244
大数据平台,LDAP和kerberos的统一账户管理和认证是必不可少的。通过Openldap来搭建LDAP服务器。1.安装openldap软件包yuminstallopenldapopenldap-*-y2.初始化配置文件,不要手动去创建slapd.conf,可能会由于格式问题导致问题cp/usr/share/openldap-servers/slapd.conf.obsole..
分类:
其他好文 时间:
2017-11-21 22:14:24
阅读次数:
174
这个几天再搭建一个ods数据平台测试环境,平台上可以集成其他应用系统。 一共是8个系统。平台登录使用的单点登录加平台应用。在部署过程中每次启动平台war时都是报一个could not get database metadata无法获取元数据, 错误原图: 平台WEBINF cfg.db.deploy ...
分类:
数据库 时间:
2017-11-17 14:59:46
阅读次数:
506
每一个企业建设大数据平台时都希望建设的大而全,但是实践证明可持续的大数据平台都通过精益化数据分析理论逐步建立而成的。精益化数据分析的理论就是通过建立最小的商业闭环,逐步验证和扩大数据分析平台最终实现与BAT一样的数据分析能力。其中,核心技术、业务分析目标在不断..
分类:
其他好文 时间:
2017-11-17 12:00:14
阅读次数:
147
转自:http://www.cnblogs.com/gaoxu007/p/7204827.html 最近项目中使用到大数据平台,代码中应用了hbase-client.0.98.6-hadoop2.jar包,该包中引用了jdk.tools.1.7,所以导致eclipse中pom.xml老是提示Miss ...
分类:
编程语言 时间:
2017-10-28 14:34:30
阅读次数:
483
本篇文章内容来自2016年TOP100summit斗鱼数据平台部总监吴瑞城的案例分享。 编辑:Cynthia 吴瑞诚:斗鱼数据平台部总监 曾先后就职于淘宝、一号店。 从0到1搭建公司大数据平台、平台规划和团队建设。 目前负责斗鱼实时/离线数据处理、个性推荐系统、BI&DW和搜索引擎。 背靠开源生态, ...
分类:
其他好文 时间:
2017-10-20 20:19:35
阅读次数:
257
众所周知,Akka系统是基于Actor模式的分布式运算系统,非常适合构建大数据平台。所以,无可避免地会出现独立系统之间、与异类系统、与移动系统集成的需求。由于涉及到异类和移动系统,系统对接的方式必须在一套公开的标准之上进行,包括数据格式及数据传输标准。实际上针对标准的传输连接及标准数据编码、传输、解 ...
分类:
Web程序 时间:
2017-10-20 18:26:55
阅读次数:
230
刘建平Pinard 十年码农,对数学统计学,数据挖掘,机器学习,大数据平台,大数据平台应用开发,大数据可视化感兴趣。 刘建平Pinard 十年码农,对数学统计学,数据挖掘,机器学习,大数据平台,大数据平台应用开发,大数据可视化感兴趣。 博客园 首页 新随笔 联系 订阅 管理 博客园 首页 新随笔 联 ...
HDFS只是Hadoop最基本的一个服务,很多其他服务,都是基于HDFS展开的。所以部署一个HDFS集群,是很核心的一个动作,也是大数据平台的开始。安装Hadoop集群,首先需要有Zookeeper才可以完成安装。如果没有Zookeeper,请先部署一套Zookeeper。另外,JDK以及物理主机的一些设置等..
分类:
其他好文 时间:
2017-10-11 22:39:19
阅读次数:
224