IT-培训基于Greenplum Hadoop分布式平台的大数据解决方案及商业应用案例剖析Hadoop2.0_YARN_Spark_Storm_Tez技术培训视频教程基于IBM Cognos Report studio技术的商业智能解决方案(广播分发报表、EVENT STUDIO)基于IBM Cog...
分类:
其他好文 时间:
2015-06-24 08:10:41
阅读次数:
172
目的 这篇文档的目的是帮助你快速完成单机上的Hadoop安装与使用以便你对Hadoop分布式文件系统(HDFS)和Map-Reduce框架有所体会,比如在HDFS上运行示例程序或简单作业等。 先决条件 支持平台 GNU/Linux是产品开发和运行的平台。 Hadoop已在有2000个节点的GNU/L...
分类:
其他好文 时间:
2015-06-19 21:33:11
阅读次数:
133
Hadoop集群的部署网上很多关于hadoop集群部署的文章,我这里重新整理下,毕竟,别人的经历,让你按照着完整走下来,总有或多或少的问题。小技巧分享:有些初学者喜欢在自己机器上安装虚拟机来部署hadoop,毕竟,很多同学的学习环境都是比较受限的。我这里则直接选择了阿里云的机..
分类:
编程语言 时间:
2015-06-11 23:10:51
阅读次数:
548
一. 概要 经过几天的调试,终于在Linux Cent OS 5.5下成功搭建Hadoop测试环境。本次测试在一台服务器上进行伪分布式搭建。Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布....
分类:
其他好文 时间:
2015-06-11 06:57:39
阅读次数:
144
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需要的内容,...
分类:
数据库 时间:
2015-06-02 13:00:09
阅读次数:
254
Apache Hadoop项目的目前版本(2.0版)含有以下模块:Hadoop通用模块:支持其他Hadoop模块的通用工具集。Hadoop分布式文件系统(HDFS):支持对应用数据高吞吐量访问的分布式文件系统。Hadoop YARN:用于作业调度和集群资源管理的框架。Hadoop MapReduce...
分类:
其他好文 时间:
2015-05-26 15:59:35
阅读次数:
140
Hive 是一个基于Hadoop分布式文件系统(HDFS)之上的数据仓库架构,同时依赖于MapReduce。适用于大数据集的批处理,而不适用于低延迟快速查询。Hive将用户的HiveQL语句转换为MapReduce作业提交到Hadoop集群上,监控执行过程,最后返回结果给用户。由于Hive的元数据(...
分类:
其他好文 时间:
2015-05-21 22:25:38
阅读次数:
181
NTP --- Network Time Protocol网络授时服务,他解决的主要问题就是实现两台或者多台机器的时间同步问题,而传统的格林尼治时间不是标准的时间,因为地球自转的不是规则的。网络授时服务的实现原理可以参照东北大学的网站上的一些东西,很有价值:NTP 工作原理在hadoop分布式处理中...
分类:
其他好文 时间:
2015-05-17 21:31:24
阅读次数:
147
由于逐渐面临高频数据的问题,所以计划正式启用hadoop分布式计算,去年10月份研究过一段时间hadoop的部署情况,确定使用CDH版本的hadoop(最新5.4.0),主要是考虑维度是减少运维难度以及快速部署上线(当然如果想更好的学习hadoop,还是建议从hadoop原生态版本部署入手)。好脑子...
分类:
其他好文 时间:
2015-05-14 17:57:49
阅读次数:
287
1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和MapReduce,hadoop2.0还包括YARN。下图为hadoop的生态系统:2、HDFS(Hadoop分布式文件系统)源自于Google的GFS论...
分类:
其他好文 时间:
2015-05-14 09:57:51
阅读次数:
211