最近升级cdh版本,从4.5 升级到 5.0.0 beta-2
但是升级后,发现/etc/alternatives 路径下的软链接还是只想旧的4.5 版本,而且hadoop环境也是沿用4.5
的版本conf,导致hive不能正常使用,报错为hdfs 的版本不对。 后面使用strace工具查看,发现它...
分类:
其他好文 时间:
2014-06-07 02:44:21
阅读次数:
248
在项目中,我们经常遇到或用到分页,那么在大数据量(百万级以上)下,哪种分页算法效率最优呢?我们不妨用事实说话。测试环境硬件:CPU 酷睿双核T5750
内存:2G软件:Windows server 2003 + Sql server 2005OK,我们首先创建一数据库:data_Test,并在此数据...
分类:
其他好文 时间:
2014-06-07 02:43:09
阅读次数:
330
这么个标题多少有点蛋疼的感觉,两个都是互联网时代的语言,学习成本和执行效率也差不多,之所以会产生这种需求,多半是想在python中引用java的类,例如安卓和hadoop的生态圈,基本是java代码的天下,虽然python大数据有不错的接口,但直接调用java的需求总是有的。这个目前已经有解决方案,...
分类:
编程语言 时间:
2014-06-04 20:52:14
阅读次数:
261
Hadoop2.0是对Hadoop1.0全面升级,诞生了通用的计算框架YARN,很多计算框架或者应用程序不再基于传统的操作系统开发,而是基于YARN这个云操作系统。典型的代表是DAG计算框架Tez,当然还有一些其他知名的自运行的计算集群系统也在YARN上有开源版本,比如Storm-on-yarn,S...
分类:
其他好文 时间:
2014-06-03 13:09:44
阅读次数:
336
版权全部: zhe-jiang.he@hp.com
严禁转载!1.安装插件准备程序:eclipse-3.3.2(这个版本号的插件仅仅能用这个版本号的eclipse)hadoop-0.20.2-eclipse-plugin.jar
(在hadoop-0.20.2/contrib/eclipse-plu...
分类:
系统相关 时间:
2014-06-03 12:15:46
阅读次数:
414
本篇是本人在做一个大数据项目时,对于系统架构的一点总结,如何在保证存储量的情况下,又能保证数据的检索速度。
分类:
其他好文 时间:
2014-05-30 20:34:01
阅读次数:
405
写在前面前文:用python + hadoop streaming 编写分布式程序(一) --
原理介绍,样例程序与本地调试为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题。为了更好地模拟集群环境,我们可以在mapred-...
分类:
编程语言 时间:
2014-05-30 14:56:56
阅读次数:
309
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
分类:
其他好文 时间:
2014-05-30 14:23:07
阅读次数:
409
a.
在hadoop解压目录下,找到src\contrib\eclipse-plugin\build.xml,增加如下几行: b. 在build.xml增加如下:c.
在build.xml,修改如下:d. 找到src\contrib\build-contrib....
分类:
系统相关 时间:
2014-05-29 20:48:43
阅读次数:
439
在过去的几年中,雪崩的数据,包括结构化和非结构化数据,推动组织到了一个突破点,大数据时代俨然已经到了。在大数据时代,CIO和IT主管知道,他们能否取得成功,严重依赖于如何挖掘到大数据,并把它充分利用。然而,目前许多高管并不知道如何最好地利用大数据以提高企业决策能力。据凯捷最近发布的关于“决定因素:大...
分类:
其他好文 时间:
2014-05-29 19:01:33
阅读次数:
216