基本思路,通过newlisp定时下载jobtracker页面,用正则表达式解析html中的table元素,然后获得最新的mapreduce的状态。每次获得装提数据后,存入mysql数据库,然后用tableau将mapreduce集群状态用报表呈现。这是jobtracker站点的数据这是Tableau绘制的报表这样就可以用数据可视化的方式展示Hadoop集群计算的压力状态。下面是newlisp代码,...
分类:
其他好文 时间:
2014-11-01 21:55:03
阅读次数:
381
由于单台机器的计算能力和I/O能力已经无法满足不断增长的数据处理需求,越来越多的组织需要将应用扩展到更大规模的集群上。但在集群环境中,可编程性方面将遇到以下几个挑战:
并行编程问题;为了将应用并行化,需要并行编程模型的支撑。
容错和慢节点问题;当集群规模相当大时,这个问题也是非常严重的。
多用户共享集群要求能具备弹性计算的能力,此外还要考虑干扰问题。
结果就是出现了很多编程模型,首先是MapReduce使数据批处理变得简单通用同时能处理容错。但很难处理其它类型的负载,于是就出现了各种各样专用的编程模型:
...
分类:
其他好文 时间:
2014-08-06 19:28:12
阅读次数:
285
创建zybo cluster的spark集群(计算层面): 1.每个节点都是同样的filesystem,mac地址冲突,故: vi ./etc/profile export PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/b...
分类:
其他好文 时间:
2014-07-05 17:29:31
阅读次数:
549
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询...
分类:
其他好文 时间:
2014-07-03 10:19:26
阅读次数:
208
??
计算机集群(cluster)指一些松散的计算机系统,通过告诉网络连接,协同工作。集群对用户来说就像单台计算机系统,只不过是有更高的性能和更高的可靠性。集群中的每台计算机叫做节点。
常见集群类型
高性能计算(HPC, high performance computing)
主要用于科学计算,多用于科研领域,一般的商业领域较少用到该类集群。最开始出现的集群就是为了高性能计算设计的...
分类:
其他好文 时间:
2014-06-09 23:20:09
阅读次数:
300