简介
本文档对从 Apache Hadoop 1.x 迁移他们的Apache Hadoop MapReduce 应用到
Apache Hadoop 2.x 的用户提供了一些信息。
在 Apache Hadoop 2.x 中,我们已经把资源管理功能放入 分布式应用管理框架 的Apache
Hadoop YARN,而 Apache Hadoop MapReduce (亦称 MRv2) 保持...
分类:
其他好文 时间:
2014-05-14 00:55:11
阅读次数:
294
度量类别可分离性的量主要有:
欧氏距离(正态分布,协方差相等,且为单位阵)
是最简单的一种描述方法。它把两个类别中心之间的欧式距离作为两个不同类别间不相似性的度量。
马氏(Mahalanobis)距离(正态分布,协方差相等)
它用来描述两个具有相同的协方差矩阵C,不同的期望值和的类别之间的不相似性,具体表达式是:
Mahalanobis距离...
分类:
其他好文 时间:
2014-05-13 09:08:38
阅读次数:
337
环境说明
1、硬件说明
使用三台PC机,角色分配如下
2、软件说明
约定所有软件都放在/usr/local/路径下
准备工作
1、安装jdk
2、配置SSH
Storm集群安装
安装流程图
1、安装Zookeeper集群
2、安装Storm依赖
zeromq、jzmq、pytho...
分类:
其他好文 时间:
2014-05-13 05:44:31
阅读次数:
345
一、简介1、介绍MogileFS是一个开源的分布式文件系统,用于组建分布式文件集群,由LiveJournal旗下DangaInteractive公司开发,Danga团队开发了包括Memcached、MogileFS、Perlbal等不错的开源项目:(注:Perlbal是一个强大的Perl写的反向代理服务器)2、MogileFS的特性(1)工作..
分类:
其他好文 时间:
2014-05-13 03:31:00
阅读次数:
538
一、分布式文件系统1.简介分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统的设计基于客户机/服务器模式。一个典型的网络可能包括多个供多用户访问的服务器。另外,对等特性..
分类:
其他好文 时间:
2014-05-13 01:52:38
阅读次数:
501
一、概述本文将粗略讲述一下Hash算法的概念特性,里边会结合分布式系统负载均衡实例对Hash的一致性做深入探讨。另外,探讨一下Hash算法在海量数据处理方案中的通用性。最后,从源代码出发,具体分析一下Hash算法在MapReduce框架的中的应用。二、Hash算法Hash可以通过散列函数将..
分类:
其他好文 时间:
2014-05-13 01:34:11
阅读次数:
421
一、简介1、分布式文件系统分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连,也就是集群文件系统,可以支持大数量的节点以及PB级的数量存储。相对地,在一个分享的磁盘文件系统中,所有节点..
分类:
其他好文 时间:
2014-05-13 01:09:26
阅读次数:
478
memcached是一套分布式的快取系统,当初是DangaInteractive为了LiveJournal所发展的,但被许多软件(如MediaWiki)所使用。这是一套开放源代码软件,以BSDlicense授权协议发布。[1]memcached仅支持一些非常简单的命令比如get(获取某个键值)set(用来设定或保存一个缓存);其..
分类:
Web程序 时间:
2014-05-13 00:53:57
阅读次数:
527