在飞速发展的云计算大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年.....
分类:
其他好文 时间:
2014-07-03 10:43:37
阅读次数:
181
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询...
分类:
其他好文 时间:
2014-07-03 10:19:26
阅读次数:
208
测试环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.61、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适,并不适合做产品的开发和应...
分类:
编程语言 时间:
2014-07-03 00:39:24
阅读次数:
316
主要参考:http://blog.fens.me/hadoop-history-source-install/其次参考:http://blog.csdn.net/adermxl/article/details/24327057环境:Windows 7 Home Premium SP1 + Virtu...
分类:
其他好文 时间:
2014-07-02 21:09:14
阅读次数:
144
我安装所使用的系统是CentOS6,也可以是red5、6都可以。Bigtop官方网上有Ubuntu系统安装的具体过程。1.安装系统依赖1.1系统更新并安装新的包BuildingBigtoprequiresthefollowingtools:·JavaJDK1.6·ApacheAnt(可以通过yum安装)·ApacheMaven·wget·tar·git·subversion·g..
分类:
其他好文 时间:
2014-07-02 06:01:45
阅读次数:
844
1. hadoop远程过程调用RPC:XML-RPC,JSON-RPC,CORBA,RMI(Remote Method Invocation),Haoop IPC(进程间通信)RPC原理:允许本地程序(客户端)调用其他机器(服务器)上的过程,客户端使用参数将信息传送给调用方,通过返回值得到消息。RP...
分类:
其他好文 时间:
2014-07-01 12:01:22
阅读次数:
316
1.1. hadoop远程过程调用1、 远程接口调用(必须实现VersionedProtocol接口)里面有一个方法,IPC通信时会比较客户端和服务端接口的版本号。必须一致才可以package rpc;import org.apache.hadoop.ipc.VersionedProtocol;pu...
分类:
其他好文 时间:
2014-07-01 11:58:14
阅读次数:
186
1.1. java动态代理java.lang.reflect包下的Proxy(创建代理对象)和InvocationHandler(调用转发)两个类代理对象代表目标对象(target)执行相应的活动静态代理:代理对象实现目标对象一致的接口,实现代理接口和调用转发 (不推荐使用)在调用前后的附加逻辑,体...
分类:
其他好文 时间:
2014-07-01 11:41:22
阅读次数:
189
在Spark是一种计算框架,在Spark环境下,不仅支持操作单机文件,HDFS文件,同时也可以用Spark对Hbase操作。
企业中数据源会从HBase取出,这就涉及到了读取hbase数据,本文为了尽可能的让大家能尽快实践和操作Hbase,使用的是Spark Shell 来进行Hbase操作。
一、环境:
Haoop2.2.0
Hbase版本0.96.2-hadoop2, r158109...
分类:
其他好文 时间:
2014-07-01 09:29:54
阅读次数:
499