在飞速发展的云计算大数据时代,Spark是继Hadoop之后,成为替代Hadoop的下一代云计算大数据核心技术,目前Spark已经构建了自己的整个大数据处理生态系统,如流处理、图技术、机器学习、NoSQL查询等方面都有自己的技术,并且是Apache顶级Project,可以预计的是2014年下半年.....
分类:
其他好文 时间:
2014-07-03 10:43:37
阅读次数:
181
Spark是发源于美国加州大学伯克利分校AMPLab的集群计算平台,它立足于内存计算,性能超过Hadoop百倍,从多迭代批量处理出发,兼收并蓄数据仓库、流处理和图计算等多种计算范式,是罕见的全能选手。Spark采用一个统一的技术堆栈解决了云计算大数据的如流处理、图技术、机器学习、NoSQL查询...
分类:
其他好文 时间:
2014-07-03 10:19:26
阅读次数:
208
测试环境 Hadoop 0.20.2版本、Hive-0.5.0版本、JDK1.61、一般来说我们对hive的操作都是通过cli来进行,也就是Linux的控制台,但是,这样做本质上是每个连接都存放一个元数据,各个之间都不相同,所以,对于这样的模式我建议是用来做一些测试比较合适,并不适合做产品的开发和应...
分类:
编程语言 时间:
2014-07-03 00:39:24
阅读次数:
316
主要参考:http://blog.fens.me/hadoop-history-source-install/其次参考:http://blog.csdn.net/adermxl/article/details/24327057环境:Windows 7 Home Premium SP1 + Virtu...
分类:
其他好文 时间:
2014-07-02 21:09:14
阅读次数:
144
1.1. hadoop抽象文件系统 因java.io.FileSystem为私有抽象包,不可被外界包引用,因此hadoop特别提供了一个抽象的文件系统, HDFS只是一个具体实现,org.apache.hadoop.fs.FileSystem hadoop通过getFi...
分类:
其他好文 时间:
2014-07-02 21:01:32
阅读次数:
284
说起变量,ansible中的变量,差不多等于salt-stack里面的pillar+grains吧ansible中的变量主要来源于,楼主总结了一下,大概有这么几个地方吧Inventory(hostvars,groupvars)playbook里面命令行roles里面来自于nodes上面的facts这些类型的变量,1-4一般来说都是咱们用户自己定义..
分类:
其他好文 时间:
2014-07-02 06:10:50
阅读次数:
283
我安装所使用的系统是CentOS6,也可以是red5、6都可以。Bigtop官方网上有Ubuntu系统安装的具体过程。1.安装系统依赖1.1系统更新并安装新的包BuildingBigtoprequiresthefollowingtools:·JavaJDK1.6·ApacheAnt(可以通过yum安装)·ApacheMaven·wget·tar·git·subversion·g..
分类:
其他好文 时间:
2014-07-02 06:01:45
阅读次数:
844
roles类似于salt-stack里面的state,state有一定的组织结构。而roles则是ansible中,playbooks的目录组织结构。这么划分有啥好处呢?好处多了去了,如果把所有的东西都写到playbooks里面的话,可能会导致我们这个playbooks很臃肿,不宜读。而模块化之后,成为roles的组织结构,..
分类:
其他好文 时间:
2014-07-01 09:34:30
阅读次数:
324
在Spark是一种计算框架,在Spark环境下,不仅支持操作单机文件,HDFS文件,同时也可以用Spark对Hbase操作。
企业中数据源会从HBase取出,这就涉及到了读取hbase数据,本文为了尽可能的让大家能尽快实践和操作Hbase,使用的是Spark Shell 来进行Hbase操作。
一、环境:
Haoop2.2.0
Hbase版本0.96.2-hadoop2, r158109...
分类:
其他好文 时间:
2014-07-01 09:29:54
阅读次数:
499