Hadoop分布式平台的大数据解决方案
讲师:迪伦
对这个课程有兴趣的可以加我qq2059055336联系我
1 课程背景
GREENPLUM适用场景
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加...
分类:
其他好文 时间:
2014-07-09 11:36:26
阅读次数:
205
据某大牛说,Ansible比chef、puppet都好使。学习一下怎么样用ansible provisioning 一个vagrant管理的虚拟机,用来启动expressjs的服务器
创建一个呆呆的expressjs工程
$ express nodejs-ansible
$ cd nodejs-ansible
$ npm install
验证服务器可以work
$ npm st...
分类:
Web程序 时间:
2014-07-09 11:02:55
阅读次数:
418
1、从HDFS中读取数据
Configuration conf = getConf();
Path path = new Path(pathstr);
FileSystem fs = FileSystem.get(conf);
FSDataInputStream fsin= fs.open(path );
BufferedReader br =null;
Strin...
分类:
其他好文 时间:
2014-07-09 09:17:40
阅读次数:
290
通过HBaseAdmin维护表(创建,删除表)importorg.apache.hadoop.conf.Configuration;
importorg.apache.hadoop.hbase.HBaseConfiguration;
importorg.apache.hadoop.hbase.HColumnDescriptor;
importorg.apache.hadoop.hbase.HTableDescriptor;
importorg.apache.hadoop.hbase...
分类:
编程语言 时间:
2014-07-09 08:28:58
阅读次数:
170
今天收到线上的resourcemanager报警:报错信息如下:2014-07-0813:22:54,118INFOorg.apache.hadoop.yarn.util.AbstractLivelinessMonitor:Expired:xxxx:53356Timedoutafter600secs
2014-07-0813:22:54,118INFOorg.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl..
分类:
其他好文 时间:
2014-07-09 08:21:41
阅读次数:
436
# Hadoop-2.2.0+Hbase-0.96.2+Hive-0.13.1分布式环境整合,超详细哦
# 学习前言
一些基本的东西就不说了,前面已经说过,比如ssh免密码登录,时间同步等,如果不清楚的话请上面看Hadoop-1.x,或者Hadoop-2.X的搭建,那里面很详细。
本来这个早该整理完了,但是这段时间有点小忙,都没有时间去弄,不过今天终于把这个整理完了,以此来帮助那些想学这些新技术的朋友们,虽然整理的时候有点累,但是还是值得的。对云计算有兴趣的朋友可以加上面说的214293307这个群哦,一...
分类:
其他好文 时间:
2014-07-08 19:25:04
阅读次数:
702
最近在学习hadoop,首先通过网上大把的教程搭建好了完全分布式环境,在分布式环境上运行wordcount也成功,接下来就打算自己写mr来处理实际的业务了,在真正的开发开始之前首先要搭建好开发环境啊,所以就想到了eclipse,可接下来遇到了好多的问题:1、首先是考虑到找一个hadoop..
分类:
系统相关 时间:
2014-07-08 12:10:17
阅读次数:
271
英文原文:cloudera,编译:ImportNew–Royce WongHadoop从这里开始!和我一起学习下使用Hadoop的基本知识,下文将以Hadoop Tutorial为主体带大家走一遍如何使用Hadoop分析数据!这个专题将描述用户在使用Hadoop MapReduce(下文缩写成MR)...
分类:
其他好文 时间:
2014-07-08 11:38:11
阅读次数:
315
最近在电脑上安装来双系统,其实安到就是一个Wubi版的软件,直接把现有到内存虚拟出来一片空间来承载这个Ubuntu系统,直接在网上搜Wubi版到Ubuntu,然后最好是断网安装,否则他会自动的更新,那样会很慢的,要学习hadoop,那么一个Linux系统还是必须要有的,简单到命令行操作还..
分类:
其他好文 时间:
2014-07-08 09:54:48
阅读次数:
217
快,指时延storm:网络直传,基于内存,流式处理,省去了批量处理收集数据的时间和作业调度时延,用于实时hadoop:hdfs传输,磁盘作为中间交换的介质,基于任务调度吞吐:单位时间内处理的数据量当数据量很大时,比的是吞吐,那hadoop会比storm快
分类:
其他好文 时间:
2014-07-08 09:11:30
阅读次数:
195