hadoop dfs -cat xxxhadoop dfs -ls [xxx]hadoop dfs -rm xxx删除目录及其内容hadoop dfs -rmr xxx 查看子目录数、文件数及大小hadoop dfs -count xxx 查看目录大小hadoop dfs -du xxxhadoop...
分类:
其他好文 时间:
2014-07-12 00:22:25
阅读次数:
164
Hadoop分布式平台的大数据解决方案
讲师:迪伦
对这个课程有兴趣的可以加我qq2059055336联系我
1 课程背景
GREENPLUM适用场景
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等,它的特点主要就是查询速度快,数据装载速度快,批量DML处理快。而且性能可以随着硬件的添加,呈线性增加...
分类:
其他好文 时间:
2014-07-09 11:36:26
阅读次数:
205
1、从HDFS中读取数据
Configuration conf = getConf();
Path path = new Path(pathstr);
FileSystem fs = FileSystem.get(conf);
FSDataInputStream fsin= fs.open(path );
BufferedReader br =null;
Strin...
分类:
其他好文 时间:
2014-07-09 09:17:40
阅读次数:
290
线上一个job出错,报错信息如下:DiagnosticMessagesforthisTask:
Error
:
java.io.IOException:java.io.EOFException:Unexpectedendofinputstream
atorg.apache.hadoop.hive.io.HiveIOExceptionHandlerChain.handleRecordReaderNextException(HiveIOExceptionHandlerChain.jav..
分类:
其他好文 时间:
2014-07-09 08:40:55
阅读次数:
347
最近学习hadoop,建了个工程,由于是引入的jar包,不方便阅读,百度了一下,发现还是各种麻烦,在这里给大家介绍一种简单的办法,两步搞定一.下载hadoop完整包并解压二.选择hadoopjar包---》右键属性--》source---》外部文件夹(选择解压的目录就可以了)三.看成果是不是方便多..
分类:
系统相关 时间:
2014-07-09 08:32:45
阅读次数:
219
通过HBaseAdmin维护表(创建,删除表)importorg.apache.hadoop.conf.Configuration;
importorg.apache.hadoop.hbase.HBaseConfiguration;
importorg.apache.hadoop.hbase.HColumnDescriptor;
importorg.apache.hadoop.hbase.HTableDescriptor;
importorg.apache.hadoop.hbase...
分类:
编程语言 时间:
2014-07-09 08:28:58
阅读次数:
170
今天收到线上的resourcemanager报警:报错信息如下:2014-07-0813:22:54,118INFOorg.apache.hadoop.yarn.util.AbstractLivelinessMonitor:Expired:xxxx:53356Timedoutafter600secs
2014-07-0813:22:54,118INFOorg.apache.hadoop.yarn.server.resourcemanager.rmnode.RMNodeImpl..
分类:
其他好文 时间:
2014-07-09 08:21:41
阅读次数:
436
最近在学习hadoop,首先通过网上大把的教程搭建好了完全分布式环境,在分布式环境上运行wordcount也成功,接下来就打算自己写mr来处理实际的业务了,在真正的开发开始之前首先要搭建好开发环境啊,所以就想到了eclipse,可接下来遇到了好多的问题:1、首先是考虑到找一个hadoop..
分类:
系统相关 时间:
2014-07-08 12:10:17
阅读次数:
271
英文原文:cloudera,编译:ImportNew–Royce WongHadoop从这里开始!和我一起学习下使用Hadoop的基本知识,下文将以Hadoop Tutorial为主体带大家走一遍如何使用Hadoop分析数据!这个专题将描述用户在使用Hadoop MapReduce(下文缩写成MR)...
分类:
其他好文 时间:
2014-07-08 11:38:11
阅读次数:
315
快,指时延storm:网络直传,基于内存,流式处理,省去了批量处理收集数据的时间和作业调度时延,用于实时hadoop:hdfs传输,磁盘作为中间交换的介质,基于任务调度吞吐:单位时间内处理的数据量当数据量很大时,比的是吞吐,那hadoop会比storm快
分类:
其他好文 时间:
2014-07-08 09:11:30
阅读次数:
195