现有的hadoop生态系统中存在的问题1)使用mapreduce进行批量离线分析;2)使用hive进行历史数据的分析;3)使用hbase进行实时数据的查询;4)使用storm进行实时的流处理;5)。。。。。。导致:维护成本高、学习成本高Spark的出现弥补了Hadoop生态系统中的缺陷,使用spar...
分类:
其他好文 时间:
2014-06-28 14:08:46
阅读次数:
306
1. Hadoop中遇到的问题曾经所遇到的问题因为没有记录,所以忘了(1)NameNode没有启动成功, 是因为你对HDFS多次格式化,导致datanode中与namenode中的VERSION文件里的namespaceID不一致(对于NameNode节点,该文件位于hdfs-site配置文件里df...
分类:
其他好文 时间:
2014-06-28 12:47:08
阅读次数:
394
1. 创建HBase表的对象HBase表的对项名字叫HTable,创建它的方法有很多,常见的有如下:org.apache.hadoop.hbase.client.HTable hTable = new HTable(org.apache.hadoop.hbase.HBaseConfiguration...
分类:
编程语言 时间:
2014-06-23 08:32:23
阅读次数:
386
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构
化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行,通过自己的SQL 去查询分析需
要的内容,这套SQL 简称Hive SQL,使不熟悉mapreduce 的用户很方便的利用SQL 语言...
分类:
数据库 时间:
2014-06-22 22:41:52
阅读次数:
342
一 Hbase是个啥东东?
在说Hase是个啥家伙之前,首先我们来看看两个概念,面向行存储和面向列存储。面向行存储,我相信大伙儿应该都清楚,我们熟悉的RDBMS就是此种类型的,面向行存储的数据库主要适合于事务性要求严格场合,或者说面向行存储的存储系统适合OLTP,但是根据CAP理论,传统的RDBMS,为了实现强一致性,通过严格的ACID事务来进行同步,这就造成了系统的可用性和伸缩性方面大大折扣...
分类:
数据库 时间:
2014-06-22 17:58:25
阅读次数:
291
##Flume概述[Flume](http://flume.apache.org/)是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 ...
分类:
其他好文 时间:
2014-06-20 22:18:57
阅读次数:
309
hbase org.apache.hadoop.hbase.PerformanceEvaluationUsage: java org.apache.hadoop.hbase.PerformanceEvaluation \ [--miniCluster] [--nomapred] [--rows=RO...
分类:
其他好文 时间:
2014-06-18 09:57:55
阅读次数:
543
HBase在大数据领域的应用越来越广泛,成为目前NoSQL数据库中表现最耀眼,呼声最高的产品之一,但就应对复杂条件的查询来说,一般认为它并不是非常适合,熟悉HBase的开发人员对此应该有一定的体会,但是基于普遍的需求,开发者们希望HBase在保持高性能优势的同时能对复杂条件的查询给予一定的支持,而本文将要介绍的正是一种在HBase现行机制下以非侵入式实现的基于二级多列索引的高性能复杂条件查询引擎。...
分类:
其他好文 时间:
2014-06-18 06:29:49
阅读次数:
224
HBase基本的CRUD操作就不多介绍了,无非就是Put,Get,Delete三个类的运用。
现在看一下扫描技术,这种技术类似于关系型数据库的游标(cursor),并利用到了HBase底层顺序存储的特性。
使用扫描的一般步骤是:
1、创建Scan实例
2、为Scan实例增加扫描的限制条件
3、调用HTable的getScanner()方法获取ResultScanner对象
4、迭代Resul...
分类:
编程语言 时间:
2014-06-17 23:15:54
阅读次数:
388
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie, Cassandra, Hama, Whirr, Flume, Bigtop, Crunch, Hue等。
从2011年开始,中国进入大数据风起云...
分类:
其他好文 时间:
2014-06-17 16:44:25
阅读次数:
310