Sqoop1.99.3基础操作--导入Oracle的数据到HDFS...
分类:
数据库 时间:
2014-06-28 08:51:31
阅读次数:
229
引言
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件...
分类:
其他好文 时间:
2014-06-28 07:48:49
阅读次数:
253
hive是一个SQL解析引擎,可以在hive中创建表,执行sql语句。创建的表是存储在hdfs中,执行的sql语句是通过MapReduce执行的。可以通过执行sql语句来代替编写MapReduce作业,太方便了!1.解压缩、设置环境hive使用的版本是hive-0.9.0.tar.gz。我们在/.....
分类:
其他好文 时间:
2014-06-27 19:59:49
阅读次数:
179
原先使用hadoop默认设置(hadoop1.2.1),secondarynamenode会正常进行备份,定时从namenode拷贝image文件到SNN。但是具体SNN备份的时间周期和log文件的大小无法定制,后来楼主就修改了SNN的设置,将fs.checkpoint.period修改为...
分类:
其他好文 时间:
2014-06-27 16:05:28
阅读次数:
452
书籍学习——董西成《Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理》HDFS 高容错,高伸缩性Lucene是引擎开发包,提供了一个纯java的高性能全文检索,可方便的嵌入到各种应用中实现全文搜索/索引功能。Nutch是以Lucene为基础实现的搜索引擎应用,Lu...
分类:
其他好文 时间:
2014-06-27 12:15:57
阅读次数:
221
由于Hadoop还处于初期高速发展的节点,加上它又是开源的,因此它的版本一直很混乱,Hadoop一些主要的特性有:
Append:支持文件追加功能,如果想使用HBase,需要这个特性。
RAID : 在保证数据可靠的前提下,通过引入校验码减少数据块数目。详细链接:https://issues.apache.org/jira/browse/HDFS/component/12313080
...
分类:
其他好文 时间:
2014-06-27 10:32:09
阅读次数:
272
flume-ng1.4安装配置记录一下flume-ng的安装配置三个基本概念source:数据源channel:数据传输通道sink:数据目的地,如存储在hdfs配置:flume.conf#defineagent1.sources=source1agent1.channels=channel1agent1.sinks=sink1#agent1.sources.source1.type=spooldiragent1.sour..
分类:
其他好文 时间:
2014-06-27 06:41:36
阅读次数:
221
Sqoop官网:http://sqoop.apache.org/*) Sqoop介绍Sqoop用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。参考链接:http://blog.csdn.net/yfkis...
分类:
其他好文 时间:
2014-06-26 17:49:46
阅读次数:
212
# 学习前言
想学习一下Flume,网上找了好多文章基本上都说的很简单,只有一半什么的,简直就是坑爹,饿顿时怒火就上来了,学个东西真不容易,然后自己耐心的把这些零零碎碎的东西整理整理,各种搭环境实验之后才弄好的,也不容易啊,希望可以帮到想学Flume的你 、、、
# Flume介绍
Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制...
分类:
其他好文 时间:
2014-06-26 08:01:52
阅读次数:
449
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。Impala 为存储在 HDFS 和 HBase 中的数据提供了一个实时 SQL 查询接口。...
分类:
其他好文 时间:
2014-06-25 10:56:38
阅读次数:
355