码迷,mamicode.com
首页 >  
搜索关键字:flume hdfs sink lzo 格式压缩    ( 6349个结果
Hive的安装与使用
hive是一个SQL解析引擎,可以在hive中创建表,执行sql语句。创建的表是存储在hdfs中,执行的sql语句是通过MapReduce执行的。可以通过执行sql语句来代替编写MapReduce作业,太方便了!1.解压缩、设置环境hive使用的版本是hive-0.9.0.tar.gz。我们在/.....
分类:其他好文   时间:2014-06-27 19:59:49    阅读次数:179
Sqoop的使用
Sqoop官网:http://sqoop.apache.org/*) Sqoop介绍Sqoop用来在Hadoop和关系数据库中传递数据。通过sqoop,我们可以方便的将数据从关系数据库导入到HDFS,或者将数据从HDFS导出到关系数据库。参考链接:http://blog.csdn.net/yfkis...
分类:其他好文   时间:2014-06-26 17:49:46    阅读次数:212
_00017 Flume的体系结构介绍以及Flume入门案例(往HDFS上传数据)
# 学习前言 想学习一下Flume,网上找了好多文章基本上都说的很简单,只有一半什么的,简直就是坑爹,饿顿时怒火就上来了,学个东西真不容易,然后自己耐心的把这些零零碎碎的东西整理整理,各种搭环境实验之后才弄好的,也不容易啊,希望可以帮到想学Flume的你 、、、 # Flume介绍 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制...
分类:其他好文   时间:2014-06-26 08:01:52    阅读次数:449
初识 Cloudera Impala
Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。Impala 为存储在 HDFS 和 HBase 中的数据提供了一个实时 SQL 查询接口。...
分类:其他好文   时间:2014-06-25 10:56:38    阅读次数:355
fuse-dfs挂载hdfs实录
部署安装了最新稳定版hadoop2.2.0,然后在网上找来fuse-dfs编译教程,但是最后失败了,至今原因未知~~,错误描述为:Transport endpoint is not connected。后将安装部署hadoop1.2.1版本,最后测试成功,记录如下: 使用root完成一下操作: 1、安装依赖包 apt-get install autoconf automake libtool...
分类:其他好文   时间:2014-06-25 08:17:08    阅读次数:302
【Java】【Flume】Flume-NG启动过程源码分析(三)
本篇分析加载配置文件后各个组件是如何运行的?   加载完配置文件订阅者Application类会收到订阅信息执行: @Subscribe public synchronized void handleConfigurationEvent(MaterializedConfiguration conf) { stopAllComponents(); startAll...
分类:编程语言   时间:2014-06-24 17:24:59    阅读次数:445
【Java】【Flume】Flume-NG启动过程源码分析(二)
本节分析配置文件的解析,即PollingPropertiesFileConfigurationProvider.FileWatcherRunnable.run中的eventBus.post(getConfiguration())。分析getConfiguration()方法。此方法在AbstractConfigurationProvider类中实现了,并且这个类也初始化了三大组件的工厂类:this...
分类:编程语言   时间:2014-06-24 17:21:53    阅读次数:547
【Java】【Flume】Flume-NG启动过程源码分析(一)
从bin/flume 这个shell脚本可以看到Flume的起始于org.apache.flume.node.Application类,这是flume的main函数所在。   main方法首先会先解析shell命令,如果指定的配置文件不存在就甩出异常。   根据命令中含有"no-reload-conf"参数,决定采用那种加载配置文件方式:一、没有此参数,会动态加载配置文件,默认每30秒...
分类:编程语言   时间:2014-06-24 17:13:22    阅读次数:387
【Java】【Flume】Flume-NG源码阅读之AvroSink
org.apache.flume.sink.AvroSink是用来通过网络来传输数据的,可以将event发送到RPC服务器(比如AvroSource),使用AvroSink和AvroSource可以组成分层结构。它继承自AbstractRpcSink  extends AbstractSink implements Configurable这跟其他的sink一样都得extends Abstract...
分类:编程语言   时间:2014-06-24 16:01:30    阅读次数:303
【Java】【Fulme】Flume-NG源码阅读之SpoolDirectorySource
org.apache.flume.source.SpoolDirectorySource是flume的一个常用的source,这个源支持从磁盘中某文件夹获取文件数据。不同于其他异步源,这个源能够避免重启或者发送失败后数据丢失。flume可以监控文件夹,当出现新文件时会读取该文件并获取数据。当一个给定的文件被全部读入到通道中时,该文件会被重命名以标志已经完成。同时,该源需要一个清理进程来定期移除完成...
分类:编程语言   时间:2014-06-24 15:59:37    阅读次数:287
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!