码迷,mamicode.com
首页 >  
搜索关键字:flume hdfs sink lzo 格式压缩    ( 6349个结果
目前配过的规模最大的HDFS
Configured Capacity: 249915348971520 (227.30 TB) Present Capacity: 153799153632972 (139.88 TB) DFS Remaining: 153799146688512 (139.88 TB) DFS Used: 6944460 (6.62 MB) DFS Used%: 0.00% Under replicated blocks: 0 Blocks with corrupt replicas: 0 Missing blocks...
分类:其他好文   时间:2014-09-05 10:03:11    阅读次数:257
hadoop2的产生背景
Hadoop1的HDFS和Mapreduce在高可用和拓展性方面存在问题。 HDFS存在的问题: Namenode单点故障,难以应用于在线场景。 Namenode压力过大,且内存受限,影响系统扩展性。 Mapreduce存在问题: Jobtracker单点故障 ...
分类:其他好文   时间:2014-09-04 10:40:49    阅读次数:254
hadoop学习笔记之--- HDFS原理学习
HDFSHDFS设计基础与目标:冗余:硬件错误是常态流式数据访问。即数据比量读取而非随机读写,Hadoop擅长做的是数据分析而不是事务处理。大规模数据集简单一致性模型。为了降低系统复杂程度,对文件采用一次性写多多次读的逻辑设置,即是文件一经写入,关闭,再也不能修改。程序采..
分类:其他好文   时间:2014-09-04 02:58:58    阅读次数:277
利用flume-ng进行日志收集
一、安装环境agent:192.168.7.101hdfs:192.168.7.70(namenode)192.168.7.71(datanode)192.168.7.72(datanode)192.168.7.73(datanode)操作系统:CentOS6.3x86_64须用到的软件包:jdk-1.7.0_65-fcs.x86_64flume-ng-1.5.0flume-ng-agent-1.5.0hadoop-2.3.0+cdh5.1.0cat/etc/hosts19..
分类:其他好文   时间:2014-09-03 15:05:57    阅读次数:252
CDH文件系统垃圾间隔设置
今天在删除一个hive表的时候,发现hdfs的空间没有释放,刚开始一直觉得是自己删除有问题,结果在hdfs上也没有查到,最后发现是CDH的namenode有一个文件系统垃圾间隔设置,默认设置一天,也就是说删除的文件需要一天才能被删掉。配置如图,希望能帮助要有同样疑惑的人。还有这个..
分类:其他好文   时间:2014-09-03 02:48:26    阅读次数:249
MapReduce(十五): 从HDFS读取文件的源码分析
从HDFS读取文件的源码分析...
分类:其他好文   时间:2014-09-02 21:29:55    阅读次数:281
MapReduce(十六): 写数据到HDFS的源码分析
对写数据到HDFS的源码分析...
分类:其他好文   时间:2014-09-02 21:29:25    阅读次数:293
HBase Shell操作
Hbase 是一个分布式的、面向列的开源数据库,其实现是建立在google 的bigTable 理论之上,并基于hadoop HDFS文件系统。 Hbase不同于一般的关系型数据库(RDBMS)。是一种适用于非结构化数据存储的数据库,且Hbase是基于列的数据库。 下面的内容基于我们已经安装好h.....
分类:其他好文   时间:2014-09-02 19:37:55    阅读次数:217
Hadoop介绍及最新稳定版Hadoop 2.4.1下载地址及单节点安装
Hadoop介绍 Hadoop是一个能对大量数据进行分布式处理的软件框架。其基本的组成包括hdfs分布式文件系统和可以运行在hdfs文件系统上的MapReduce编程模型,以及基于hdfs和MapReduce而开发的一系列上层应用软件。 hdfs是在一个网络中以流式数据访问模式来存储超大文件的跨.....
分类:其他好文   时间:2014-09-02 15:22:34    阅读次数:365
hbase shell基础和常用命令详解
HBase是Google Bigtable的开源实现,它利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为协同服务。1. 简介HBase是一个分布式的、面向列的开源数据库,源于google的一篇论文《bigtab...
分类:其他好文   时间:2014-09-02 01:34:43    阅读次数:342
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!