码迷,mamicode.com
首页 >  
搜索关键字:flume hdfs sink lzo 格式压缩    ( 6349个结果
Hadoop学习笔记_7_分布式文件系统HDFS --DataNode体系结构
分布式文件系统HDFS--DataNode体系结构 1.概述 DataNode作用:提供真实文件数据的存储服务。 文件块(block):最基本的存储单位[沿用的Linux操作系统地概念]。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。 与Linux操作系统不同的是,一旦上传了一个小于Block大小...
分类:其他好文   时间:2014-08-08 21:20:36    阅读次数:364
Hadoop学习笔记_5_分布式文件系统HDFS --shell操作
分布式文件系统HDFS 分布式文件系统[Distributed File System]概述数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。分布式文件系统特点:是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际...
分类:其他好文   时间:2014-08-08 18:11:06    阅读次数:245
Hadoop学习笔记_6_分布式文件系统HDFS --NameNode体系结构
分布式文件系统HDFS--NameNode体系结构NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树[为了使得检索速度更快,该目录树放在内存中], 文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。Hadoop确保了NameNode的健壮性,不容易死亡.文件目录树以及文件/目录的元信息等归根到底是存放在硬盘中的,但是在Hadoop运行时,需要将其加载到内存中...
分类:其他好文   时间:2014-08-08 18:10:26    阅读次数:198
HDFS API的Helloworld
1、源码 import?org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import?org.apache.hadoop.io.IOUtils; import?java.io.InputStream; import?java.net.URL; /** ?*?Example?3.1 ?*/ public?class?...
分类:Windows程序   时间:2014-08-08 16:38:46    阅读次数:311
ant编译后用hadoop报Could not find or load main class
错误信息: [wukong@bd11?HDFS_Java_API]$?hadoop?HDFSJavaAPI.jar?HDFSJavaAPIDemo Warning:?$HADOOP_HOME?is?deprecated. Error:?Could?not?find?or?load?main?class?HDFSJavaAPI.jar 报错原因...
分类:其他好文   时间:2014-08-07 23:27:13    阅读次数:435
[译]SequenceFile、MapFile、SetFile、ArrayFile、BloomMapFile
Apache Hadoop的SequenceFile提供了一种把数据以二进制key-value对的形式保存到hdfs上的方式。跟其他key-value 数据结构相比(比如B-Tree),SequenceFile不能修改、删除数据,也不能在数据中间插入数据。SequenceFile只能往尾 部追加数据...
分类:其他好文   时间:2014-08-07 22:34:48    阅读次数:294
HDFS Scribe Integration 【转】
It is finally here: you can configure the open source log-aggregator, scribe, to log data directly into the Hadoop distributed file system.Many Web 2....
分类:其他好文   时间:2014-08-07 22:03:16    阅读次数:261
摘抄:NameNode的format具体操作过程
在Hadoop的HDFS部署好了之后并不能马上使用,而是先要对配置的文件系统进行格式化。在这里要注意两个概念,一个是文件系统,此时的文件系统在物理上还不存在,或许是网络磁盘来描述会更加合适;二就是格式化,此处的格式化并不是指传统意义上的本地磁盘格式化,而是一些清除与准备工作。本文接下来将主要讨论Na...
分类:其他好文   时间:2014-08-07 18:30:50    阅读次数:264
hadoop基础
1 定义hadoop是一个分布式系统架构。2 基本模块HDFS为海量数据提供了存储。Map/Reduce为海量数据提供了计算。3 子项目Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的...
分类:其他好文   时间:2014-08-07 15:40:30    阅读次数:239
spark读写压缩文件API使用详解
最近研究了下Spark如何读写压缩格式的文件,主要有如下三种方式,这里以lzo方式压缩为例/*******************oldhadoopapi*************************/ valconfHadoop=newJobConf confHadoop.set("mapred.output.compress","true") confHadoop.set("mapred.output.compression.c..
分类:Windows程序   时间:2014-08-07 07:32:40    阅读次数:417
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!