搜索关键字：flume hdfs sink lzo 格式压缩，搜索到6349个结果！码迷,mamicode.com！

Hadoop学习笔记_7_分布式文件系统HDFS --DataNode体系结构

分布式文件系统HDFS--DataNode体系结构 1.概述 DataNode作用:提供真实文件数据的存储服务。文件块（block）：最基本的存储单位[沿用的Linux操作系统地概念]。对于文件内容而言，一个文件的长度大小是size，那么从文件的０偏移开始，按照固定的大小，顺序对文件进行划分并编号，划分好的每一个块称一个Block。与Linux操作系统不同的是,一旦上传了一个小于Block大小...

分类：其他好文时间：2014-08-08 21:20:36 阅读次数：364

Hadoop学习笔记_5_分布式文件系统HDFS --shell操作

分布式文件系统HDFS 分布式文件系统[Distributed File System]概述数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统。分布式文件系统特点:是一种允许文件通过网络在多台主机上分享的文件系统，可让多机器上的多用户分享文件和存储空间。通透性。让实际...

分类：其他好文时间：2014-08-08 18:11:06 阅读次数：245

Hadoop学习笔记_6_分布式文件系统HDFS --NameNode体系结构

分布式文件系统HDFS--NameNode体系结构NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树[为了使得检索速度更快,该目录树放在内存中]，文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。Hadoop确保了NameNode的健壮性,不容易死亡.文件目录树以及文件/目录的元信息等归根到底是存放在硬盘中的,但是在Hadoop运行时,需要将其加载到内存中...

分类：其他好文时间：2014-08-08 18:10:26 阅读次数：198

HDFS API的Helloworld

1、源码 import?org.apache.hadoop.fs.FsUrlStreamHandlerFactory; import?org.apache.hadoop.io.IOUtils; import?java.io.InputStream; import?java.net.URL; /** ?*?Example?3.1 ?*/ public?class?...

分类：Windows程序时间：2014-08-08 16:38:46 阅读次数：311

ant编译后用hadoop报Could not find or load main class

错误信息： [wukong@bd11?HDFS_Java_API]$?hadoop?HDFSJavaAPI.jar?HDFSJavaAPIDemo Warning:?$HADOOP_HOME?is?deprecated. Error:?Could?not?find?or?load?main?class?HDFSJavaAPI.jar 报错原因...

分类：其他好文时间：2014-08-07 23:27:13 阅读次数：435

[译]SequenceFile、MapFile、SetFile、ArrayFile、BloomMapFile

Apache Hadoop的SequenceFile提供了一种把数据以二进制key-value对的形式保存到hdfs上的方式。跟其他key-value 数据结构相比（比如B-Tree），SequenceFile不能修改、删除数据，也不能在数据中间插入数据。SequenceFile只能往尾部追加数据...

分类：其他好文时间：2014-08-07 22:34:48 阅读次数：294

HDFS Scribe Integration 【转】

It is finally here: you can configure the open source log-aggregator, scribe, to log data directly into the Hadoop distributed file system.Many Web 2....

分类：其他好文时间：2014-08-07 22:03:16 阅读次数：261

摘抄：NameNode的format具体操作过程

在Hadoop的HDFS部署好了之后并不能马上使用，而是先要对配置的文件系统进行格式化。在这里要注意两个概念，一个是文件系统，此时的文件系统在物理上还不存在，或许是网络磁盘来描述会更加合适；二就是格式化，此处的格式化并不是指传统意义上的本地磁盘格式化，而是一些清除与准备工作。本文接下来将主要讨论Na...

分类：其他好文时间：2014-08-07 18:30:50 阅读次数：264

hadoop基础

1 定义hadoop是一个分布式系统架构。2 基本模块HDFS为海量数据提供了存储。Map/Reduce为海量数据提供了计算。3 子项目Hadoop Common: 在0.20及以前的版本中，包含HDFS、MapReduce和其他项目公共内容，从0.21开始HDFS和MapReduce被分离为独立的...

分类：其他好文时间：2014-08-07 15:40:30 阅读次数：239

spark读写压缩文件API使用详解

最近研究了下Spark如何读写压缩格式的文件，主要有如下三种方式，这里以lzo方式压缩为例/*******************oldhadoopapi*************************/ valconfHadoop=newJobConf confHadoop.set("mapred.output.compress","true") confHadoop.set("mapred.output.compression.c..

分类：Windows程序时间：2014-08-07 07:32:40 阅读次数：417

共6349条上一页 1 ... 607 608 609 610 611 ... 635 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)