Hive是什么1)Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;2)一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;4)允许用Java开发自...
分类:
其他好文 时间:
2014-08-09 23:10:49
阅读次数:
288
把本地文件上传到hadoop的hdfs-over-ftp...
分类:
其他好文 时间:
2014-08-08 21:22:26
阅读次数:
303
分布式文件系统HDFS--DataNode体系结构 1.概述 DataNode作用:提供真实文件数据的存储服务。 文件块(block):最基本的存储单位[沿用的Linux操作系统地概念]。对于文件内容而言,一个文件的长度大小是size,那么从文件的0偏移开始,按照固定的大小,顺序对文件进行划分并编号,划分好的每一个块称一个Block。 与Linux操作系统不同的是,一旦上传了一个小于Block大小...
分类:
其他好文 时间:
2014-08-08 21:20:36
阅读次数:
364
分布式文件系统HDFS 分布式文件系统[Distributed File System]概述数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统 。分布式文件系统特点:是一种允许文件通过网络在多台主机上分享的文件系统,可让多机器上的多用户分享文件和存储空间。通透性。让实际...
分类:
其他好文 时间:
2014-08-08 18:11:06
阅读次数:
245
分布式文件系统HDFS--NameNode体系结构NameNode是整个文件系统的管理节点。它维护着整个文件系统的文件目录树[为了使得检索速度更快,该目录树放在内存中], 文件/目录的元信息和每个文件对应的数据块列表。接收用户的操作请求。Hadoop确保了NameNode的健壮性,不容易死亡.文件目录树以及文件/目录的元信息等归根到底是存放在硬盘中的,但是在Hadoop运行时,需要将其加载到内存中...
分类:
其他好文 时间:
2014-08-08 18:10:26
阅读次数:
198
1、源码 import?org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import?org.apache.hadoop.io.IOUtils;
import?java.io.InputStream;
import?java.net.URL;
/**
?*?Example?3.1
?*/
public?class?...
错误信息: [wukong@bd11?HDFS_Java_API]$?hadoop?HDFSJavaAPI.jar?HDFSJavaAPIDemo
Warning:?$HADOOP_HOME?is?deprecated.
Error:?Could?not?find?or?load?main?class?HDFSJavaAPI.jar 报错原因...
分类:
其他好文 时间:
2014-08-07 23:27:13
阅读次数:
435
Apache Hadoop的SequenceFile提供了一种把数据以二进制key-value对的形式保存到hdfs上的方式。跟其他key-value 数据结构相比(比如B-Tree),SequenceFile不能修改、删除数据,也不能在数据中间插入数据。SequenceFile只能往尾 部追加数据...
分类:
其他好文 时间:
2014-08-07 22:34:48
阅读次数:
294
It is finally here: you can configure the open source log-aggregator, scribe, to log data directly into the Hadoop distributed file system.Many Web 2....
分类:
其他好文 时间:
2014-08-07 22:03:16
阅读次数:
261
在Hadoop的HDFS部署好了之后并不能马上使用,而是先要对配置的文件系统进行格式化。在这里要注意两个概念,一个是文件系统,此时的文件系统在物理上还不存在,或许是网络磁盘来描述会更加合适;二就是格式化,此处的格式化并不是指传统意义上的本地磁盘格式化,而是一些清除与准备工作。本文接下来将主要讨论Na...
分类:
其他好文 时间:
2014-08-07 18:30:50
阅读次数:
264