START:Flume是Cloudera提供的一个高可用的、高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地。这里的日志是一个统称,泛指文件、操作记录等许多数据。一、Flume基础理论1.1 常见的分布式日志收集系统 Scribe是facebook开源的日志收集....
分类:
Web程序 时间:
2015-04-22 01:51:13
阅读次数:
166
一、Sqoop基础:连接关系型数据库与Hadoop的桥梁1.1 Sqoop的基本概念 Hadoop正成为企业用于大数据分析的最热门选择,但想将你的数据移植过去并不容易。Apache Sqoop正在加紧帮助客户将重要数据从数据库移到Hadoop。随着Hadoop和关系型数据库之间的数据移动渐渐变...
分类:
其他好文 时间:
2015-04-20 01:45:02
阅读次数:
234
一、为何要学习Hadoop? 这是一个信息爆炸的时代。经过数十年的积累,很多企业都聚集了大量的数据。这些数据也是企业的核心财富之一,怎样从累积的数据里寻找价值,变废为宝炼数成金成为当务之急。但数据增长的速度往往比cpu和内存性能增长的速度还要快得多。要处理海量数据,如果求助于昂贵的专用主机甚至超级....
分类:
其他好文 时间:
2015-04-20 01:44:41
阅读次数:
140
Hadoop学习笔记0003——从Hadoop URL读取数据
从HadoopURL读取数据
要从Hadoop文件系统中读取文件,一个最简单的方法是使用java.net.URL对象来打开一个数据流,从而从中读取数据。一般的格式如下:
InputStream in = null;
try {
in = new URL("hdfs://host/path").op...
分类:
Web程序 时间:
2015-04-11 13:19:19
阅读次数:
176
Hadoop学习笔记0002——HDFS文件操作
说明:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式。
方式一:命令行方式
Hadoop文件操作命令形式为:hadoop fs -cmd
说明:cmd是具体的文件操作命令,是一组数目可变的参数。
Hadoop最常用的文件操作命令,包括添加文件和目录、获取文件、删除文件等。
1 添加文件和目录...
分类:
其他好文 时间:
2015-04-11 09:01:48
阅读次数:
132
一、关于Pig:别以为猪不能干活1.1 Pig的简介 Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编....
分类:
其他好文 时间:
2015-04-10 06:43:44
阅读次数:
164
一、HBase的安装配置1.1 伪分布模式安装 伪分布模式安装即在一台计算机上部署HBase的各个角色,HMaster、HRegionServer以及ZooKeeper都在一台计算机上来模拟。 首先,准备好HBase的安装包,我这里使用的是HBase-0.94.7的版本,已经上传至百度网盘之中(.....
分类:
其他好文 时间:
2015-04-09 23:20:59
阅读次数:
270
HBase是Apache Hadoop的数据库,能够对大型数据提供随机、实时的读写访问。HBase的目标是存储并处理大型的数据。HBase是一个开源的,分布式的,多版本的,面向列的存储模型,它存储的是松散型数据。一、HBase:BigTable的开源实现1.1 HBase出现的背景 (1)随着数据....
分类:
其他好文 时间:
2015-04-09 06:05:41
阅读次数:
282