Hadoop 的优势
Hadoop 是 一 个 能 够 让 用 户 轻 松 架 构 和 使 用 的 分 布 式 计 算 平 台。 用 户 可 以 轻 松 地 在Hadoop 上开发运行处理海量数据的应用程序。它主要有以下几个优点:
1.高可靠性。Hadoop 按位存储和处理数据的能力值得人们信赖。
2.高扩展性。Hadoop 是在可用的计算机集簇间分配数据完成计算任务的, 这些集簇可以方便地...
分类:
其他好文 时间:
2014-05-22 12:26:27
阅读次数:
217
问题: 在Hadoop中,新建一个目录,报错了,提示mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory,该如何解决呢?...
分类:
其他好文 时间:
2014-05-22 11:31:11
阅读次数:
304
简介
此文档描述了一个超级用户如何在安全的方式下以另一用户的名义提交作业或访问hdfs。
Use Case
下一部分描述的的代码示例对此用户用例是可用的。
一个用户名为'super'的超级用户想要以另一用户joe的名义提交作业或访问hdfs。超级用户有kerberos证书但是用户joe并没有。任务要求以用户joe的角色运行并且namenode上的文件访问也需要由joe完成。需要用户...
分类:
其他好文 时间:
2014-05-22 10:40:41
阅读次数:
255
这篇文章不提原理,讲讲hadoop及其周边项目的作用。
hadoop这个词已经流行好多年了,一提到大数据就会想到hadoop,那么hadoop的作用是什么呢?
官方定义:hadoop是一个开发和运行处理大规模数据的软件平台。核心词语是平台,也就是说我们有大量的数据,又有好几个电脑,我们知道应该把处理数据的任务分解到各个电脑上,但是不知道怎样分配任务,怎样回收结果,hadoop大概就帮助我们做了...
分类:
其他好文 时间:
2014-05-22 10:34:39
阅读次数:
288
hadoop有种简化机制来管理job和control的非线性作业之间的依赖,job对象时mapreduce的表现形式。job对象的实例化可通过传递一个jobconf对象到作业的构造函数中来实现。
x.addDeopendingJob(y)意味着x在y完成之前不会启动。
鉴于job对象存储着配置和依赖信息,jobcontrol对象会负责监管作业的执行,通过addjob(),你可以为jobcont...
分类:
其他好文 时间:
2014-05-22 07:27:41
阅读次数:
287
版本:CDH5.0.0 (hdfs:2.3,mapreduce:2.3,yarn:2.3)hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。比如现在有如下的需求:现有两份数据:phone:123,good number
124,common number
125,bad numberuser:zhangsan,123
lisi,124
w...
分类:
其他好文 时间:
2014-05-22 06:23:52
阅读次数:
391
import java.io.IOException;import
java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import
org.apache.hadoop.fs.Path;import org.ap...
分类:
其他好文 时间:
2014-05-22 01:11:55
阅读次数:
337
在centOS系统中,我添加了一个用户,但是在我执行su时,终端告诉我以上的错误,下面是我的解决过程:首先切换到root用户:给
etc/hosts读写的权限:使用vi功能打开sudoers文件,在root ALL=(ALL) ALL后面加入本用户的信息:hadoop ALL=(ALL)
ALL重新...
分类:
其他好文 时间:
2014-05-21 23:35:26
阅读次数:
347
因为用的hadoop2.20所以下载sqoop-1.99.3-bin-hadoop200使用随便找一个hadoopnode节点做sqoopserver:1.下载安装[hadoop@slave1~]$wgethttp://mirror.bit.edu.cn/apache/sqoop/1.99.3/sqoop-1.99.3-bin-hadoop200.tar.gz[hadoop@slave1~]$tarxvfsqoop-1.99.3-bin-hadoop200.tar...
分类:
其他好文 时间:
2014-05-21 00:01:45
阅读次数:
439
前段时间遇到了一个很诡异的发生的Map阶段的OOM异常,花了些时间才找到原因,这个简要记录一下。先看log。节点一的TaskTracker的log:节点二的TaskTracker的log:节点三的TaskTracker的log:其他节点的TaskTracker中的log都和slave4的一样的:故障分析:OOM是一个比较常见的故..
分类:
其他好文 时间:
2014-05-20 22:15:47
阅读次数:
422