最近项目中使用hadoop 一开始在linux下的root用户上做试验现在转到hadoop用户下所以要新建hadoop用户了直接入主题: Linux 系统是一个多用户多任务的分时操作系统,任何一个要使用系统资源的用户,都必须首先向系统管理员申请一个账号,然后以这个账号的身份进入系统。用户的账号一方面 ...
分类:
系统相关 时间:
2016-05-16 21:40:27
阅读次数:
274
大家都知道Maven的优点是依赖管理,特别是前期使用ANT的开发者都有很多感触。最近要开发一个java工程,定的要使用maven,会使用hadoop和hbase的客户端,而引入一个hadoop-client的jar或者hbase的jar包,会依赖十几个其他的jar包,而这些jar包的功能我又用不上,所以这种依赖反倒成了工程瘦身的负担。关键我还有强迫症,见到这些对工程无用的包,我就抓狂。所以在网上百...
分类:
其他好文 时间:
2016-05-12 15:19:09
阅读次数:
152
HBase是什么?
HBase是Apache Hadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据 存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作,如右侧的图所示:
为什么采用HBase?
HBase 不同于一般的关系数据库,它是一个适合...
分类:
其他好文 时间:
2016-05-06 15:33:53
阅读次数:
202
昨天使用hadoop跑五一的数据,发现报错: 发现是内存溢出了,遇到这种问题首先要判断是map阶段溢出还是reduce阶段溢出,然后分别设置其内存的大小,比如: 因为默认值都是:1024M,也就是一个G,如果不够就会溢出! ...
分类:
其他好文 时间:
2016-05-03 12:42:48
阅读次数:
1000
使用Hadoop进行离线分析或者数据挖掘的工程师,经常会需要对Hadoop集群或者mapreduce作业进行性能调优。性能调优的前提是需要能准确知道目前针对Hadoop集群或者mapreduce作业配置的参数。本文将针对这一需求,基于Hadoop开发一个简单实用的工具查询查看各种参数。...
分类:
其他好文 时间:
2016-04-22 19:23:43
阅读次数:
152
使用 Hadoop Mapreduce 进行数据处理 1. 综述 使用HDP(下载: http://zh.hortonworks.com/products/releases/hdp-2-3/#install)搭建环境,进行分布式数据处理。 项目文件下载,解压文件后将看到项目文件夹。该程序将读取 cl ...
分类:
其他好文 时间:
2016-04-14 19:32:24
阅读次数:
325
前言 使用Hadoop已经有一段时间了,从开始的迷茫,到各种的尝试,到现在组合应用….慢慢地涉及到数据处理的事情,已经离不开hadoop了。Hadoop在大数据领域的成功,更引发了它本身的加速发展。现在Hadoop家族产品,已经达到20个了之多。 有必要对自己的知识做一个整理了,把产品和技术都串起来 ...
分类:
其他好文 时间:
2016-04-09 21:49:49
阅读次数:
239
HBase是ApacheHadoop中的一个子项目,Hbase依托于Hadoop的HDFS作为最基本存储基础单元,通过使用hadoop的DFS工具就可以看到这些这些数据存储文件夹的结构,还可以通过Map/Reduce的框架(算法)对HBase进行操作;HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据..
分类:
其他好文 时间:
2016-04-08 15:33:57
阅读次数:
190
调度中心的资料收集 大众点评网 摘要:大众点评网从2011年中開始使用Hadoop,并专门建立团队。Hadoop主分析集群共同拥有60多个节点、700TB的容量。月执行30多万个HadoopJob。还有2个HBase线上集群。作者将讲述这各个阶段的技术选择及改进之路。 2011年小规模试水 这一阶段 ...
分类:
其他好文 时间:
2016-03-26 22:11:34
阅读次数:
609
Hadoop的安装模式分为三种:单机模式、伪分布模式、全分布模式 单机模式,这是默认的安装模式,也是占用资源最少的模式,配置文件不用修改。完全运行在本地,不与其他节点交互,也不使用Hadoop文件系统,不加载任何守护进程,主要用于开发调试MapReduce应用程序。 伪分布模式,即单节点集群模式,所
分类:
其他好文 时间:
2016-03-20 21:32:24
阅读次数:
226