版本:CDH5.0.0 (hdfs:2.3,mapreduce:2.3,yarn:2.3)hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。比如现在有如下的需求:现有两份数据:phone:123,good number
124,common number
125,bad numberuser:zhangsan,123
lisi,124
w...
分类:
其他好文 时间:
2014-05-22 06:23:52
阅读次数:
391
说明MapReduce是一种分布式计算模型,解决海量数据的计算问题,主要有Map和Reduce组成用户使用时需要实现map()和reduce()两个函数,两个函数的形参都是key/value键值对若以eclipse为开发环境,运行时出现内存不足的情况,需要修改虚拟机的参数
(例如把Default V...
分类:
其他好文 时间:
2014-05-19 11:56:18
阅读次数:
352
目的
使用 CLI MiniCluster, 用户可以简单地只用一个命令就启动或关闭一个单一节点的Hadoop集群,不需要设置任何环境变量或管理配置文件。 CLI MiniCluster 同时启动一个 YARN/MapReduce 和 HDFS 集群。
这对那些想要快速体验一个真实的Hadoop集群或是测试依赖明显的Hadoop函数的非Java程序 的用户很有用。
Hadoop Ta...
分类:
其他好文 时间:
2014-05-18 18:41:39
阅读次数:
319
hadoop streaming允许我们使用任何可执行脚本来处理按行组织的数据流,数据取自UNIX的标准输入STDIN,并输出到STDOUT
通过设定mapper为‘RandomSample.py 10’,我们按十分之一的采样率,没有设定特殊的reducer,一般默认使用IdentityReducer(把输入直接转向输出)
通过HDFS的命令getMerge(输出合并)或其他文件操作,可以获得...
分类:
其他好文 时间:
2014-05-18 15:12:21
阅读次数:
380
版权所有: zhe-jiang.he@hp.com 严禁转载!
1.安装插件
准备程序:
eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse)
hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下)
将hadoop-0.20.2-eclipse-plugin.j...
分类:
系统相关 时间:
2014-05-18 07:32:13
阅读次数:
396
Ubuntu 10.04下架设流媒体服务器目前主流的流媒体服务器有微软的windows media
server、RealNetworks的Helix server和苹果公司的Darwin Streaming Server. 微软的windows media
server只能在windows 200...
分类:
其他好文 时间:
2014-05-16 00:08:39
阅读次数:
545
1:下载darwin源代码DarwinStreamingSrvr6.0.3-Source.tar,补丁patch
dss-6.0.3.patch$wgethttp://dss.macosforge.org/downloads/DarwinStreamingSrvr6.0.3-Source.tar$w...
数据导入HBase最常用的三种方式及实践分析
摘要:要使用Hadoop,需要将现有的各种类型的数据库或数据文件中的数据导入HBase。一般而言,有三种常见方式:使用HBase的API中的Put方法,使用HBase
的bulk load工具和使用定制的MapReduce Job方式。本文均有详细描述。
【编者按】要使用Hadoop,数据合并至...
分类:
其他好文 时间:
2014-05-15 18:15:19
阅读次数:
495
当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询。使得如今的 关系数据库存储带来了巨大的挑战。分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。
...
分类:
其他好文 时间:
2014-05-15 18:13:55
阅读次数:
438