码迷,mamicode.com
首页 >  
搜索关键字:mapreduce streaming    ( 5217个结果
hadoop多文件格式输入
版本:CDH5.0.0 (hdfs:2.3,mapreduce:2.3,yarn:2.3)hadoop多文件格式输入,一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。比如现在有如下的需求:现有两份数据:phone:123,good number 124,common number 125,bad numberuser:zhangsan,123 lisi,124 w...
分类:其他好文   时间:2014-05-22 06:23:52    阅读次数:391
MapReduce入门
说明MapReduce是一种分布式计算模型,解决海量数据的计算问题,主要有Map和Reduce组成用户使用时需要实现map()和reduce()两个函数,两个函数的形参都是key/value键值对若以eclipse为开发环境,运行时出现内存不足的情况,需要修改虚拟机的参数 (例如把Default V...
分类:其他好文   时间:2014-05-19 11:56:18    阅读次数:352
Hadoop-2.2.0中文文档—— Common - CLI MiniCluster
目的 使用 CLI MiniCluster, 用户可以简单地只用一个命令就启动或关闭一个单一节点的Hadoop集群,不需要设置任何环境变量或管理配置文件。 CLI MiniCluster 同时启动一个 YARN/MapReduce 和 HDFS 集群。 这对那些想要快速体验一个真实的Hadoop集群或是测试依赖明显的Hadoop函数的非Java程序 的用户很有用。 Hadoop Ta...
分类:其他好文   时间:2014-05-18 18:41:39    阅读次数:319
hadoop学习;Streaming,aggregate;combiner
hadoop streaming允许我们使用任何可执行脚本来处理按行组织的数据流,数据取自UNIX的标准输入STDIN,并输出到STDOUT 通过设定mapper为‘RandomSample.py 10’,我们按十分之一的采样率,没有设定特殊的reducer,一般默认使用IdentityReducer(把输入直接转向输出) 通过HDFS的命令getMerge(输出合并)或其他文件操作,可以获得...
分类:其他好文   时间:2014-05-18 15:12:21    阅读次数:380
在Eclipse中运行、配置Hadoop
版权所有: zhe-jiang.he@hp.com  严禁转载! 1.安装插件 准备程序: eclipse-3.3.2(这个版本的插件只能用这个版本的eclipse) hadoop-0.20.2-eclipse-plugin.jar (在hadoop-0.20.2/contrib/eclipse-plugin目录下) 将hadoop-0.20.2-eclipse-plugin.j...
分类:系统相关   时间:2014-05-18 07:32:13    阅读次数:396
Ubuntu 10.04下架设流媒体服务器
Ubuntu 10.04下架设流媒体服务器目前主流的流媒体服务器有微软的windows media server、RealNetworks的Helix server和苹果公司的Darwin Streaming Server. 微软的windows media server只能在windows 200...
分类:其他好文   时间:2014-05-16 00:08:39    阅读次数:545
【甘道夫】MapReduce实现矩阵乘法--实现代码
MapReduce实现矩阵乘法--实现代码...
分类:其他好文   时间:2014-05-15 23:57:37    阅读次数:390
ubuntu12.04上搭建darwin streaming server6.03
1:下载darwin源代码DarwinStreamingSrvr6.0.3-Source.tar,补丁patch dss-6.0.3.patch$wgethttp://dss.macosforge.org/downloads/DarwinStreamingSrvr6.0.3-Source.tar$w...
分类:Windows程序   时间:2014-05-15 22:34:00    阅读次数:580
数据导入HBase最常用的三种方式及实践分析
数据导入HBase最常用的三种方式及实践分析         摘要:要使用Hadoop,需要将现有的各种类型的数据库或数据文件中的数据导入HBase。一般而言,有三种常见方式:使用HBase的API中的Put方法,使用HBase 的bulk load工具和使用定制的MapReduce Job方式。本文均有详细描述。        【编者按】要使用Hadoop,数据合并至...
分类:其他好文   时间:2014-05-15 18:15:19    阅读次数:495
非结构化数据的存储与查询
当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询,尤其是当今非结构化数据的快速增长,对其数据的存储,处理,查询。使得如今的 关系数据库存储带来了巨大的挑战。分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。        ...
分类:其他好文   时间:2014-05-15 18:13:55    阅读次数:438
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!