搜索关键字：mapreduce streaming，搜索到5217个结果！码迷,mamicode.com！

hadoop多文件格式输入

版本：CDH5.0.0 （hdfs:2.3，mapreduce：2.3，yarn：2.3）hadoop多文件格式输入，一般可以使用MultipleInputs类指定不同的输入文件路径以及输入文件格式。比如现在有如下的需求：现有两份数据：phone：123,good number 124,common number 125,bad numberuser：zhangsan,123 lisi,124 w...

分类：其他好文时间：2014-05-22 06:23:52 阅读次数：391

MapReduce入门

说明MapReduce是一种分布式计算模型，解决海量数据的计算问题，主要有Map和Reduce组成用户使用时需要实现map()和reduce()两个函数，两个函数的形参都是key/value键值对若以eclipse为开发环境，运行时出现内存不足的情况，需要修改虚拟机的参数 (例如把Default V...

分类：其他好文时间：2014-05-19 11:56:18 阅读次数：352

Hadoop-2.2.0中文文档—— Common - CLI MiniCluster

目的使用 CLI MiniCluster, 用户可以简单地只用一个命令就启动或关闭一个单一节点的Hadoop集群，不需要设置任何环境变量或管理配置文件。 CLI MiniCluster 同时启动一个 YARN/MapReduce 和 HDFS 集群。这对那些想要快速体验一个真实的Hadoop集群或是测试依赖明显的Hadoop函数的非Java程序的用户很有用。 Hadoop Ta...

分类：其他好文时间：2014-05-18 18:41:39 阅读次数：319

hadoop学习；Streaming，aggregate；combiner

hadoop streaming允许我们使用任何可执行脚本来处理按行组织的数据流，数据取自UNIX的标准输入STDIN,并输出到STDOUT 通过设定mapper为‘RandomSample.py 10’,我们按十分之一的采样率，没有设定特殊的reducer，一般默认使用IdentityReducer（把输入直接转向输出）通过HDFS的命令getMerge（输出合并）或其他文件操作，可以获得...

分类：其他好文时间：2014-05-18 15:12:21 阅读次数：380

在Eclipse中运行、配置Hadoop

分类：系统相关时间：2014-05-18 07:32:13 阅读次数：396

Ubuntu 10.04下架设流媒体服务器

Ubuntu 10.04下架设流媒体服务器目前主流的流媒体服务器有微软的windows media server、RealNetworks的Helix server和苹果公司的Darwin Streaming Server. 微软的windows media server只能在windows 200...

分类：其他好文时间：2014-05-16 00:08:39 阅读次数：545

【甘道夫】MapReduce实现矩阵乘法--实现代码

MapReduce实现矩阵乘法--实现代码...

分类：其他好文时间：2014-05-15 23:57:37 阅读次数：390

ubuntu12.04上搭建darwin streaming server6.03

1：下载darwin源代码DarwinStreamingSrvr6.0.3-Source.tar,补丁patch dss-6.0.3.patch$wgethttp://dss.macosforge.org/downloads/DarwinStreamingSrvr6.0.3-Source.tar$w...

分类：Windows程序时间：2014-05-15 22:34:00 阅读次数：580

数据导入HBase最常用的三种方式及实践分析

数据导入HBase最常用的三种方式及实践分析摘要：要使用Hadoop，需要将现有的各种类型的数据库或数据文件中的数据导入HBase。一般而言，有三种常见方式：使用HBase的API中的Put方法，使用HBase 的bulk load工具和使用定制的MapReduce Job方式。本文均有详细描述。【编者按】要使用Hadoop，数据合并至...

分类：其他好文时间：2014-05-15 18:15:19 阅读次数：495

非结构化数据的存储与查询

当今信息化时代充斥着大量的数据。海量数据存储是一个必然的趋势。然而数据如何的存储和查询，尤其是当今非结构化数据的快速增长，对其数据的存储，处理，查询。使得如今的关系数据库存储带来了巨大的挑战。分布存储技术是云计算的基础,主要研究如何存储、组织和管理数据中心上的大规模海量数据.由于面临的数据规模和用户规模更加庞大,在可扩展性、容错性以及成本控制方面面临着更加严峻的挑战[1]。 ...

分类：其他好文时间：2014-05-15 18:13:55 阅读次数：438

共5217条上一页 1 ... 514 515 516 517 518 ... 522 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)