期间遇到了无法转value的值为int型,我采用try catch解决
str2 2
str1 1
str3 3
str1 4
str4 7
str2 5
str3 9
用的\t隔开,得到结果
str1 1,4
str2 2,5
str3 3,9
str4 7
我这里map,reduce都是单独出来的类,用了自定义的key
package com.kan...
分类:
其他好文 时间:
2014-06-05 06:52:38
阅读次数:
353
最近开始使用MapReduce,发现网上大部分例子都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理,这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时,这些类就不再适合了。
本文以一个简单的应用场景为例:对按照二进制格式存储的整数做频数统计。以此来说明如何重写FileInputFormat来实现对非文本数据的处理。...
分类:
其他好文 时间:
2014-06-04 21:53:46
阅读次数:
341
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.參会有感
首先还是非常感谢CSDN能给我票,让我有机会參加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。
还是得从国家会议中心说起,两年前lz以前在那当过IDF...
分类:
其他好文 时间:
2014-06-03 08:21:39
阅读次数:
299
DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存文件(text, archives, jars and so on)...
分类:
其他好文 时间:
2014-06-03 02:18:37
阅读次数:
332
1,准备编译环境# apt-get install
build-essential下载所需安装包,openssl-1.0.1g.tar.gzpcre-8.35.tar.gzzlib-1.2.8.tar.gznginx_mod_h264_streaming-2.2.7.tar.gznginx-1.6....
分类:
其他好文 时间:
2014-05-31 21:19:58
阅读次数:
372
写在前面前文:用python + hadoop streaming 编写分布式程序(一) --
原理介绍,样例程序与本地调试为了方便,这篇文章里的例子均为伪分布式运行,一般来说只要集群配置得当,在伪分布式下能够运行的程序,在真实集群上也不会有什么问题。为了更好地模拟集群环境,我们可以在mapred-...
分类:
编程语言 时间:
2014-05-30 14:56:56
阅读次数:
309
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
分类:
其他好文 时间:
2014-05-30 14:23:07
阅读次数:
409
http://dongxicheng.org/mapreduce/hadoop-join-two-tables/http://dongxicheng.org/mapreduce/run-hadoop-job-problems/http://dongxicheng.org/mapreduce/hdfs...
分类:
其他好文 时间:
2014-05-29 12:27:09
阅读次数:
260
GPU 的硬件基本概念Nvidia的版本: 实际上在 nVidia 的 GPU
里,最基本的处理单元是所谓的 SP(Streaming Processor),而一颗 nVidia 的 GPU 里,会有非常多的 SP 可以同时做计算;而数个
SP 会在附加一些其他单元,一起组成一个 SM(Strea....
分类:
其他好文 时间:
2014-05-28 18:59:32
阅读次数:
292
在这篇文章里总结了几种网上或者论文中常见的MapReduce模式和算法,并系统化的解释了这些技术的不同之处。所有描述性的文字和代码都使用了标准hadoop的MapReduce模型,包括Mappers,
Reduces, Combiners, Partitioners,和 sorting。如下图所示。...
分类:
其他好文 时间:
2014-05-28 16:54:17
阅读次数:
342