码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
MapReduce实现排序功能
期间遇到了无法转value的值为int型,我采用try catch解决 str2 2 str1 1 str3 3 str1 4 str4 7 str2 5 str3 9 用的\t隔开,得到结果  str1 1,4  str2 2,5 str3 3,9 str4 7 我这里map,reduce都是单独出来的类,用了自定义的key package com.kan...
分类:其他好文   时间:2014-06-05 06:52:38    阅读次数:353
在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数
最近开始使用MapReduce,发现网上大部分例子都是对文本数据进行处理的,也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理,这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时,这些类就不再适合了。 本文以一个简单的应用场景为例:对按照二进制格式存储的整数做频数统计。以此来说明如何重写FileInputFormat来实现对非文本数据的处理。...
分类:其他好文   时间:2014-06-04 21:53:46    阅读次数:341
云计算大会有感—MapReduce和UDF
(转载请注明出处:http://blog.csdn.net/buptgshengod)1.參会有感 首先还是非常感谢CSDN能给我票,让我有机会參加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票(看到网上卖一千多一张呢)。 还是得从国家会议中心说起,两年前lz以前在那当过IDF...
分类:其他好文   时间:2014-06-03 08:21:39    阅读次数:299
浅谈hadoop中mapreduce的文件分发
DistributedCache 是一个提供给Map/Reduce框架的工具,用来缓存文件(text, archives, jars and so on)...
分类:其他好文   时间:2014-06-03 02:18:37    阅读次数:332
HP Vertica Analytics Platform 评测
1.vertica概念 面向数据分析的数据仓库系统解决方案 2.vertica关键特性 Ø  标准的SQL接口:可以利用已有的BI、ETL、Hadoop/MapReduce和OLTP环境 Ø  高可用:内置的冗余也提升了查询速度 Ø  自动化数据库设计:数据库自动安装、优化、管理 Ø  高级压缩:十多种压缩算法最多可节省90%的空间 Ø  大规模并行处理:运行于低成本的x86型Lin...
分类:其他好文   时间:2014-06-02 23:09:24    阅读次数:483
hadoop备战:yarn框架的简介(mapreduce2)
hadoop yarn的重构,根本的思想是将 JobTracker 两个主要的功能分离成单独的组件,这两个功能是资源管理和任务调度 / 监控。新的资源管理器全局管理所有应用程序计算资源的分配,每一个应用的 ApplicationMaster 负责相应的调度和协调。一个应用程序无非是一个单独的传统的 MapReduce 任务或者是一个 DAG( 有向无环图 ) 任务。ResourceManager 和每一台机器的节点管理服务器能够管理用户在那台机器上的进程并能对计算进行组织。...
分类:其他好文   时间:2014-06-02 02:27:16    阅读次数:332
hadoop备战:yarn框架的搭建(mapreduce2)
x86台式机,window7 64位系统 wmware虚拟机(x86的台式机至少是4G内存,才能开2台虚机) centos6.4操作系统 hadoop-2.2.0.tar.gz jdk-6u24-linux-i586.bin WinScp 远程文件传输工具,很好用。可以用于windows和虚拟机Linux之间文件相互拷贝。...
分类:其他好文   时间:2014-06-02 02:23:23    阅读次数:315
MapReduce数据连接
对于不同文件中的数据,有时候有对应关系,需要进行连接(join),获得一个新的文件以便进行分析。比如有两个输入文件a.txt,b.txt,其中的数据格式分别如下 1 a 2 b 3 c 4 d 1 good 2 bad 3 ok 4 hello 需要将其连接成一个新的如下的文件: a good b bad c ok d hello 处理步骤可以分成两步: 1.map阶段,将两个输入文件...
分类:其他好文   时间:2014-06-01 09:05:01    阅读次数:325
Apache Spark源码走读之12 -- Hive on Spark运行环境搭建
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
分类:其他好文   时间:2014-05-30 14:23:07    阅读次数:409
Parallel中分区器Partitioner的简单使用
Partitioner.Create(1,10,4).GetDynamicPartitions()为长度为10的序列创建分区,每个分区至多4个元素,分区方法及结果:Partitioner.Create(0, 10, 4).GetDynamicPartitions()得到3个前闭后开区间:[0, 4)...
分类:其他好文   时间:2014-05-29 14:28:18    阅读次数:247
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!