搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

MapReduce实现排序功能

期间遇到了无法转value的值为int型，我采用try catch解决 str2 2 str1 1 str3 3 str1 4 str4 7 str2 5 str3 9 用的\t隔开，得到结果 str1 1,4 str2 2,5 str3 3,9 str4 7 我这里map，reduce都是单独出来的类，用了自定义的key package com.kan...

分类：其他好文时间：2014-06-05 06:52:38 阅读次数：353

在Hadoop中重写FileInputFormat类以处理二进制格式存储的整数

最近开始使用MapReduce，发现网上大部分例子都是对文本数据进行处理的，也就是说在读取输入数据时直接使用默认的TextInputFormat进行处理即可。对于文本数据处理，这个类还是能满足一部分应用场景。但是如果要处理以二进制形式结构化记录存储的文件时，这些类就不再适合了。本文以一个简单的应用场景为例：对按照二进制格式存储的整数做频数统计。以此来说明如何重写FileInputFormat来实现对非文本数据的处理。...

分类：其他好文时间：2014-06-04 21:53:46 阅读次数：341

云计算大会有感—MapReduce和UDF

(转载请注明出处：http://blog.csdn.net/buptgshengod)1.參会有感首先还是非常感谢CSDN能给我票，让我有机会參加这次中国云计算峰会。感觉不写点什么对不起CSDN送我的门票（看到网上卖一千多一张呢）。还是得从国家会议中心说起，两年前lz以前在那当过IDF...

分类：其他好文时间：2014-06-03 08:21:39 阅读次数：299

浅谈hadoop中mapreduce的文件分发

DistributedCache 是一个提供给Map/Reduce框架的工具，用来缓存文件（text, archives, jars and so on）...

分类：其他好文时间：2014-06-03 02:18:37 阅读次数：332

HP Vertica Analytics Platform 评测

1.vertica概念面向数据分析的数据仓库系统解决方案 2.vertica关键特性 Ø 标准的SQL接口：可以利用已有的BI、ETL、Hadoop/MapReduce和OLTP环境 Ø 高可用：内置的冗余也提升了查询速度 Ø 自动化数据库设计：数据库自动安装、优化、管理 Ø 高级压缩：十多种压缩算法最多可节省90%的空间 Ø 大规模并行处理：运行于低成本的x86型Lin...

分类：其他好文时间：2014-06-02 23:09:24 阅读次数：483

hadoop备战：yarn框架的简介（mapreduce2）

hadoop yarn的重构，根本的思想是将 JobTracker 两个主要的功能分离成单独的组件，这两个功能是资源管理和任务调度 / 监控。新的资源管理器全局管理所有应用程序计算资源的分配，每一个应用的 ApplicationMaster 负责相应的调度和协调。一个应用程序无非是一个单独的传统的 MapReduce 任务或者是一个 DAG( 有向无环图 ) 任务。ResourceManager 和每一台机器的节点管理服务器能够管理用户在那台机器上的进程并能对计算进行组织。...

分类：其他好文时间：2014-06-02 02:27:16 阅读次数：332

hadoop备战：yarn框架的搭建（mapreduce2）

x86台式机，window7 64位系统 wmware虚拟机(x86的台式机至少是4G内存，才能开2台虚机) centos6.4操作系统 hadoop-2.2.0.tar.gz jdk-6u24-linux-i586.bin WinScp 远程文件传输工具，很好用。可以用于windows和虚拟机Linux之间文件相互拷贝。...

分类：其他好文时间：2014-06-02 02:23:23 阅读次数：315

MapReduce数据连接

对于不同文件中的数据，有时候有对应关系，需要进行连接(join)，获得一个新的文件以便进行分析。比如有两个输入文件a.txt,b.txt，其中的数据格式分别如下 1 a 2 b 3 c 4 d 1 good 2 bad 3 ok 4 hello 需要将其连接成一个新的如下的文件： a good b bad c ok d hello 处理步骤可以分成两步： 1.map阶段，将两个输入文件...

分类：其他好文时间：2014-06-01 09:05:01 阅读次数：325

Apache Spark源码走读之12 -- Hive on Spark运行环境搭建

Hive是基于Hadoop的开源数据仓库工具，提供了类似于SQL的HiveQL语言，使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块，这一部分是用Hadoop中MapRed...

分类：其他好文时间：2014-05-30 14:23:07 阅读次数：409

Parallel中分区器Partitioner的简单使用

Partitioner.Create(1,10,4).GetDynamicPartitions()为长度为10的序列创建分区，每个分区至多4个元素，分区方法及结果：Partitioner.Create(0, 10, 4).GetDynamicPartitions()得到3个前闭后开区间:[0, 4)...

分类：其他好文时间：2014-05-29 14:28:18 阅读次数：247

共4100条上一页 1 ... 400 401 402 403 404 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)