搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

mapreduce学习总结（一）

1. mapper任务一般执行输入格式解析、投影（选择相关的字段）、过滤（过滤掉无关记录）。reducer任务一般2. 对于map任务和ruduce任务，tasktracker有固定数量的任务槽。3. 分片（split）的大小一般就是文件块大小。map任务的数量取决于文件大小和块大小，不用刻意去设...

分类：其他好文时间：2014-07-22 22:54:16 阅读次数：314

hadoop的WordCount样例

package cn.lmj.mapreduce;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritabl...

分类：其他好文时间：2014-07-22 22:40:15 阅读次数：170

hive 自我介绍

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专门的MapReduce应用，十分适合数据...

分类：其他好文时间：2014-07-22 00:20:35 阅读次数：252

浅谈mapreduce程序部署

虽然我们在虚拟机客户端上能很快通过shell命令，进行执行一些已经封装好实例程序，但是在应用中还是是自己写程序，然后部署到服务器中去，下面，我通过程序进行浅谈一个程序的部署过程。在启动Hadoop之后，然后把程序达成可执行的jar包，并把相应的第三方jar包包含进去。执行hadoop jar XXX. +驱动名称。package com.mapred; import java.i...

分类：其他好文时间：2014-07-21 22:33:08 阅读次数：239

hadoop出现ava.lang.ClassNotFoundException: org.codehaus.jackson.map.JsonMappingException

Exception in thread "main" java.lang.NoClassDefFoundError: org/codehaus/jackson/map/JsonMappingException at org.apache.hadoop.mapreduce.Job$1.run(Job.java:563) at java.security.AccessC...

分类：移动开发时间：2014-07-21 16:36:54 阅读次数：251

MapReduce原理——PageRank算法Java版

Page Rank就是MapReduce的来源，下文是一个简单的计算PageRank的示例。 import?java.text.DecimalFormat; /** ?*?Created?by?jinsong.sun?on?2014/7/15. ?*/ public?class?PageRankCaculator?{ ??...

分类：编程语言时间：2014-07-21 10:22:18 阅读次数：301

Hadoop命令参数说明

namenode（hdfs）+jobtracker（mapreduce）可以放在一台机器上，datanode+tasktracker可以在一台机器上，辅助namenode要单独放一台机器，jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上，一...

分类：其他好文时间：2014-07-21 10:21:00 阅读次数：327

（转）MapReduce 中的两表 join 几种方案简介

1. 概述在传统数据库（如：MYSQL）中，JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作，同样常见且耗时，由于Hadoop的独特设计思想，当进行JOIN操作时，有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法，然后给出了几种针对不同输入数据集的优化方法。...

分类：其他好文时间：2014-07-21 09:03:08 阅读次数：329

hadoop编程小技巧（3）---自定义分区类Partitioner

Hadoop代码测试环境：Hadoop2.4原理：在Hadoop的MapReduce过程中，Mapper读取处理完成数据后，会把数据发送到Partitioner，由Partitioner来决定每条记录应该送往哪个reducer节点，默认使用的是HashPartitioner，其核心代码如下：/** Use {@link Object#hashCode()} to partition. */ p...

分类：其他好文时间：2014-07-17 15:06:56 阅读次数：315

hadoop快速扫盲帖，从零了解hadoop

1、MapReduce理论简介 1.1 MapReduce编程模型　　MapReduce采用"分而治之"的思想，把对大规模数据集的操作，分发给一个主节点管理下的各个分节点共同完成，然后通过整合各个节点的中间结果，得到最终结果。简单地说，MapReduce就是"任务的分解与结果的汇总"。　　在Hadoop中，用于执行MapReduce任务的机器角色有两个：一个是Job...

分类：其他好文时间：2014-07-16 16:20:31 阅读次数：326

共4100条上一页 1 ... 389 390 391 392 393 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)