码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
mapreduce学习总结(一)
1. mapper任务一般执行 输入格式解析、投影(选择相关的字段)、过滤(过滤掉无关记录)。reducer任务一般2. 对于map任务和ruduce任务,tasktracker有固定数量的任务槽。3. 分片(split)的大小一般就是文件块大小。map任务的数量取决于文件大小和块大小,不用刻意去设...
分类:其他好文   时间:2014-07-22 22:54:16    阅读次数:314
hadoop的WordCount样例
package cn.lmj.mapreduce;import java.io.IOException;import java.util.Iterator;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritabl...
分类:其他好文   时间:2014-07-22 22:40:15    阅读次数:170
hive 自我介绍
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据...
分类:其他好文   时间:2014-07-22 00:20:35    阅读次数:252
浅谈mapreduce程序部署
虽然我们在虚拟机客户端上能很快通过shell命令,进行执行一些已经封装好实例程序,但是在应用中还是是自己写程序,然后部署到服务器中去,下面,我通过程序进行浅谈一个程序的部署过程。 在启动Hadoop之后,然后把程序达成可执行的jar包,并把相应的第三方jar包 包含进去。执行hadoop    jar   XXX. +驱动名称。package com.mapred; import java.i...
分类:其他好文   时间:2014-07-21 22:33:08    阅读次数:239
hadoop出现ava.lang.ClassNotFoundException: org.codehaus.jackson.map.JsonMappingException
Exception in thread "main" java.lang.NoClassDefFoundError: org/codehaus/jackson/map/JsonMappingException at org.apache.hadoop.mapreduce.Job$1.run(Job.java:563) at java.security.AccessC...
分类:移动开发   时间:2014-07-21 16:36:54    阅读次数:251
MapReduce原理——PageRank算法Java版
Page Rank就是MapReduce的来源,下文是一个简单的计算PageRank的示例。 import?java.text.DecimalFormat; /** ?*?Created?by?jinsong.sun?on?2014/7/15. ?*/ public?class?PageRankCaculator?{ ??...
分类:编程语言   时间:2014-07-21 10:22:18    阅读次数:301
Hadoop命令参数说明
namenode(hdfs)+jobtracker(mapreduce)可以放在一台机器上,datanode+tasktracker可以在一台机器上,辅助namenode要单独放一台机器,jobtracker通常情况下分区跟datanode一样(目录最好分布在不同的磁盘上,一...
分类:其他好文   时间:2014-07-21 10:21:00    阅读次数:327
(转)MapReduce 中的两表 join 几种方案简介
1. 概述在传统数据库(如:MYSQL)中,JOIN操作是非常常见且非常耗时的。而在HADOOP中进行JOIN操作,同样常见且耗时,由于Hadoop的独特设计思想,当进行JOIN操作时,有一些特殊的技巧。本文首先介绍了Hadoop上通常的JOIN实现方法,然后给出了几种针对不同输入数据集的优化方法。...
分类:其他好文   时间:2014-07-21 09:03:08    阅读次数:329
hadoop编程小技巧(3)---自定义分区类Partitioner
Hadoop代码测试环境:Hadoop2.4原理:在Hadoop的MapReduce过程中,Mapper读取处理完成数据后,会把数据发送到Partitioner,由Partitioner来决定每条记录应该送往哪个reducer节点,默认使用的是HashPartitioner,其核心代码如下:/** Use {@link Object#hashCode()} to partition. */ p...
分类:其他好文   时间:2014-07-17 15:06:56    阅读次数:315
hadoop快速扫盲帖,从零了解hadoop
1、MapReduce理论简介   1.1 MapReduce编程模型   MapReduce采用"分而治之"的思想,把对大规模数据集的操作,分发给一个主节点管理下的各个分节点共同完成,然后通过整合各个节点的中间结果,得到最终结果。简单地说,MapReduce就是"任务的分解与结果的汇总"。   在Hadoop中,用于执行MapReduce任务的机器角色有两个:一个是Job...
分类:其他好文   时间:2014-07-16 16:20:31    阅读次数:326
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!