码迷,mamicode.com
首页 >  
搜索关键字:mr    ( 1325个结果
MR案例:倒排索引
1.map阶段:将单词和URI组成Key值(如“MapReduce :1.txt”),将词频作为value。 利用MR框架自带的Map端排序,将同一文档的相同单词的词频组成列表,传递给Combine过程,实现类似于WordCount的功能。Class Map{ method map(){ ...
分类:其他好文   时间:2015-08-20 18:19:11    阅读次数:240
HDFS并行复制
1)Distcp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。2)distcp命令是以MR作业(没有R任务)的形式实现的,把文件和目录的列表作为M任务的输入。每一个文件是由一个M任务来拷贝的,distcp尽量把大小之和相同的各个文件导入到同一个M任务中。这样可以每个M任务拷贝的数据量大致相...
分类:其他好文   时间:2015-08-20 12:29:13    阅读次数:171
Hadoop Web项目--Mahout0.10 MR算法集锦
此项目是在《Hadoop Web项目--Friend Find系统基础》之上整理Mahout0.10版本中MR程序的调用测试而成,重点演示如何调用Mahout0.10的MR算法、如何把MR算法嵌入到Web项目中,附带数据生成及数据查看、MR 任务监控等功能。里面含有了常用工具类、聚类算法、分推荐算法等的MR调用mahout命令以及其对应的实现类。...
分类:编程语言   时间:2015-08-18 19:24:57    阅读次数:333
HDU 5317(RGCDQ-统计)
RGCDQ Time Limit: 6000/3000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others) Total Submission(s): 1963    Accepted Submission(s): 830 Problem Description Mr. Hdu is interested in...
分类:其他好文   时间:2015-08-18 19:20:41    阅读次数:149
HDU 5319(Painter-暴力)
Painter Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/65536 K (Java/Others) Total Submission(s): 1232    Accepted Submission(s): 547 Problem Description Mr. Hdu is an painter, ...
分类:其他好文   时间:2015-08-18 19:19:06    阅读次数:122
java.lang.IllegalAccessError: class com.google.protobuf.HBaseZeroCopyByteString
hadoop mr 或者 spark 操作 hbase时候就出现这个错误 这是hbase的bug,可在jira上看到该问题:https://issues.apache.org/jira/browse/HBASE-10304报错信息:15/08/17 19:28:33 ERROR yarn.ApplicationMaster: User class threw exception: org.apa...
分类:数据库   时间:2015-08-18 14:17:11    阅读次数:530
Pig
1.Pig是基于hadoop的一个数据处理的框架。 MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。3.Pig基本数据类型:int、long、float、double、....
分类:其他好文   时间:2015-08-17 17:04:01    阅读次数:104
hadoop MR 任务 报错 "Error: java.io.IOException: Premature EOF from inputStream at org.apache.hadoop.io"
错误原文分析文件操作超租期,实际上就是data stream操作过程中文件被删掉了。通常是因为Mapred多个task操作同一个文件,一个task完成后删掉文件导致。这个错误跟dfs.datanode.max.transfer.threads参数到达上限有关。这个是datanode同时处理请求的任务上限,总默认值是 4096,该参数取值范围[1 to 8192]hadoop docs hdfs-si...
分类:编程语言   时间:2015-08-17 14:05:57    阅读次数:176
数据输入输出格式
数据输入格式数据输入格式(InputFormat)用于描述MR作业的输入规范,主要功能:输入规范检查(比如输入文件目录的检查)、对数据文件进行输入切分和从输入分块中将数据记录逐一读取出来、并转化为Map的输入键值对。Hadoop中最常用的数据输入格式包括:TextInputFormat和KeyVal...
分类:其他好文   时间:2015-08-15 13:14:57    阅读次数:291
HDFS的体系架构
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。       HDFS的体系架构 整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持,并通过MR来实现对分布式并行任务处理的程序支持。 HDFS采用主从(Maste...
分类:其他好文   时间:2015-08-12 19:36:08    阅读次数:110
1325条   上一页 1 ... 95 96 97 98 99 ... 133 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!