搜索关键字：mapreduce partitioner，搜索到4100个结果！码迷,mamicode.com！

有如图所示的输入文件。其中第一列代表ip地址，之后的偶数列代表搜索词，数字(奇数列)代表搜索次数，使用"\t"分隔。现在需要对搜索词进行分词并统计词频，此处不考虑搜索次数，可能是翻页，亦不考虑搜索链接的行为。...

分类：其他好文时间：2014-08-17 11:47:02 阅读次数：306

上一节分析了Job由JobClient提交到JobTracker的流程，利用RPC机制，JobTracker接收到Job ID和Job所在HDFS的目录，够早了JobInProgress对象，丢入队列，另一个线程从队列中取出JobInProgress对象，并丢入线程池中执行，执行JobInProgr...

分类：其他好文时间：2014-08-17 03:45:51 阅读次数：383

MapReduce剖析笔记之二：Job提交的过程

上一节以WordCount分析了MapReduce的基本执行流程，但并没有从框架上进行分析，这一部分工作在后续慢慢补充。这一节，先剖析一下任务提交过程。MapReduce集群包含一个JobTracker和多个TaskTracker，这里先不考虑YARN，仍然依据1版本进行分析。一个MapReduce...

分类：其他好文时间：2014-08-17 02:20:01 阅读次数：320

hadoop的工作原理

hadoop是一种分布式系统的平台，通过它可以很轻松的搭建一个高效、高质量的分布系统，而且它还有许多其它的相关子项目，也就是对它的功能的极大扩充，包括Zookeeper,Hive,Hbase等。MapReduce是hadoop的核心组件之一，hadoop要分布式包括两部分，一是分布式文件系统hdfs,一部是..

分类：其他好文时间：2014-08-17 01:11:02 阅读次数：241

MapReduce剖析笔记之一：从WordCount理解MapReduce的几个阶段

WordCount是一个入门的MapReduce程序（从src\examples\org\apache\hadoop\examples粘贴过来的）：package org.apache.hadoop.examples;import java.io.IOException;import java.ut...

分类：其他好文时间：2014-08-16 23:48:21 阅读次数：340

从Hadoop框架与MapReduce模式中谈海量数据处理（含淘宝技术架构）

从hadoop框架与MapReduce模式中谈海量数据处理前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，认为它们非常是神奇，而神奇的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，认为Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到...

分类：其他好文时间：2014-08-16 18:29:30 阅读次数：339

新版API WordCount 小例及如何导入jar包

简单解析wordcount小例...

分类：Windows程序时间：2014-08-16 11:16:40 阅读次数：273

hive压缩

hive采用压缩进行性能优化...

分类：其他好文时间：2014-08-15 19:40:59 阅读次数：254

MapReduce示例-气象站

MaxTemperature.java package cn.kissoft.hadoop.week05; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduc...

分类：其他好文时间：2014-08-15 14:54:39 阅读次数：307

Mapreduce 小例子

mapreduce 测试小例子...

分类：其他好文时间：2014-08-15 14:43:29 阅读次数：164

共4100条上一页 1 ... 381 382 383 384 385 ... 410 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)