我们知道,一个典型的Map-Reduce过程包 括:Input->Map->Partition->Reduce->Output。Partition负责把Map任务输出的中间结果 按key分发给不同的Reduce任务进行处理。Hadoop 提供了一个很有用的partitioner类KeyFieldBa...
分类:
编程语言 时间:
2014-06-18 17:00:55
阅读次数:
332
这道题网上很多人都会说容易,水题之类的话,不过我看了下说这样的话的人的程序,可以说他们的程序都不及格!
为什么呢?因为他们的程序都是使用简单的二次排序水过(大概你能搜索到的多是这样的程序),那样自然可以说不及格了。
因为本题真正的目的是求前k个最大数的问题,这就需要活用快速排序。
求前k个最大数的思路:
1 选取一个数位轴,然后把大于这个数的数放到数列前面,小于这个数的数放到数列后面
2 如果前面的数的数量大于k,那么可以去掉后面的数,递归在前面的数查找前k个最大数
3 如果前面的数的数量小于k,那么截去前...
分类:
其他好文 时间:
2014-06-15 18:04:07
阅读次数:
181
问题:3,1,4,1,5,9,6,5 通过归并排序对它进行从小到大的排序
要进行多少次数组元素之间的比较?[3] 1 4 1 5 9 6 5第一次排序结果:[1 3] 4 1 5 9 6 5;
//新加入的3和1比较,比较次数1次第二次排序结果:[1 3 4] 1 5 9 6 5; //新加入的4和...
分类:
其他好文 时间:
2014-05-21 22:19:55
阅读次数:
208
Hadoop Streaming 是一个工具, 代替编写Java的实现类,而利用可执行程序来完成map-reduce过程
工作流程 :
InputFile --> mappers --> [Partitioner] --> reducers -->
outputFiles
理解 :
1 输入文件,可以是指定远程文件系统内的文件夹下的 *
2 通过集群自己分解到各个PC...
分类:
编程语言 时间:
2014-05-11 14:46:35
阅读次数:
519