Hadoop中map以及reduce的参数总结及说明...
分类:
其他好文 时间:
2015-01-23 23:08:48
阅读次数:
381
我们安装完hadoop,下面我们从视觉上看看hadoop怎么玩的。我们可以在win7系统上,通过web界面,在浏览器地址栏输入地址,直接查看hadoop的运行情况;10.10.11.191:50030这个里面,我们可以看到Map/Reduce的管理情况10.10.11.191:50070这里可以看到...
分类:
Web程序 时间:
2015-01-22 13:00:20
阅读次数:
110
Spark性能优化的10大问题及其解决方案
Spark性能优化的10大问题及其解决方案
Spark性能优化的10大问题及其解决方案
Spark性能优化的10大问题及其解决方案...
分类:
其他好文 时间:
2015-01-22 11:10:02
阅读次数:
149
1.MapReduce 编程模型的5个步骤: 1)迭代,将输入数据解析成 key/value 对; 2)将解析的 key/value经过Map处理映射成另一组key/value对; 3)根据key进行分组; 4)以分组为单位进行归约(Reduce 过程); 5)迭代,输出最终结果。2.Ma...
分类:
其他好文 时间:
2015-01-19 20:52:11
阅读次数:
144
1.filterfilter(function,sequence)-->list,tuple or string1) 参数func是自定义的过滤函数,在函数func(item)中定义过滤规则。果然func为“None”,则过滤项Item都为真,返回所有序列的元素。(2) 参数sequence为待处理...
分类:
其他好文 时间:
2015-01-19 18:51:56
阅读次数:
183
本文主要讲对key的排序,主要利用hadoop的机制进行排序。
1、Partition
partition作用是将map的结果分发到多个Reduce上。当然多个reduce才能体现分布式的优势。
2、思路
由于每个partition内部是有序的,所以只要保证各partition间有序,即可保证全部有序。
3、问题
有了思路,如何定义partition的边界,这是个问题。
...
分类:
编程语言 时间:
2015-01-19 09:19:00
阅读次数:
195
使用hadoop 进行页面的pv uv 计算
不推荐的做法
将访问者的cookie放在hashmap中进行去重计算uv,因为当访问量大时,会将hashmap撑爆,报出
java.lang.OutOfMemoryError: Java heap space
推荐做法:
使用textpair 将cookie作为second key 进行排序,在reduce中进行判断,如果上一个co...
分类:
其他好文 时间:
2015-01-18 11:55:00
阅读次数:
224
函数式编程:函数式编程的一个特点就是,允许把函数本身作为参数传入另一个函数,还允许返回一个函数!Python内建了map()和reduce()函数。map():函数接收两个参数,一个是函数,一个是序列,map将传入的函数依次作用到序列的每个元素,并把结果作为新的list返回。举例:有一个函数f(x)...
分类:
编程语言 时间:
2015-01-17 20:46:57
阅读次数:
252
目前实时或者是准实时的大数据模型越来越多,技术是否先进并非流行的首要原因,社区圈子的繁荣与否才是最重要的。主要有Redshift-亚马逊出品的一款MPP支持PB级别数据库Hive-基于hadoop 上面的SQL引擎,将sql翻译为Map-Reduce任务;Shark- 基于spark计算框架,与Hi...
分类:
其他好文 时间:
2015-01-15 20:08:35
阅读次数:
256
一、filter(function, sequence)对sequence中的item依次执行function(item),将执行结果为True的item组成一个List/String/Tuple(取决于sequence的类型)返回:def f(x): return x % 2 != 0 a...
分类:
编程语言 时间:
2015-01-13 19:32:01
阅读次数:
207