学习参考这篇文章: http://www.shareditor.com/blogshow/?blogId=96 机器学习、数据挖掘等各种大数据处理都离不开各种开源分布式系统, hadoop用于分布式存储和map-reduce计算, spark用于分布式机器学习, hive是分布式数据库, hbase ...
分类:
其他好文 时间:
2016-10-30 22:01:18
阅读次数:
264
Hadoop是用作处理大数据用的,核心是HDFS、Map/Reduce。虽然目前工作中不需要使用这个,但是,技多不压身,经过虚拟机很多遍的尝试,终于将Hadoop2.5.2的环境顺利搭建起来了。 首先准备一个CentOS,将主机名改为master,并且在/etc/hosts里面加入master对应的 ...
分类:
其他好文 时间:
2016-10-29 18:55:23
阅读次数:
196
原 Hadoop MapReduce 框架的问题 原hadoop的MapReduce框架图 从上图中可以清楚的看出原 MapReduce 程序的流程及设计思路: 可以看得出原来的 map-reduce 架构是简单明了的,在最初推出的几年,也得到了众多的成功案例,获得业界广泛的支持和肯定,但随着分布式 ...
分类:
其他好文 时间:
2016-10-29 11:44:28
阅读次数:
236
Python内置了一些特殊函数,这些函数很具python特性。可以让代码更加简洁。 可以看例子: 1 filter(function, sequence): str = ['a', 'b','c', 'd'] def fun1(s): return s if s != 'a' else None r ...
分类:
编程语言 时间:
2016-10-28 03:01:38
阅读次数:
169
1. 函数式编程 1)概念 函数式编程是一种编程模型,他将计算机运算看做是数学中函数的计算,并且避免了状态以及变量的概念。wiki 我们知道,对象是面向对象的第一型,那么函数式编程也是一样,函数是函数式编程的第一型。在面向对象编程中,我们把对象传来传去,那在函数式编程中,我们要做的是把函数传来传去, ...
分类:
编程语言 时间:
2016-10-26 07:11:35
阅读次数:
171
目的: 初步感受一下hadoop mapreduce 环境: hadoop 2.6.4 1 准备输入文件 注意:输出目录/output 不用提前创建,程序会自动做这一步 2 执行 6/10/23 00:51:38 INFO mapreduce.Job: map 0% reduce 0%16/10/2 ...
分类:
其他好文 时间:
2016-10-23 17:49:58
阅读次数:
283
filter、map、reduce,都是对一个集合进行处理,filter很容易理解用于过滤,map用于映射,reduce用于归并. 是Python列表方法的三架马车. 1. filter函数的功能相当于过滤器。 filter函数的定义: filter(function or None, sequen ...
分类:
编程语言 时间:
2016-10-22 07:31:41
阅读次数:
207
目录:1.MapReduce作业运行流程2.Map、Reduce任务中Shuffle和排序的过程 1.MapReduce作业运行流程 流程示意图: 流程分析: 1.在客户端启动一个作业。 2.向JobTracker请求一个Job ID。 3.将运行作业所需要的资源文件复制到HDFS上,包括MapRe ...
分类:
其他好文 时间:
2016-10-20 14:50:12
阅读次数:
188
作者:Coldwings链接:https://www.zhihu.com/question/29936822/answer/48586327来源:知乎著作权归作者所有,转载请联系作者获得授权。 简单的说就是问题可以划分成若干单元,每个单元的计算互不相关,单元计算结果可以在可以承受的时间内合成为总结果 ...
分类:
其他好文 时间:
2016-10-11 21:18:47
阅读次数:
225
测试环境:192.168.1.55 mongo 192.168.1.55:30001show dbsuse gwgps 测试目标,求出两个班的总数,人数,平均分数等。可以根据不同的业务需求,定制map,reduce,finalize函数。 1. 数据准备db.person1.insert({'cla ...
分类:
其他好文 时间:
2016-10-08 19:46:04
阅读次数:
142