前三节课主要讲了hdfs,hdfs就是一个分鱼展的大硬盘 分:分块 鱼:冗余 展:动态扩展 接下来讲云计算,也可以理解为分布式计算,其设计原则: 移动计算,而不是移动数据 前面说过,hadoop由hdfs,yarn,map/reduce组成, 而yarn(Yet Another Resource N ...
分类:
其他好文 时间:
2018-08-07 16:47:57
阅读次数:
174
配置系统环境变量HADOOP_HOME,指向hadoop安装目录(如果你不想招惹不必要的麻烦,不要在目录中包含空格或者中文字符)把HADOOP_HOME/bin加到PATH环境变量(非必要,只是为了方便)如果是在windows下开发,需要添加windows的库文件把盘中共享的bin目录覆盖HADOO ...
分类:
编程语言 时间:
2018-08-07 16:46:21
阅读次数:
166
和 hadoop 一样,Spark 提供了一个 Map/Reduce API(分布式计算)和分布式存储。二者主要的不同点是,Spark 在集群的内存中保存数据,而 Hadoop 在集群的磁盘中存储数据。 本文选自《SparkGraphX实战》。 大数据对一些数据科学团队来说是 主要的挑战,因为在要求 ...
分类:
其他好文 时间:
2018-08-06 15:22:43
阅读次数:
137
--高阶函数:map reduce sorted filter--函数式编程 纯粹的函数式编程语言编写的函数没有变量,允许把函数本身作为参数传入另一个函数,允许返回一个函数,python语言部分支持 能够把函数当成参数传入,这样的函数叫高阶函数,常用的有 map reduce filter sort ...
分类:
编程语言 时间:
2018-07-28 18:24:34
阅读次数:
139
1.WritableComparable用途: WritableComparable可以相互比较,通常通过Comparators(比较器)进行比较。 在Hadoop Map-Reduce框架中用作键的任何类型都应该实现这个接口,因为要按键做排序; 2.WritableComparable和Writa ...
分类:
其他好文 时间:
2018-07-28 13:50:32
阅读次数:
128
上图是论文里给出的流程图。一切都是从最上方的userprogram开始的,userprogram链接了MapReduce库,实现了最基本的Map函数和Reduce函数。图中执行的顺序都用数字标记了。 1.MapReduce库先把userprogram的输入文件划分为M份(M为用户定义),每一份通常有16MB到64MB,如图左方所示分成了split0~4;然后使用fork将用户进程拷贝到集群内其它
分类:
其他好文 时间:
2018-07-25 11:35:12
阅读次数:
150
map 是遍历数组,并返回一个新数组. newArray : 4,5,6,7,8,9 reduce 是遍历数组,把所有元素组合到一起: sum : 21 filter 是遍历数组,根据条件筛选 得出一个新数组 newArray : 1,2,3 与我们之前用的数组方法仅仅返回一个新数组不同, sort ...
分类:
其他好文 时间:
2018-07-25 11:28:17
阅读次数:
132
理解Hadoop2.7.4集群搭建组件: HDFS 海量数据的分布式存储 Map-Reduce 海量数据的分布式计算框架 Yarn 海量数据的资源管理 两个集群 逻辑上分离,物理上常在一起 1、Hdfs 集群 三个角色:Namenode,Datanod,Secondnode 2、Yarn集群 两个 ...
分类:
其他好文 时间:
2018-07-24 17:35:29
阅读次数:
174
用通俗易懂的大白话讲解Map/Reduce原理 用通俗易懂的大白话讲解Map/Reduce原理 2014年03月31日 16:20:44 阅读数:150434 2014年03月31日 16:20:44 阅读数:150434 阅读数:150434 Hadoop简介Hadoop就是一个实现了Google ...
分类:
其他好文 时间:
2018-07-20 18:58:08
阅读次数:
156
lambda 为关键字。filter,map,reduce为内置函数。 lambda:实现python中单行最小函数。 Map函数 map()函数接收两个参数,一个是函数,一个是序列,map将传入的函数依次作用到序列的每个元素,并把结果作为新的list返回。 举例说明 :比如我们有一个函数f(x)= ...
分类:
编程语言 时间:
2018-07-19 21:25:20
阅读次数:
156