HDFS:分布式文件系统,运行文件通过网络在多台主机分享的文件系统,分块写入(128M),适用于一次写入多次查询,不支持并发写(只能一块一块写),小文件不合适。 nameNode(主节点,单个): 保存HDFS的元数据信息(命名空间信息、文件系统的目录树、文件和block关系即文件对应block列表 ...
分类:
其他好文 时间:
2018-09-12 11:12:26
阅读次数:
151
大规模结构化集群存储数据库。Table中的所有行都按照row key的字典序排列。 主键:row Key。访问行只能通过rowKey访问(范围或者准确值),或者全表扫描; 列族:cloumn family。hbase表中的每个列,都归属与某个列族。列族是表的schema的一部分(而列不是),必须在使 ...
分类:
其他好文 时间:
2018-09-12 11:09:48
阅读次数:
172
1、Shuffle [从mapTask到reduceTask: Mapper -> Partitioner ->Combiner -> Sort ->Reducer] mapper对job任务进行键值对构建并写入环形内存缓冲区[缓冲区满了,map停止直到全写入磁盘],大小100MB(io.sort. ...
分类:
其他好文 时间:
2018-09-12 11:07:18
阅读次数:
239
相关详细说明:https://www.csdn.net/article/2015-07-10/2825184 RDD:弹性分布式数据集。 Operation:Transformation 和Action,一个返回RDD,一个返回值。 Lineage:RDD之间的依赖关系,如何演变过来。 Partit ...
分类:
其他好文 时间:
2018-09-12 11:03:18
阅读次数:
124
一、学习大数据需要的基础 java SE,EE(SSM) 90%的大数据框架都是java写的 MySQL SQL on Hadoop Linux
分类:
其他好文 时间:
2018-06-20 14:36:34
阅读次数:
187
大数据的定义 1. 大数据是一门以Hadoop为代表的开源大数据平台框架上进行各种数据分析的技术。 2. 具体说,大数据平台基础框架包括了Hadoop和Spark为代表的基础大数据框架。 3. 具体说,各种数据分析技术包括实事数据处理技术、离线处理技术;数据分析、数据挖掘和用机器算法进行预测分析等技 ...
分类:
其他好文 时间:
2018-06-04 22:36:09
阅读次数:
150
Spark是由Scala编写的。Spark作为一款十分易用高效的大数据框架使用越来越广泛,Scala也随之有更多的人去学习。 语言相通,相信有python、java基础的程序员学习Scala并没有太大的难度。但是Scala程序中奇奇怪怪的操作符却让人十分挠头。 Scala的教程大多都是从变量定义、函 ...
分类:
其他好文 时间:
2018-05-04 11:45:51
阅读次数:
135
openstack是一个开源的云计算框架,而Hadoop是一个开源的大数据框架,二者的侧重点不同。区别:云计算是在云平台上提供存储和计算资源。而以Hadoop为模型的大数据是提供了一种分布式的存储(HDFS)和计算模型(Map/Reduce),可以自己使用多台计算机搭建Hadoop平台,也可以在一台计算机上通过虚拟机搭建Hadoop平台,甚至可以在云平台上搭建Hadoop平台。
分类:
其他好文 时间:
2018-04-24 17:39:49
阅读次数:
152
1、Linux系统目录 1、Linux系统目录 / : 根目录 /bin : 命令, 在Linux下 执行文件, 就相当于Windows下的 exe 执行文件 扩展: 大数据框架 - 软件 - 安装/将压缩包进行解压 - bin 文件夹 /sbin : 管理命令,ROOT用户使用的 扩展: 大数据框 ...
分类:
系统相关 时间:
2018-01-09 14:36:40
阅读次数:
162