标签:类别 处理 datanode 本地存储 统计 线程 汇总 通过 等等
主要功能:
1、存储:HDFS
2、分析/运算:Mapreduce
3、调度:YARN
存储:
hdfs分布式文件存储系统,是nosql数据库,每台节点服务器都是hdfs的部分,大数据平均分布在每个节点上,并且是以文件存储的形式,每个节点上存储的部分数据有通过块来进行数据文件的分片,形成数据块,每个数据块又在其他的节点服务器上存有备份,因此不会因为一个节点的宕机影响真个大数据,
分析运算:
Map:当需要提取大数据文件的时候,大数据分布在不用datanode,namenode制定去哪些datanode服务器读取数据,每个被分派制定要执行任务的datanode服务器就会启动一个或者map进程/线程,每个map进程会去读取本地节点的hdfs文件系统中对应的大数据在本地存储的一个块文件,进行分类,汇总,生成类似字典的结果,这样,本地节点需要读取的部分大数据形成的结果在内存中存储为字典形式的数据就会很小,占用不了多少内存,可能只有几十kb或者几兆
Reduce:reduce是另外一台服务器上的进程或者线程,当其他map节点将处理好的数据结果通过RPC或者其他网络连接的方式将数据传到本机器的时候,reduce就会对所有map发来的数据进行统计或者分类,而且本机启动多少个reduce可以根据业务需要扩展,如果只是统计数据的总和,只需要启动一个reduce,如果还需要对数据进行分类,可以启动多个reduce,每个reduce分别负责处理单一类别数据的汇总和统计
YARN:yarn负责调度各个datanode的map和reduce等等,
标签:类别 处理 datanode 本地存储 统计 线程 汇总 通过 等等
原文地址:https://www.cnblogs.com/daemon-czk/p/10663209.html