标签:数据分布 reduce 包括 文件中 文件的 编写 存储系统 copy 磁盘
我们老板理解的大数据是,从数据到知识的转化。大数据目前的应用如 支付宝金融大数据、腾讯出行大数据等。
大数据的工作就是从海量数据源中筛选,梳理对自己有用的数据,整合成合适的数据结构,存储并进行可视化。
大数据目前的代表框架是Hadoop和spark
大数据涉及到的技包括数据分布式存储、数据分布式计算和数据可视化。
Hadoop包含两方面的知识:HDFS和MapReduce
一、HDFS是分布式文件存储系统,目的是将大文件分片存储,存储是大数据的基础。
HDFS存储系统的原理:HDFS会构建两个模块,nameNode和很多dataNode,模块之间的控制关系为主从模式,nameNode记录所有dataNode的元信息,负责存时指定读时查找相应的dataNode,dataNode专门负责存储数据,以64M为单位存储,备份3份,这样就实现了大文件的分布式存储,利用分布式解决一次性存储需要很大磁盘空间的问题。
HDFS如何使用:HDFS提供了一些接口,可以帮我们实现文件存取。
1.通过shell命令调用 如mkdir copyFromLocal ;
2.使用pathon读写,编写pathon代码,调用HDFS API实现读写。
二、MapReduce 是一个编程模型,是大数据应用的解决方案。
编程模型:将文件分片,对每个分片进行处理,将每个机器的处理结果进行汇总。
实现demo:读取某一个文件,将文件中的单词按照字符进行map输出,reduce方法进行字符出现次数的统计。
YARN概念:2.0之后的资源管理器,支持多种计算框架,模块包含ResourceManger、ApplicationMaster、NodeManger。
ResourceManger用于分配和调度资源,启动监控applicationMaster。
继续学习。。。。。。。。
标签:数据分布 reduce 包括 文件中 文件的 编写 存储系统 copy 磁盘
原文地址:https://www.cnblogs.com/blogNYGJ/p/10459773.html