1.大数据的概述
大数据:巨量数据、海量数据,首先在数据的量上达到一定的规模,首先是人或者计算机在不合理时间内是不能够实现的数据量。
2.特点:数据量比较大,数据类型多样化、处理速度问题
3.大数据平台分为硬件和软件
4.hadoop出现:数据的不断加大,单机的计算机无法在硬盘、网络IO,计算机的CPU,内存存储上是无法达到的情况下出现的一种处理方式。
5.hadoop是Apache基金会所开发的分布式的基本跨架,可以在不了解分布式的情况下开发分布式的程序,充分的利用集群的高速运算和存储。
6.解决的问题:大数据存储大,数据分析是hadoop的两大核心,HDFS和mapreduce
7.HDFS:可扩展、容错、高性能的分布式文件管理文件系统,异步开发一次开发多次使用,主要用于存储。
8.mapreduce为分布式的计算框架,主要包含map和reduce过程复杂对HDFS中的数据进行计算。
9.hadoop的优点:高可靠性、高性能、高扩展性、高效性、容错性、低成本。
HDFS
1.hdfs是一个分布式的文件系统,可以进行创建、删除、移动、重命名文件或者文件夹与linux的文件系统类似。
2.它由多个节点组成:nameNode(一个)、DataNode(多个)
nameNode :只有一个,用于nebula提供元数据的服务,
secondary Namenode:名称节点,帮助节点用与整合和恢复
DataNode:他为hdfs提供真正的存储。
注意:在hadoop中nameNode只有一个,在hadoop2.X之后,有了很大的改善
3.存储文档在HDFS中。被分割成块,然后这些块以流的方式复制到各个节点,存储在不同的机架上,默认块的大小是128MB,备份的数目,这是可以用客户设置的。内部使用网络通信
4.NameNode通过在HDFS机架中单独机架上运行,负责文件系统的客户端请求。