码迷,mamicode.com
首页 > 其他好文 > 详细

大数据

时间:2018-06-04 22:36:09      阅读:150      评论:0      收藏:0      [点我收藏+]

标签:预测   pre   实例   架构   datanode   hadoop   node   基础   red   

大数据的定义

1. 大数据是一门以Hadoop为代表的开源大数据平台框架上进行各种数据分析的技术。

2. 具体说,大数据平台基础框架包括了Hadoop和Spark为代表的基础大数据框架。

3. 具体说,各种数据分析技术包括实事数据处理技术、离线处理技术;数据分析、数据挖掘和用机器算法进行预测分析等技术。

理论知识
1、大数据的相关概念及行业生态
2、Hadoop的基础原理及其架构

应用知识
实战:HDFS实际操作(通过shell命令/Python程序)
实战:MapReduce程序开发实例

课程目标
1、掌握Hadoop框架的基础原理及使用方式
2、掌握基于Hadoop框架进行数据处理与分析的应用程序的开发

预备知识
1、Linux常用命令
2、有一定的Python或者的程序基础
3、对Hadoop有一定的了解,可以搭建自己的测试环境

Hadoop是什么?
1、Hadoop是一个开源的大数据框架
2、Hadoop是一个分布式计算的解决方案
3、Hadoop=HDFS(分布式文件系统)+MapReduce(分布式计算)

Hadoop核心
1、HDFS分布式文件系统:存储是大数据技术的基础
2、MapReduce编程模型:分布式计算是大数据应用的解决方案

举例
1、从一个100M文件中过滤出含有Hadoop字符串的行
解决方案一:Linux grep命令
解决方案二:编写Java/Python程序
2、从一个100T/100P的文件中过滤出含有Hadoop字符串的行?

HDFS总结:
1、普通的成百上千的机器
2、按TB甚至PB为单位的大量的数据
3、简单便捷的文件获取

Hadoop基础架构:
HDFS概念(数据块、NameNode、DataNode)
数据块:数据块是抽象块而非整个文件作为存储单元,默认大小为64M
一般设置为128M,备份X3
(存储10M文件使用一个数据块,存储300M文件使用3个数据块)
NameNode(主):1、管理文件系统的命名空间,存放文件元数据;
2、维护着文件系统的所有文件和目录,文件与数据块的映射
3、记录每个文件中各个块所在数据节点的信息
DataNode(从):1、存储并检索数据块
2、向NameNode更新所存储块的列表

HDFS优点:
1、适合大文件存储,支持TB、PB级的数据存储,并有副本策略
2、可以构建在廉价的机器上,并有一定的容错和恢复机制
3、支持流式数据访问,一次写入,多次读取最高效。

HDFS缺点:
1、不适合大量小文件存储
2、不适合并发写入,不支持文件随机修改
3、不支持随机读等低延迟的访问方式

大数据

标签:预测   pre   实例   架构   datanode   hadoop   node   基础   red   

原文地址:https://www.cnblogs.com/arrowchen/p/9135705.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!