标签:定时 str pre 传统 big 分而治之 大数 gfs 封装
一、大数据
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 传统的数据处理技术已经无法胜任,需要催生新的技术。一套用来处理海量数据的软件工具应运而生,这就是大数据!
大数据=数据处理技术
大数据并行化处理数据,Google2004三篇论文(GFS、MapReduce、BigTable)(分而治之), hadoop产生(Doug Cutting)
数据量到达一定程度的时候存储和计算就成了问题?需要用新的技术解决(Hadoop)
处理海量数据的核心技术:海量数据的存储:分布式 海量数据的计算:分布式
二、大数据相关存储和计算成熟的框架
1.存储
HDFS-》分布式文件系统(hadoop的存储框架)
HBASE-》分布式数据库系统(对HDFS的二次封装)
KAFKA-》分布式消息缓存系统
2.计算框架
MAPREDUCE-》离线计算框架(hadoop的计算框架)
SPARK-》离线批处理/实时流式计算的计算框架 ->相当于MR的二次封装
STORM-》实时流式计算
3.辅助类框架技术
HIVE-》数据仓库工具
FLUME-》数据采集
SQOOP-》数据迁移
标签:定时 str pre 传统 big 分而治之 大数 gfs 封装
原文地址:https://www.cnblogs.com/ljz133/p/10778673.html