码迷,mamicode.com
首页 > 其他好文 > 详细

大数据

时间:2019-04-27 14:46:32      阅读:171      评论:0      收藏:0      [点我收藏+]

标签:定时   str   pre   传统   big   分而治之   大数   gfs   封装   

一、大数据 

  大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 传统的数据处理技术已经无法胜任,需要催生新的技术。一套用来处理海量数据的软件工具应运而生,这就是大数据!

  大数据=数据处理技术

  大数据并行化处理数据,Google2004三篇论文(GFS、MapReduce、BigTable)(分而治之), hadoop产生(Doug Cutting)

  数据量到达一定程度的时候存储和计算就成了问题?需要用新的技术解决(Hadoop)
  处理海量数据的核心技术:海量数据的存储:分布式      海量数据的计算:分布式  

二、大数据相关存储和计算成熟的框架

  1.存储

    HDFS-》分布式文件系统(hadoop的存储框架)
    HBASE-》分布式数据库系统(对HDFS的二次封装)
    KAFKA-》分布式消息缓存系统 

  2.计算框架

    MAPREDUCE-》离线计算框架(hadoop的计算框架)
    SPARK-》离线批处理/实时流式计算的计算框架 ->相当于MR的二次封装
    STORM-》实时流式计算    

  3.辅助类框架技术

    HIVE-》数据仓库工具
    FLUME-》数据采集
    SQOOP-》数据迁移  

 

大数据

标签:定时   str   pre   传统   big   分而治之   大数   gfs   封装   

原文地址:https://www.cnblogs.com/ljz133/p/10778673.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!