大数据

时间：2019-04-27 14:46:32 阅读：171 评论：0 收藏：0 [点我收藏+]

一、大数据　

　　大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。传统的数据处理技术已经无法胜任，需要催生新的技术。一套用来处理海量数据的软件工具应运而生，这就是大数据！

　　大数据=数据处理技术

　　大数据并行化处理数据，Google2004三篇论文（GFS、MapReduce、BigTable）(分而治之)， hadoop产生（Doug Cutting）

　　数据量到达一定程度的时候存储和计算就成了问题？需要用新的技术解决（Hadoop）
　　处理海量数据的核心技术：海量数据的存储：分布式海量数据的计算：分布式　　

二、大数据相关存储和计算成熟的框架

　　1.存储

　　　　HDFS-》分布式文件系统（hadoop的存储框架）
　　　　HBASE-》分布式数据库系统（对HDFS的二次封装）
　　　　KAFKA-》分布式消息缓存系统

　　2.计算框架

　　　　MAPREDUCE-》离线计算框架（hadoop的计算框架）
　　　　SPARK-》离线批处理/实时流式计算的计算框架 ->相当于MR的二次封装
　　　　STORM-》实时流式计算

　　3.辅助类框架技术

　　　　HIVE-》数据仓库工具
　　　　FLUME-》数据采集
　　　　SQOOP-》数据迁移

大数据

标签：定时 str pre 传统 big 分而治之大数 gfs 封装

原文地址：https://www.cnblogs.com/ljz133/p/10778673.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行