码迷,mamicode.com
首页 > 其他好文 > 详细

大数据2-Hadoop伪分布式+ZK+HDFS

时间:2018-04-01 21:53:56      阅读:140      评论:0      收藏:0      [点我收藏+]

标签:问题:   storage   解决   post   常见   font   存储   海量数据   大数据   

大数据解决四大核心问题:

  1. 数据的存储(Big Data Storage),海量数据需要处理和分析,但前提是要进行有效的存储。Hadoop的诞生突破了传统数据文件系统的单机模式。HDFS使得数据可以跨越不同的机器与设备,并且用一个路径去管理不同平台上的数据。

  2. 数据的计算(Data Calculation),在数据有效存储的基础上,对数据的统计和分析本质上就是数据的计算。在大数据领域常见的计算工具有MapReduceSpark等。

  3. 数据的查询(Consensus Data),对大数据进行有效管理的核心指标是数据查询技术。其中NoSQL (Not Only SQL)应用较为广泛,能较有效解决数据的随机查询,其中就主要包括Hbase等。从本质而言,依旧是Hadoop模式下的数据查询。

  4. 数据的挖掘(Data mining),Hive数据仓库为数据的挖掘提供了基础,通过分类、预测、相关性分析来建立模型进行模式识别、机器学习从而构建专家系统。

大数据2-Hadoop伪分布式+ZK+HDFS

标签:问题:   storage   解决   post   常见   font   存储   海量数据   大数据   

原文地址:https://www.cnblogs.com/xiangyuqi/p/8688202.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!