码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop权威指南学习笔记一

时间:2014-12-16 11:44:32      阅读:189      评论:0      收藏:0      [点我收藏+]

标签:blog   http   使用   sp   文件   数据   log   bs   ad   

Hadoop权威指南学习笔记一

声明:本文是本人基于Hadoop权威指南学习的一些个人理解和笔记,仅供学习参考,有什么不到之处还望指出,一起学习一起进步。

 转载请注明:http://blog.csdn.net/my_acm

1、

数据的增长远远超过了磁盘的读取速度,传统的数据存储方式和分析方式变得不再适用于大数据的处理。

Hadoop分为两大核心技术,HDFS(HadoopDistributed File System-分布式hadoop文件处理系统)和MapReduce(分为Map-数据映射等,Reduce-数据合并等)。

基于HDFS的分布式文件系统,数据可以分布在一个很广的不同的范围内(当然也可以是集中式的数据)进行并行处理分析,而处理分析的能力则用MapReduce算法进行分析。也因为这种分布式的系统,是的其能在不是很高性能的机器上运行,所以成本并不高。

2、

为什么传统的RDBMS不能适应大数据处理呢?

首先来看看下面的一张表格:

bubuko.com,布布扣

         更重要的是MapRuduce和关系型数据库之间它们处理的数据集的结构化数据的数量。

所谓结构化数据就是拥有准确定义的实体化数据,符合某种预定义模式。而通常的半结构化数据和非结构化数据则不能在RDBMS上很好的处理,相反MapRduce的却能很好的处理这些非结构化数据。

当然随着时间的推移RDBMS(借鉴MapReduce的思想)和MapReduce之间的区别可能会越来越模糊。

基于MapReduce的两个重要高级查询语言Pig和Hive。

3、

         Hadoop是DougCutting——Apache Lueene创始人——开发的使用广泛的文本搜索库。虽然Hadoop最出名的事MapReduce和HDFS但是它还有其他一些配套服务。

bubuko.com,布布扣

bubuko.com,布布扣

Hadoop权威指南学习笔记一

标签:blog   http   使用   sp   文件   数据   log   bs   ad   

原文地址:http://blog.csdn.net/my_acm/article/details/41957943

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!