Hadoop发展到今天家族产品已经非常丰富,能够满足不同场景的大数据处理需求。作为目前主流的大数据处理技术,市场上很多公司的大数据业务都是基于Hadoop开展,而且对很多场景已经具有非常成熟的解决方案。作为开发人员掌握Hadoop及其生态内框架的开发技术,就是进入大数据领域的必经之路。下面详细介绍一下,学习Hadoop开发技术的路线图。Hadoop本身是用java开发的,所以对java的支持性非常
分类:
其他好文 时间:
2018-07-24 23:49:04
阅读次数:
235
广义上来说,Hadoop大数据平台也可以看做是新一代的数据仓库系统, 它也具有很多现代数据仓库的特征,也被企业所广泛使用。因为MPP架构的可扩展性,基于MPP的数据仓库系统有时候也被划分到大数据平台类产品。 但是数据仓库和Hadoop平台还是有很多显著的不同。针对不同的使用场景其发挥的作用和给用户带 ...
分类:
其他好文 时间:
2018-07-07 20:54:38
阅读次数:
173
大数据是做什么的?大数据–随着计算机技术的发展,互联网的普及,信息的积累已经到了一个非常庞大的地步,信息的增长也在丌断的加快,随着互联网、物联网建设的加快,信息更是爆炸是增长,收集、检索、统计这些信息越发困难,必须使用新的技术来解决这些问题什么是大数据?大数据的定义–大数据由巨型数据集组成,这些数据集大小常超出人类在可接受时间下的收集、庋用、管理和处理能力。?大数据能做什么?–把数据集合幵后进行分
分类:
系统相关 时间:
2018-07-07 20:25:01
阅读次数:
189
现在已经名满天下的 Apache Kylin,是 Hadoop 大数据生态系统不可或缺的一部分,要知道在 Kylin 项目早期,可是以华人为主的开源团队,一路披荆斩棘经过几年的奋斗,才在 Apache 基金会牢牢的巩固了自己的位置。作为本土第一个进入到世界顶级基金会的项目,Kylin 的经验是值得大 ...
分类:
其他好文 时间:
2018-07-07 12:31:45
阅读次数:
224
1.概述 大数据时代,数据的存储与挖掘至关重要。企业在追求高可用性、高扩展性及高容错性的大数据处理平台的同时还希望能够降低成本,而Hadoop为实现这些需求提供了解决方案。面对Hadoop的普及和学习热潮,笔者愿意分享自己多年的开发经验,带领读者比较轻松地掌握Hadoop数据挖掘的相关知识。这边是笔 ...
分类:
其他好文 时间:
2018-06-22 21:49:11
阅读次数:
706
课程链接:Hadoop大数据平台架构与实践--基础篇 1.MapReduce原理 分而治之,一个大任务分成多个小的子任务(map),并行执行后,合并结果(reduce) 问题1:1000副扑克牌少哪一张牌(去掉大小王) 问题2:100GB的网站访问日志文件,找出访问次数最多的IP地址 ...
分类:
其他好文 时间:
2018-06-21 22:31:29
阅读次数:
202
最近IDC上架了一批hadoop大数据业务服务器,由于集群环境需要在这些服务器之间实现ssh无密码登录的相互信任关系。具体的实现思路:在其中的任一台服务器上通过"ssh-keygen -t rsa"产生公私钥文件,然后将公钥文件拷贝成authorized_keys文件,最后将它的.ssh目录下的文件 ...
分类:
其他好文 时间:
2018-05-20 18:05:19
阅读次数:
217
HBase表数据分页处理 HBase是Hadoop大数据生态技术圈中的一项关键技术,是一种用于分布式存储大数据的列式数据库,关于HBase更加详细的介绍和技术细节,朋友们可以在网络上进行搜寻,笔者本人在接下来的日子里也会写一个HBase方面的技术专题,有兴趣的朋友们可以稍微的期待一下。不过本章节的重 ...
分类:
其他好文 时间:
2018-05-07 16:13:35
阅读次数:
183