最近增加了学习java基础算法,包括几种排序算法,二叉树(前序,后序,中序),队列和栈,bmp搜索,广义搜索算法,迭代等等一些技巧(自己动手绝对比单纯的理论要强的多,多练练) HIVE是hadoop生态圈的重要一环,降低了hadoop的开发难度,将复杂冗余的代码综合成一个个简单的SQL语句。但是,很 ...
分类:
数据库 时间:
2018-08-13 21:22:50
阅读次数:
237
一、HDFS基础架构 1、HDFS特点:水平扩展、高容错性、廉价硬件、开源生态系统 2、Hadoop生态圈 1)、分布式存储系统(HDFS),2)、资源管理框架(YARN),3)、批处理框架(MapReduce、Pig),4)、数据仓库(Hive),5)、NoSQL系统(HBase、Drill),6 ...
分类:
其他好文 时间:
2018-08-09 13:58:35
阅读次数:
454
Hadoop生态圈 存储数据HDFS(Hadoop Distributed File System),运行在通用硬件上的分布式文件系统。具有高度容错性、高吞吐量的的特点。 处理数据MapReduce,它是一种编程模型,Map(映射)和Reduce(归约),它极大地方便了分布式并行编程,与hdfs的高 ...
分类:
其他好文 时间:
2018-07-22 17:09:14
阅读次数:
179
1. ORC是什么 ORC,全称 Optimized Row Columnar.是Hadoop生态圈的列式存储概念,最早由Hive提出.\ 在Hive的ORC,首先依然是根据行组分割整个表,但是在每个行组中,按列存储.ORC文件是自描述的,它的元数据使用Protocol Buffers进行序列化,并 ...
分类:
其他好文 时间:
2018-06-03 17:32:02
阅读次数:
1536
之前在微信公众平台里写过 大数据入门基础系列之初步认识hadoop生态系统圈 http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA 大数据入门基础系列之初步认识大数据生态系统圈 1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈 ...
分类:
其他好文 时间:
2018-05-31 14:50:26
阅读次数:
226
参考博客: https://www.unixhot.com/article/46 使用ambari 快速部署hadoop 集群 Ambari是 Apache Software Foundation 中的一个顶级项目。Ambari可以创建、管理、监控 Hadoop 的集群。包括整个Hadoop生态圈( ...
分类:
其他好文 时间:
2018-05-18 17:12:58
阅读次数:
277
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Mapreduce、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera合作开 ...
分类:
其他好文 时间:
2018-05-17 11:58:34
阅读次数:
192
本文由 网易云 发布。 Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incuba ng),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。 背景——功能上的空白 H ...
分类:
其他好文 时间:
2018-05-09 16:50:55
阅读次数:
166
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。 背景——功能上的空白 Hadoop生态系统有很 ...
分类:
其他好文 时间:
2018-02-11 12:31:56
阅读次数:
168
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera(由于Imp... ...
分类:
其他好文 时间:
2018-01-16 13:54:34
阅读次数:
241