码迷,mamicode.com
首页 >  
搜索关键字:hadoop生态圈    ( 121个结果
大数据之hiveSQL
最近增加了学习java基础算法,包括几种排序算法,二叉树(前序,后序,中序),队列和栈,bmp搜索,广义搜索算法,迭代等等一些技巧(自己动手绝对比单纯的理论要强的多,多练练) HIVE是hadoop生态圈的重要一环,降低了hadoop的开发难度,将复杂冗余的代码综合成一个个简单的SQL语句。但是,很 ...
分类:数据库   时间:2018-08-13 21:22:50    阅读次数:237
网易大数据之数据存储:HDFS
一、HDFS基础架构 1、HDFS特点:水平扩展、高容错性、廉价硬件、开源生态系统 2、Hadoop生态圈 1)、分布式存储系统(HDFS),2)、资源管理框架(YARN),3)、批处理框架(MapReduce、Pig),4)、数据仓库(Hive),5)、NoSQL系统(HBase、Drill),6 ...
分类:其他好文   时间:2018-08-09 13:58:35    阅读次数:454
大数据学习---Hadoop的深入学习
Hadoop生态圈 存储数据HDFS(Hadoop Distributed File System),运行在通用硬件上的分布式文件系统。具有高度容错性、高吞吐量的的特点。 处理数据MapReduce,它是一种编程模型,Map(映射)和Reduce(归约),它极大地方便了分布式并行编程,与hdfs的高 ...
分类:其他好文   时间:2018-07-22 17:09:14    阅读次数:179
[Hive]-列式存储篇
1. ORC是什么 ORC,全称 Optimized Row Columnar.是Hadoop生态圈的列式存储概念,最早由Hive提出.\ 在Hive的ORC,首先依然是根据行组分割整个表,但是在每个行组中,按列存储.ORC文件是自描述的,它的元数据使用Protocol Buffers进行序列化,并 ...
分类:其他好文   时间:2018-06-03 17:32:02    阅读次数:1536
大数据入门基础系列之初步认识大数据生态系统圈(博主推荐)
之前在微信公众平台里写过 大数据入门基础系列之初步认识hadoop生态系统圈 http://mp.weixin.qq.com/s/KE09U5AbFnEdwht44FGrOA 大数据入门基础系列之初步认识大数据生态系统圈 1.概述 最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈 ...
分类:其他好文   时间:2018-05-31 14:50:26    阅读次数:226
ambari
参考博客: https://www.unixhot.com/article/46 使用ambari 快速部署hadoop 集群 Ambari是 Apache Software Foundation 中的一个顶级项目。Ambari可以创建、管理、监控 Hadoop 的集群。包括整个Hadoop生态圈( ...
分类:其他好文   时间:2018-05-18 17:12:58    阅读次数:277
Parquet存储格式 - 论文翻译【转】
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Mapreduce、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera合作开 ...
分类:其他好文   时间:2018-05-17 11:58:34    阅读次数:192
Kudu:支持快速分析的新型Hadoop存储系统
本文由 网易云 发布。 Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incuba ng),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。 背景——功能上的空白 H ...
分类:其他好文   时间:2018-05-09 16:50:55    阅读次数:166
Kudu,支持快速分析的新型Hadoop存储系统
Kudu是Cloudera开源的新型列式存储系统,是Apache Hadoop生态圈的新成员之一(incubating),专门为了对快速变化的数据进行快速的分析,填补了以往Hadoop存储层的空缺。本文主要对Kudu的动机、背景,以及架构进行简单介绍。 背景——功能上的空白 Hadoop生态系统有很 ...
分类:其他好文   时间:2018-02-11 12:31:56    阅读次数:168
Parquet 格式文件
Apache Parquet是Hadoop生态圈中一种新型列式存储格式,它可以兼容Hadoop生态圈中大多数计算框架(Hadoop、Spark等),被多种查询引擎支持(Hive、Impala、Drill等),并且它是语言和平台无关的。Parquet最初是由Twitter和Cloudera(由于Imp... ...
分类:其他好文   时间:2018-01-16 13:54:34    阅读次数:241
121条   上一页 1 2 3 4 5 6 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!