码迷,mamicode.com
首页 >  
搜索关键字:hadoop生态圈    ( 121个结果
01_HBase概述
1. HBase在Hadoop生态圈中的位置 问题:HBase 是什么,用在哪里,解决什么样的问题? 解答: 1)简单来说, HBase 是一种类似于面向列的分布式数据库(集群), 底层利用HDFS 来作为其物理存储(但在特殊情况下也可以使用节点本机的文件系统), 存储稀疏数据;同时借助zookee ...
分类:其他好文   时间:2017-11-11 11:44:41    阅读次数:252
大数据Hadoop生态圈:Pig和Hive
前言 Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一点和FaceBook开源的Hive一 ...
分类:其他好文   时间:2017-11-05 15:08:00    阅读次数:161
一文教你看懂大数据的技术生态圈:Hadoop,hive,spark
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作 ...
分类:其他好文   时间:2017-10-25 19:44:42    阅读次数:163
2017年10月24日制定的3个月的学习目标与计划!!!!!
目标是第二年能得到8K以上的待遇。 要求熟练使用Hadoop生态圈技术(hive,hbase,spark,impala,sqoop,scala/python/shell,kafka,flume,gobblin,hdfs,zookeeper),然后是能树仓,精通sql的调优,会算法。 不会的有点多哈。 ...
分类:其他好文   时间:2017-10-24 17:21:39    阅读次数:209
大数据:Hive - ORC 文件存储格式
一、ORC File文件结构 ORC的全称是(Optimized Row Columnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自Apache Hive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个 ...
分类:其他好文   时间:2017-10-16 19:43:52    阅读次数:402
大数据hadoop生态圈
大数据本身是个很宽泛的概念,Hadoop生态圈(或者泛生态圈)基本上都是为了处理超过单机尺度的数据处理而诞生的。你可以把它比作一个厨房所以需要的各种工具。锅碗瓢盆,各有各的用处,互相之间又有重合。你可以用汤锅直接当碗吃饭喝汤,你可以用小刀或者刨子去皮。但是每个工具有自己的特性,虽然奇怪的组合也能工作 ...
分类:其他好文   时间:2017-09-12 19:44:46    阅读次数:157
初始Strom学习
1、背景-流式计算与storm 2011年在海量数据处理领域,Hadoop是人们津津乐道的技术,hadoop不仅可以用来存储海量数据,还以用来计算海量数据。因为其高吞吐、高可靠等特点,很多互联网公司都已经使用Hadoop来构建数据仓库,高频使用并促进了Hadoop生态圈的各项技术的发展。一般来讲,根 ...
分类:其他好文   时间:2017-08-30 15:49:18    阅读次数:206
HADOOP生态圈以及各组成部分的简介
重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架Hive:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具Hbase:基于Hadoop的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件Mahout:基于mapreduce/Spark/flink等分布式运算框架的机器学习算法库Ooz..
分类:其他好文   时间:2017-07-26 21:53:45    阅读次数:180
hadoop生态圈的详解
学习和使用hadoop有一年了,这里主要分享一下对hadoop整体上的理解,分门别类的介绍一下相关组件,最后提供了建议的学习路线,希望对hadoop的初学者有参考作用。1.Hadoop核心件组有哪些?广义hadoop指什么?核心组件有:Hdfs、Yarn、MapReduce;广义上指一个生态圈,泛指大数据技..
分类:其他好文   时间:2017-06-26 10:09:18    阅读次数:701
Apache Hadoop 和Hadoop生态圈
Apache Hadoop 和Hadoop生态圈 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。 用户能够在不了解分布式底层细节的情况下。开发分布式程序。充分利用集群的威力进行快速运算和存储。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File  ...
分类:Web程序   时间:2017-05-24 18:27:56    阅读次数:239
121条   上一页 1 ... 3 4 5 6 7 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!