码迷,mamicode.com
首页 >  
搜索关键字:hadoop大数据    ( 222个结果
【Hadoop大数据分析与挖掘实战】(三)----------P23~25
6.安装Hadoop 1)在Hadoop网站下,下载稳定版的并且已经编译好的二进制包,并解压缩。 2)设置环境变量: 3)修改配置文件(etc/hadoop/hadoop-env.sh),添加下面的命令(这里需要注意JAVA_HOME的设置需要根据自己机器的实际情况进行设置): 4) 修改配置文件( ...
分类:其他好文   时间:2017-02-05 13:55:21    阅读次数:162
【Hadoop大数据分析与挖掘实战】(一)----------P19~22
这是一本书的名字,叫做【Hadoop大数据分析与挖掘实战】,我从2017.1开始学习 软件版本为Centos6.4 64bit,VMware,Hadoop2.6.0,JDK1.7. 但是这本书的出版时间为2016.1,待到我2017.1使用时,一部分内容已经发生了翻天覆地的变化。 于是我开始写这么一... ...
分类:其他好文   时间:2017-01-20 22:03:02    阅读次数:313
Spark的函数式编程
Spark是近年来发展较快的分布式并行数据处理框架,了解和掌握spark对于学习大数据有着至关重要的意义。但是spark依赖于函数单元,它的函数编程过程是怎样的呢?我们怎么来应用呢?一、Spark的函数式编程Spark依赖于函数单元,函数是其编程的基本单元,只有输入输出,没有state..
分类:其他好文   时间:2017-01-19 20:18:00    阅读次数:241
在Impala 和Hive里进行数据分区(1)
进行数据分区将会极大的提高数据查询的效率,尤其是对于当下大数据的运用,是一门不可或缺的知识。那么数据怎么创建分区呢?数据怎样加载到分区呢?Impala/Hive按State分区Accounts(1)示例:accounts是非分区表通过以上方式创建的话,数据就存放在accounts目录里面。那么,如..
分类:其他好文   时间:2017-01-12 16:28:22    阅读次数:219
Hadoop中最不容错过的压缩知识
随着大数据时代的来临,数据体量越来越大,处理这些数据会越来越受到网络IO的限制,为了尽可能多的处理更多的数据我们必须使用压缩。那么压缩在Hadoop里面是不是所有格式都适用呢?它都有哪些性能呢?压缩在sqoop里面可以做,在hive和impala里面也可以做。那么什么情况下我们会..
分类:其他好文   时间:2017-01-12 03:32:35    阅读次数:287
精彩解密大数据之精绝古城
Avroschema作为大数据一个项目,它可以算得上精品中的上等品,让学习或者想要学习大数据的人为之倾倒,不断挖掘学习,那么它究竟有着怎样的神秘面纱呢?我们一起来揭开!为了理解Avro,首先要理解序列化。序列化是在内存里表述数据的一种方式,它是一连串的字节,可以保存数据..
分类:其他好文   时间:2017-01-10 10:23:04    阅读次数:226
Impala隐藏的惊天秘密
元数据作为大数据的源泉,有着非常重要的作用。可在Impala中却隐藏着一个秘密?和元数据有着颇深的渊源,我们一起来追溯!一、Impala体系结构(1)每个slave节点运行一个Impala进程,和HDFS的DataNode进程同时协作(2)两个其他的进程运行在master节点,用来支持查询执行1、Sta..
分类:其他好文   时间:2017-01-06 17:22:45    阅读次数:261
Sqoop新品来了
Sqoop尽管稳定的应用于生产环境很多年,但是它自身存在的一些缺陷给实际操作带来了不便。Sqoop2便成为了研究使用的对象,那么Sqoop2有什么优势呢?首先我们先来了解一下Sqoop的使用情况,使用Sqoop数据不会出现丢失,而且Sqoop功能强大,可以将数据导到HDFS,Hbase,Hive等各种..
分类:其他好文   时间:2016-12-26 19:17:33    阅读次数:129
为什么使用Hive和Impala
Impala与Hive都是构建在Hadoop之上的数据查询工具,但是各有不同侧重,那么我们为什么要同时使用这两个工具呢?单独使用Hive或者Impala不可以吗?一、介绍Impala和Hive(1)Impala和Hive都是提供对HDFS/Hbase数据进行SQL查询的工具,Hive会转换成MapReduce,借助于YARN进行调度..
分类:其他好文   时间:2016-12-20 21:26:06    阅读次数:282
Hadoop核心组件:四步通晓HDFS
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统,它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序,那么在实际应用中我们如何来操作使用呢?一、HDFS操作方式:1、命令行操作–FsShell:$hdfsdfs2、其他的计算框架-如spark?.
分类:其他好文   时间:2016-12-16 23:42:48    阅读次数:446
222条   上一页 1 ... 7 8 9 10 11 ... 23 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!