搜索关键字：hadoop大数据，搜索到222个结果！码迷,mamicode.com！

【Hadoop大数据分析与挖掘实战】（三）----------P23~25

6.安装Hadoop 1）在Hadoop网站下，下载稳定版的并且已经编译好的二进制包，并解压缩。 2）设置环境变量： 3）修改配置文件（etc/hadoop/hadoop-env.sh），添加下面的命令（这里需要注意JAVA_HOME的设置需要根据自己机器的实际情况进行设置）： 4）修改配置文件（ ...

分类：其他好文时间：2017-02-05 13:55:21 阅读次数：162

【Hadoop大数据分析与挖掘实战】（一）----------P19~22

这是一本书的名字，叫做【Hadoop大数据分析与挖掘实战】，我从2017.1开始学习软件版本为Centos6.4 64bit，VMware，Hadoop2.6.0，JDK1.7. 但是这本书的出版时间为2016.1，待到我2017.1使用时，一部分内容已经发生了翻天覆地的变化。于是我开始写这么一... ...

分类：其他好文时间：2017-01-20 22:03:02 阅读次数：313

Spark的函数式编程

Spark是近年来发展较快的分布式并行数据处理框架，了解和掌握spark对于学习大数据有着至关重要的意义。但是spark依赖于函数单元，它的函数编程过程是怎样的呢？我们怎么来应用呢？一、Spark的函数式编程Spark依赖于函数单元，函数是其编程的基本单元，只有输入输出，没有state..

分类：其他好文时间：2017-01-19 20:18:00 阅读次数：241

在Impala 和Hive里进行数据分区（1）

进行数据分区将会极大的提高数据查询的效率，尤其是对于当下大数据的运用，是一门不可或缺的知识。那么数据怎么创建分区呢？数据怎样加载到分区呢？Impala/Hive按State分区Accounts（1）示例：accounts是非分区表通过以上方式创建的话，数据就存放在accounts目录里面。那么，如..

分类：其他好文时间：2017-01-12 16:28:22 阅读次数：219

Hadoop中最不容错过的压缩知识

随着大数据时代的来临，数据体量越来越大，处理这些数据会越来越受到网络IO的限制，为了尽可能多的处理更多的数据我们必须使用压缩。那么压缩在Hadoop里面是不是所有格式都适用呢？它都有哪些性能呢？压缩在sqoop里面可以做，在hive和impala里面也可以做。那么什么情况下我们会..

分类：其他好文时间：2017-01-12 03:32:35 阅读次数：287

精彩解密大数据之精绝古城

Avroschema作为大数据一个项目，它可以算得上精品中的上等品，让学习或者想要学习大数据的人为之倾倒，不断挖掘学习，那么它究竟有着怎样的神秘面纱呢？我们一起来揭开！为了理解Avro，首先要理解序列化。序列化是在内存里表述数据的一种方式，它是一连串的字节，可以保存数据..

分类：其他好文时间：2017-01-10 10:23:04 阅读次数：226

Impala隐藏的惊天秘密

元数据作为大数据的源泉，有着非常重要的作用。可在Impala中却隐藏着一个秘密？和元数据有着颇深的渊源，我们一起来追溯！一、Impala体系结构（1）每个slave节点运行一个Impala进程，和HDFS的DataNode进程同时协作（2）两个其他的进程运行在master节点，用来支持查询执行1、Sta..

分类：其他好文时间：2017-01-06 17:22:45 阅读次数：261

Sqoop新品来了

Sqoop尽管稳定的应用于生产环境很多年，但是它自身存在的一些缺陷给实际操作带来了不便。Sqoop2便成为了研究使用的对象，那么Sqoop2有什么优势呢？首先我们先来了解一下Sqoop的使用情况，使用Sqoop数据不会出现丢失，而且Sqoop功能强大，可以将数据导到HDFS，Hbase，Hive等各种..

分类：其他好文时间：2016-12-26 19:17:33 阅读次数：129

为什么使用Hive和Impala

Impala与Hive都是构建在Hadoop之上的数据查询工具，但是各有不同侧重，那么我们为什么要同时使用这两个工具呢？单独使用Hive或者Impala不可以吗？一、介绍Impala和Hive（1）Impala和Hive都是提供对HDFS/Hbase数据进行SQL查询的工具，Hive会转换成MapReduce，借助于YARN进行调度..

分类：其他好文时间：2016-12-20 21:26:06 阅读次数：282

Hadoop核心组件：四步通晓HDFS

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件上的分布式文件系统，它提供高吞吐量来访问应用程序的数据，适合那些有着超大数据集的应用程序，那么在实际应用中我们如何来操作使用呢？一、HDFS操作方式：1、命令行操作–FsShell：$hdfsdfs2、其他的计算框架-如spark?.

分类：其他好文时间：2016-12-16 23:42:48 阅读次数：446

共222条上一页 1 ... 7 8 9 10 11 ... 23 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)