搜索关键字：mapreduce，搜索到4054个结果！码迷,mamicode.com！

Hadoop-2.2.0中文文档——MapReduce 下一代 -——集群配置

目的这份文档描写叙述了怎样安装、配置和管理从几个节点到有数千个节点的Hadoop集群。玩的话，你可能想先在单机上安装。(看单节点配置)。准备从Apache镜像上下载一个Hadoop的稳定版本号。安装安装一个Hadoop集群，一般包含分发软件到全部集群中的机器上或者是安装RPMs。一般地，集群中的一台...

分类：其他好文时间：2014-06-19 00:19:50 阅读次数：372

使用 Apache Pig 处理数据5

使用 Apache Pig 从大数据集中获得所需的信息Apache Pig 是一个高级过程语言，适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询，Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言，并在...

分类：其他好文时间：2014-06-18 23:59:12 阅读次数：305

使用 Apache Pig 处理数据7

Mapreduce 模式中的 Pig对于 MapReduce 模式，必须首先确保 Hadoop 正在运行。要做到这一点，最简单的方法是在 Hadoop 文件系统树的根上执行文件列表操作，如清单 3 所示。清单 3. 测试 Hadoop 可用性$ hadoop dfs -ls /Found 3 it...

分类：其他好文时间：2014-06-18 22:46:01 阅读次数：490

MapReduce求最大值最小值问题

import java.io.File;import java.io.IOException; import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop....

分类：其他好文时间：2014-06-18 20:12:01 阅读次数：254

Hadoop入门进阶步步高（五）-搭建Hadoop集群

五、搭建Hadoop集群上面的步骤，确认了单机可以执行Hadoop的伪分布执行，真正的分布式执行无非也就是多几台slave机器而已，配置方面的有一点点区别，配置起来就非常简单了。1、准备三台服务器192.168.56.101192.168.56.102192.168.56.103在每台机器的/etc/hosts中都将ip及hostname给映射上：192.168.56.101 nginx1192...

分类：其他好文时间：2014-06-16 23:18:41 阅读次数：499

Hadoop入门进阶步步高（一）-环境准备

前言Hadoop从存储上来说，是类似于冗余磁盘阵列(RAID)的存储方式，将数据分散存储并提供以提供吞吐量，它的存储系统就是HDFS（Hadoop Distuibute Fils System）；从计算上来说，它通过MapReduce模型，将大数据的计算分发到多台计算机上完成，再将结果合并，减少计算的时间。Hadoop适合于：1、超大数据的计算；2、一次写入、多次读取的模式；3、可以跑在普通的硬件...

分类：其他好文时间：2014-06-16 22:58:13 阅读次数：250

MapReduce----K-均值聚类算法

K-均值聚类算法的MapReduce实现理解...

分类：其他好文时间：2014-06-16 22:04:50 阅读次数：207

Hadoop入门进阶步步高（三）-配置Hadoop

三、配置Hadoop1、设置$HADOOP_HOME/conf/hadoop-env.sh这个文件中设置的是Hadoop运行时需要的环境变量，在1.2.1版中共有19个环境变量，如下：变量名称默认值说明JAVA_HOME 设置JDK的路径，这个必须设置，否则Hadoop无法启动，值如：/usr/local/jdk1.6.0_33HADOOP_CLASSPATH空这个用以设置用户的类路径，也可以在...

分类：其他好文时间：2014-06-16 19:59:35 阅读次数：380

Impala与Hive的比较

1. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具，Impala没有再使用缓慢的Hive+MapReduce批处理，而是通过使用与商用并行关系数据库中类似的分布式查询引擎（由Query Planner、Query Coordinator和Query Exec Engine三部分组成），可以直接从HDFS...

分类：其他好文时间：2014-06-16 14:42:11 阅读次数：251

hadoop数据去重

"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1.1 实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据。样例输入如下.....

分类：其他好文时间：2014-06-16 13:22:07 阅读次数：309

共4054条上一页 1 ... 393 394 395 396 397 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)