搜索关键字：mapreduce 0.x版本api使用，搜索到4054个结果！码迷,mamicode.com！

MapReduce: Simplified Data Processing on Large Clusters

MapReduce: Simplified Data Processing on Large Clusters MapReduce是什么？ a programming model and an associated implementation for processing and generati ...

分类：其他好文时间：2020-07-16 10:13:57 阅读次数：73

MapReduce之Shuffle详解

Hadoop原生的计算框架MapReduce，简单概括一下：进程量级很重，启动很慢，但能承载的数据量很大，效率相较于Spark微批处理和Flink实时来讲很慢，Shuffle任何一个写MR同学都必须掌握的东西，说难不难，说简单也不简单 MapReduce程序的五个阶段： input map shuf ...

分类：其他好文时间：2020-07-15 15:53:30 阅读次数：58

Hive入门

Hive是个啥？用类似sql语句实现对分布式存储系统的数据读写、管理功能。 HIVE特点 1.使用类sql语句分析大数据，避免MapReduce程序分析数据 2.数据存储在HDFS上，不是HIVE上 3.Hive将数据映射成数据库和一张张表，库和表的元数据信息一般存在关系型数据库。元数据：描述数 ...

分类：其他好文时间：2020-07-13 12:07:13 阅读次数：73

大数据学习2（MapReduce）

一，执行流程由图我们可以看到， MapReduce存在以下4个独立的实体。 JobClient：运行于client node，负责将MapReduce程序打成Jar包存储到HDFS，并把Jar包的路径提交到Jobtracker，由Jobtracker进行任务的分配和监控。 JobTracker：运 ...

分类：其他好文时间：2020-07-12 22:18:50 阅读次数：82

算法-02 | 分治| 回溯

算法的开章，递归是实现其他高级算法如深度优先、分治等的基础；碰到一个题目就找它的重复性，重复性有最近的重复性（根据重复性怎么构造怎么分解-->分治、回溯等办法，本质就是递归），或者最优重复性（即动态规划）。本质上就是找它的重复性。找重复性以及分解问题，最后组合每个子问题的结果。 1. 分治 D ...

分类：编程语言时间：2020-07-11 19:23:28 阅读次数：48

Hive

Hive数据仓库 Facebook由hive和Hadoop组建 hive由facebook开发的存储HDFS，查询MapReduce 优势解决了传统关系型数据库在大数据处理上的瓶颈。适合大数据批量处理充分利用集群的CPU计算资源，存储资源，实现并行计算 Hive支持标准的SQL语法，免去了编写 ...

分类：其他好文时间：2020-07-10 19:33:44 阅读次数：77

mapreduce参数记录

mapred-default.xml：版本参数位置参数名默认值说明 cdh5.0.1 mapred-default.xml mapred.reduce.tasks（mapreduce.job.reduces） 1 默认启动的reduce数。通过该参数可以手动修改reduce的个数 mapr ...

分类：其他好文时间：2020-07-10 15:35:12 阅读次数：74

MapReduce实验

承接上一篇，NoSQL实验 MapReduce实验如何在Eclipse中运行MapReduce程序，参考厦大数据库实验室博客总体代码： package org.apache.hadoop.examples; import java.io.IOException; import java.util ...

分类：其他好文时间：2020-07-09 15:08:03 阅读次数：127

PSO的MapReduce版

基于上一次运行成功查看输出文件没有结果的经历，这一次仔细理解了pso的MapReduce代码，发现自己之前的输入数据并不符合代码要求的格式，于是加以修改了。根据此代码，输入数据应该是如下字段：粒子编号、位置向量1、粒子速度1、个人最优位置1、全局最优位置1、位置向量2、粒子速度2、个人最优位置2 ...

分类：其他好文时间：2020-07-08 19:30:59 阅读次数：65

第一章：Hadoop基础介绍

Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。 HBase是一个开源的，基于列存储模型的分布式数据库 HDFS是一个分布式文件系统。有着高容错性的特点，并且设计用来部署在低廉的硬件上，适合那些有着超大数据集的应用程序 MapR ...

分类：其他好文时间：2020-07-06 15:47:59 阅读次数：67

共4054条上一页 1 ... 8 9 10 11 12 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)