搜索关键字：mapreduce topk算法，搜索到4057个结果！码迷,mamicode.com！

java mapreduce实现网站PV分析

原文链接： https://www.toutiao.com/i6765677128022229517/ PV 是Page Views的缩写，即页面浏览量，用户每一次对网站中的每个网页访问均被记录一次。注意，访客每刷新一次页面，pv就增加一次。我们目前的数据是：其中的数据我们会得到标注根据标注我 ...

分类：编程语言时间：2020-03-20 00:55:17 阅读次数：88

Java实现单词统计

原文链接： https://www.toutiao.com/i6764296608705151496/ 单词统计的是统计一个文件中单词出现的次数，比如下面的数据源其中,最终出现的次数结果应该是下面的显示那么在MapReduce中该如何编写代码并出现最终结果？首先我们把文件上传到HDFS中(hd ...

分类：编程语言时间：2020-03-20 00:51:35 阅读次数：96

mapreduce实现数据去重

原文链接： https://www.toutiao.com/i6764933201203823107/ 概念：“数据去重”主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。数据去重的最终目标是让原始数据 ...

分类：其他好文时间：2020-03-20 00:27:36 阅读次数：75

MapReduce_input阶段

Input阶段将数据节点上的数据进行反序列化，然后划分切片。数据切片：（1）一个job的map阶段并行度由客户端在提交job时的切片数决定（2）每个切片分配一个MapTask并行实例处理（3）默认情况下，切片的大小等于BlockSize，也就是数据块大小 ...

分类：其他好文时间：2020-03-18 13:37:49 阅读次数：85

Linux-Bigdata

总结一下大数据开发基本常识： JDK（做java开发必备的开发工具包） Hadoop（Apache开发的分布式系统的基础框架）三大组件：MapReduce，Yarn，Hdfs Sqoop（数据迁移，清洗） Kettle（数据清洗，格式转换） Hive（基于Hadoop的数据仓库，并不是数据库，需要安 ...

分类：系统相关时间：2020-03-15 22:17:01 阅读次数：90

HBase与MapReduce集成

感觉效率不是很高，是否能用sqoop来解决HBase与其他文件系统的数据导入导出。通过HBase的相关JavaApi，我们可以实现伴随HBase操作的MapReduce过程，比如使用MapReduce将数据从本地文件导入HBase的表中，或我们从HBase的表中读取一些原始数据用于MapReduc ...

分类：其他好文时间：2020-03-14 14:51:51 阅读次数：51

Hadoop优化

MapReduce程序瓶颈计算机性能 CPU、内存、磁盘、网络 I/O操作优化数据倾斜 Map和Reduce数设置不合理 Map运行时间太长，导致Reduce等待过久小文件过多大量的不可分块的超大文件 spill次数过多 merge次数过多 MapReduce优化方法主要从六个方面考虑：数 ...

分类：其他好文时间：2020-03-14 11:21:18 阅读次数：53

大数据第三课-WordCount 本地运行和集群运行

一、MapReduce编程思想 mapReduce编程模型的总结： MapReduce的开发一共有八个步骤其中map阶段分为2个步骤，shuffle阶段4个步骤，reduce阶段分为2个步骤 Map阶段2个步骤第一步：设置inputFormat类，将我们的数据切分成key，value对，输入到第二 ...

分类：其他好文时间：2020-03-13 19:11:00 阅读次数：60

sparksql 概述

什么是Spark SQL？ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapRe ...

分类：数据库时间：2020-03-11 10:46:14 阅读次数：68

【论文总结】mapreduce

[TOC] "MapReduce" 1. "1、MapReduce" 1. "1、介绍" 1. "2、编程模型" 1. "3、实现" 1. "4、容错机制" 1. "5、技巧" 1. "6、思考" MapReduce 本文只对论文中对分布式设计的相关算法做总结交流 1、介绍 MapReduce是谷歌 ...

分类：其他好文时间：2020-03-11 10:40:01 阅读次数：51

共4057条上一页 1 ... 18 19 20 21 22 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)