搜索关键字：mapreduce topk算法，搜索到4057个结果！码迷,mamicode.com！

mapreduce课上实验

今天我们课上做了一个关于数据清洗的实验，具体实验内容如下： 1.数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中； 2.数据处理： ·统计最受欢迎的视频/文章的Top10访问次数（video/article） ·按照地市统计最受欢迎的Top10课程（ip） ·按照流量统计最受欢迎 ...

分类：其他好文时间：2019-11-14 00:16:22 阅读次数：133

2017 级课堂测试试卷—数据清洗进度记录

数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中利用mapreduce完成将txt文件中数据存放在一个数组中，未成功连接hive数据库并存放在hive数据库中目前完成代码： package org.apache.hadoop.examples; import java.io.IO ...

分类：其他好文时间：2019-11-14 00:02:36 阅读次数：80

MapReduce数据清洗及Hive数据库操作

1、数据清洗：按照进行数据清洗，并将清洗后的数据导入hive数据库中。两阶段数据清洗：（1）第一阶段：把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章： article/11325 ...

分类：数据库时间：2019-11-14 00:02:19 阅读次数：222

数据清洗与数据处理

package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop ...

分类：其他好文时间：2019-11-13 22:12:52 阅读次数：117

MapReduce任务提交源码分析

为了测试MapReduce提交的详细流程。需要在提交这一步打上断点： F7进入方法：进入submit方法：注意这个connect方法，它在连接谁呢？我们知道，Driver是作为客户端存在的，那么客户端连接的应该就是Yarn集群，但是在这个简单的WordCount案例中，并没有将任务提交到Yarn ...

分类：其他好文时间：2019-11-13 22:01:42 阅读次数：85

关于MapReduce默认分区策略

MapReduce默认分区策略 mapreduce 默认的分区方式是hashPartition，在这种分区方式下，KV对根据key的hashcode值与reduceTask个数进行取模，决定该键值对该要访问哪个ReduceTask。以下就是Hadoop MapReduce中对于默认分区的源码 1. ...

分类：其他好文时间：2019-11-11 21:34:13 阅读次数：113

MapReduce单词统计

分类：其他好文时间：2019-11-10 21:05:40 阅读次数：93

5.3.1 sequenceFile读写文件、记录边界、同步点、压缩排序、格式

5.3.1 sequenceFile读写文件、记录边界、同步点、压缩排序、格式 HDFS和MapReduce是针对大文件优化的存储文本记录,不适合二进制类型的数据。SequenceFile作为小文件的容器，SequenceFile类型将小文件包装起来，可以获得更高效率的存储和处理。sequenceF ...

分类：编程语言时间：2019-11-08 09:24:43 阅读次数：101

MapReduce基本认识

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。主要由Split、Map、Partition、Sort、Combine（需要自己写）、Merge、Reduce组成，一般来说Split、Partition、Sort、Merge不需要工程师编程但是可以改写，主要是写出Map ...

分类：其他好文时间：2019-11-05 21:40:23 阅读次数：96

Hadoop系列（八）Hadoop三大核心之Yarn-资源调度初探

[Toc] 0. Yarn的来源 ? hadoop 1.x的时代，并没有Yarn，hadoop核心组件只有HDFS和MapReduce。到了hadoop2.x才有了Yarn的诞生，组件包含HDFS，MapReduce和Yarn。 ? 诞生原因：hadoop 1.x存在的最大问题就是资源管理问题。技术 ...

分类：其他好文时间：2019-11-04 15:11:45 阅读次数：135

共4057条上一页 1 ... 31 32 33 34 35 ... 406 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)