码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
Hadoop架构及集群
摘要:Hadoop是一个由Apache基金会所开发的分布式基础架构,Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算,特点是:高可靠性,高扩展性,高效性,高容错性。l ...
分类:其他好文   时间:2020-02-13 10:12:16    阅读次数:64
3.1
基础概述 Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十 ...
分类:其他好文   时间:2020-02-12 22:01:50    阅读次数:67
Hadoop基本概念
一:Hadoop基本概念 一个分布式系统基础架构,由Apache基金会所开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。 充分利用集群的威力进行高速运算和存储。 Hadoop的框架最核心的设计就是:HDFS和MapReduce 二:Hadoop解决问题 1.海量数据的存储(HDFS) ...
分类:其他好文   时间:2020-02-12 13:07:41    阅读次数:128
(02)Hadoop环境的搭建(伪分布模式)
一、安装hadoop 1、将文件解压到/usr/local [root@localhost src]# tar -zxvf hadoop-2.4.1.tar.gz -C /usr/local/ 2、配置环境变量 [root@localhost src]# vim /etc/profile 增加以下配 ...
分类:其他好文   时间:2020-02-10 13:55:50    阅读次数:75
MapReduce编程实战(2)-词频统计结果存入mysql数据库
摘要 通过实现MapReduce计算结果保存到MySql数据库过程,掌握多种方式保存计算结果的技术,加深了对MapReduce的理解; Api 文档地址:http://hadoop.apache.org/docs/current/api/index.html maven资源库:https://mvn ...
分类:数据库   时间:2020-02-09 23:58:39    阅读次数:155
RDD
弹性分布式数据集(RDD,Resilient Distributed Datasets),它具备像MapReduce等数据流模型的容错特性,并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效:一是迭代式算法,这在图应用和机器学习领域很常见;二是交互式数据挖掘工具 ...
分类:其他好文   时间:2020-02-09 23:55:54    阅读次数:139
Hadoop2.0之YARN组件
官方文档:https://hadoop.apache.org/docs/stable/,目前官方已经是3.x,但yarn机制没有太大变化 一、简介 在Hadoop1.0中,没有yarn,所有的任务调度和资源管理都是MapReduce自己来做,所以在Hadoop1.0中,最核心的节点是JobTrack ...
分类:其他好文   时间:2020-02-07 16:24:04    阅读次数:62
运行MapReduce任务
1:运行MapReduce任务 1:原始数据准备 统计用户的登录次数: 源数据login_log.txt如下: 7whygb5m@linshiyouxiang.net nuahvuhuoia@qq.com uashkufawuk@163.com wafwqfqw@gmail.com iuhukawh ...
分类:其他好文   时间:2020-02-07 01:22:05    阅读次数:64
【2020/2/2】寒假自学——学习进度报告9
因为想要通过hive作为数据库来保存爬取后和处理完成的数据,需要添加spark的hive支持,这方面还没编译完,所以今天暂时没有这方面的进度,所以写写SparkSteaming。 数据的价值随着时间的流逝而减少 这也正是MapReduce的使用范围所产生的的极大弊端,没法应对大流量的实时数据,MR这 ...
分类:其他好文   时间:2020-02-02 21:59:34    阅读次数:95
寒假 2
2020.2.2今天的寒假生活学习了了解Spark 内存计算框架.Hadoop使用数据复制来实现容错性,而Spark使用RDD数据存储模型来实现数据的容错性。 了解了 hadoop框架 中的 HDFS(分布式文件系统) Mapreduce(分布式计算框架) map函数 Reduce (函数) YAR ...
分类:其他好文   时间:2020-02-02 21:55:13    阅读次数:73
4057条   上一页 1 ... 22 23 24 25 26 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!