码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
Hadoop系列(七)Hadoop三大核心之MapReduce-程序编写
[Toc] 接下来以一个简单的WordCount为例子,介绍Java版本的MapReduce的程序编写。 mapreduce程序主要分三部分:1.map部分,2.reduce部分,3.提交部分。 1. 准备部分 hadoop中,针对数据类型自成一体,与java的数据类型对应。封装在hadoop.io ...
分类:其他好文   时间:2019-10-15 20:43:33    阅读次数:91
阿里巴巴高级技术专家章剑锋:大数据发展的 8 个要点
笔者从 2008 年开始工作到现在也有 11 个年头了,一路走来都在和数据打交道,做过大数据底层框架内核的开发(Hadoop,Pig,Tez,Spark,Livy),也做过上层大数据应用开发(写 MapReduce Job 做 ETL ,用 Hive 做 Ad hocquery,用 Tableau ...
分类:其他好文   时间:2019-10-14 12:15:22    阅读次数:95
Apache Oozie
1. Apache Oozie Oozie是一个工作流调度系统。Oozie是运行于Java Servlet容器上的一个java web应用。Oozie是按照有向无权图(DAG)调度方式,使用xml文件配置工作流。最初是由Cloudear公司开发,后来贡献给Apache a. apache Oozie ...
分类:Web程序   时间:2019-10-13 10:50:32    阅读次数:111
[转帖]hive与hbase的联系与区别:
hive与hbase的联系与区别:共同点:1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储。 他们的底层是要通过mapreduce分布式计算的,hbase、hive、pig底层都是这样的。但整体来说hadoop还是比较快的,因为它是进行海量数据存储和分布式计算,这 ...
分类:其他好文   时间:2019-10-10 22:26:21    阅读次数:132
MapReduce与Yarn 的详细工作流程分析
MapReduce详细工作流程之Map阶段 如上图所示 1. 首先有一个200M的待处理文件 2. 切片:在客户端提交之前,根据参数配置,进行任务规划,将文件按128M每块进行切片 3. 提交:提交可以提交到本地工作环境或者Yarn工作环境,本地只需要提交切片信息和xml配置文件,Yarn环境还需要 ...
分类:其他好文   时间:2019-10-08 21:48:32    阅读次数:129
hive--构建于hadoop之上、让你像写SQL一样编写MapReduce程序
hive介绍 什么是hive? hive:由Facebook开源用于解决 的数据统计 hive是基于hadoop的一个 ,可以将 ,并提供 查询功能。本质就是 我们使用MapReduce开发会很麻烦,但是程序员很熟悉sql,于是hive就出现了,可以让我们像写sql一样来编写MapReduce程序, ...
分类:数据库   时间:2019-10-07 23:15:16    阅读次数:130
【hadoop】MapReduce分布式计算框架原理
PS:实操部分就省略了哈,准备最近好好看下理论这块,其实我是比较懒得哈!!! <?>MapReduce的概述 MapReduce是一种计算模型,进行大数据量的离线计算。MapReduce实现了Map和Reduce两个功能:其中Map是滴数据集上的独立元素进行指定的操作,生成键——值对形式中间结果。其 ...
分类:其他好文   时间:2019-10-07 00:50:10    阅读次数:157
大数据采集、清洗、处理:使用MapReduce进行离线数据分析完整案例
大数据处理目前比较流行的是两种方法,一种是离线处理,一种是在线处理,基本处理架构如下: ...
分类:其他好文   时间:2019-10-06 16:48:10    阅读次数:114
hadoop--大数据最基础、最重要的组件
hadoop是什么? hadoop是一个由Apache基金会所开发的分布式系统基础架构,hdfs分布式文件存储、MapReduce并行计算。主要是用来解决海量数据的存储和海量数据的分析计算问题,这是狭义上的hadoop。广义上来讲,hadoop通常指的是一个更广泛的概念 hadoop生态圈 hado ...
分类:其他好文   时间:2019-10-05 20:12:34    阅读次数:220
大数据--sqoop数据导入导出
1、在MySQL中创建表student 2、在MySQL中创建表student4 3、在hive中创建表student3 hive (default)> create table student3(id int,name string,sex string) > row format delimit ...
分类:其他好文   时间:2019-10-05 18:40:42    阅读次数:108
4057条   上一页 1 ... 35 36 37 38 39 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!