码迷,mamicode.com
首页 >  
搜索关键字:mapreduce topk算法    ( 4057个结果
MapReduce和Hive学习文档链接学习顺序
1、《CentOS6.5下安装Hadoop-2.7.3(图解教程)》 https://www.toutiao.com/i6627365258090512909/ 2、《CentOS6.5-Hadoop2.7.3安装hive-2.1.1》 https://www.toutiao.com/i662772 ...
分类:其他好文   时间:2020-02-02 14:10:28    阅读次数:109
爬取信件第二步简单清洗数据
继上次爬取完总体数据之后,这次我做的是将每个信件的网址使用MapReduce进行清洗出来,进而爬取出进一步的数据。 通过观察所得该网站根据不同的信件类型有不同的网址其对应关系如下: 咨询 com.web.consult.consultDetail.flow 建议 com.web.suggest.su ...
分类:其他好文   时间:2020-02-01 21:31:51    阅读次数:94
MapReduce面试题整理与收集
[Toc] 一、MapReduce基本常识 二、MapReduce要点 1、combiner的组件需要注意什么? 因为combiner在MapReduce过程中可能调用也可能不调用,可能调用一次也可能调用多次,无法确定和控制。 所以,combiner的使用原则是:有或没有都不能影响业务逻辑,是不是用 ...
分类:其他好文   时间:2020-02-01 16:01:53    阅读次数:95
hadoop之hadoop基础介绍
hadoop是什么? 是一个分布式基础架构,主要解决海量数据存储以及数据分析计算问题。 hadoop三大发行版本? Apache、clourdera、Hortonworks hadoop优势? 高可靠、高扩展、高效、高容错 hadoop1.x和2.x的区别? HDFS(hadoop distribu ...
分类:其他好文   时间:2020-01-30 14:29:07    阅读次数:79
Spark基础和RDD
spark 1. Spark的四大特性 1. 速度快 spark比mapreduce快的两个原因 1. 基于内存 2. 进程与线程 2. 易用性 1. 可以用java、scala、python、R等不同的语言来快速编写spark程序 3. 通用性 4. 兼容性 1. spark程序有多种运行模式 s ...
分类:其他好文   时间:2020-01-29 10:40:55    阅读次数:58
06hive企业调优
一.Fetch抓取 Fetch抓取是指,Hive 中对某些情况的查询可以不必使用MapReduce计算。 在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 mo ...
分类:其他好文   时间:2020-01-28 23:21:26    阅读次数:87
spark学习(四)spark基本原理及安装
MapReduce与spark MapReduce: 操作单一,只有map,reduce spark:提供多种操作:过滤,分组,排序.... (一)spark生态环境: Mesos和YARN都是资源调度管理器 HDFS:分布式系统存储组件 S3:亚马逊提供的云端的简单的存储服务 Tachyon:基于 ...
分类:其他好文   时间:2020-01-28 20:53:14    阅读次数:68
MapReduce计算框架
原理流程分析 Map端: 文件存储在HDFS中,每个文件切分成多个一定大小(默认128M)的Block(默认3个备份)存储在多个数据节点上,数据格定义以"\n"分割每条记录,以空格区分一个目标单词。 每读取一条记录,调用一次map函数,然后继续读取下一条记录直到split尾部。 map 输出的结果暂 ...
分类:其他好文   时间:2020-01-28 16:02:42    阅读次数:109
hadoop常用的调优参数
1)资源相关参数 (1)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则 ...
分类:其他好文   时间:2020-01-28 12:23:08    阅读次数:98
Spark学习之路 (五)Spark伪分布式安装[转]
JDK的安装 JDK使用root用户安装 上传安装包并解压 配置环境变量 验证Java版本 配置配置ssh localhost 检测 正常情况下,本机通过ssh连接自己也是需要输入密码的 生成私钥和公钥秘钥对 将公钥添加到authorized_keys 赋予authorized_keys文件600的 ...
分类:其他好文   时间:2020-01-26 19:25:35    阅读次数:94
4057条   上一页 1 ... 23 24 25 26 27 ... 406 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!