1、《CentOS6.5下安装Hadoop-2.7.3(图解教程)》 https://www.toutiao.com/i6627365258090512909/ 2、《CentOS6.5-Hadoop2.7.3安装hive-2.1.1》 https://www.toutiao.com/i662772 ...
分类:
其他好文 时间:
2020-02-02 14:10:28
阅读次数:
109
继上次爬取完总体数据之后,这次我做的是将每个信件的网址使用MapReduce进行清洗出来,进而爬取出进一步的数据。 通过观察所得该网站根据不同的信件类型有不同的网址其对应关系如下: 咨询 com.web.consult.consultDetail.flow 建议 com.web.suggest.su ...
分类:
其他好文 时间:
2020-02-01 21:31:51
阅读次数:
94
[Toc] 一、MapReduce基本常识 二、MapReduce要点 1、combiner的组件需要注意什么? 因为combiner在MapReduce过程中可能调用也可能不调用,可能调用一次也可能调用多次,无法确定和控制。 所以,combiner的使用原则是:有或没有都不能影响业务逻辑,是不是用 ...
分类:
其他好文 时间:
2020-02-01 16:01:53
阅读次数:
95
hadoop是什么? 是一个分布式基础架构,主要解决海量数据存储以及数据分析计算问题。 hadoop三大发行版本? Apache、clourdera、Hortonworks hadoop优势? 高可靠、高扩展、高效、高容错 hadoop1.x和2.x的区别? HDFS(hadoop distribu ...
分类:
其他好文 时间:
2020-01-30 14:29:07
阅读次数:
79
spark 1. Spark的四大特性 1. 速度快 spark比mapreduce快的两个原因 1. 基于内存 2. 进程与线程 2. 易用性 1. 可以用java、scala、python、R等不同的语言来快速编写spark程序 3. 通用性 4. 兼容性 1. spark程序有多种运行模式 s ...
分类:
其他好文 时间:
2020-01-29 10:40:55
阅读次数:
58
一.Fetch抓取 Fetch抓取是指,Hive 中对某些情况的查询可以不必使用MapReduce计算。 在 hive-default.xml.template 文件中 hive.fetch.task.conversion 默认是 more,老版本 hive默认是 minimal,该属性修改为 mo ...
分类:
其他好文 时间:
2020-01-28 23:21:26
阅读次数:
87
MapReduce与spark MapReduce: 操作单一,只有map,reduce spark:提供多种操作:过滤,分组,排序.... (一)spark生态环境: Mesos和YARN都是资源调度管理器 HDFS:分布式系统存储组件 S3:亚马逊提供的云端的简单的存储服务 Tachyon:基于 ...
分类:
其他好文 时间:
2020-01-28 20:53:14
阅读次数:
68
原理流程分析 Map端: 文件存储在HDFS中,每个文件切分成多个一定大小(默认128M)的Block(默认3个备份)存储在多个数据节点上,数据格定义以"\n"分割每条记录,以空格区分一个目标单词。 每读取一条记录,调用一次map函数,然后继续读取下一条记录直到split尾部。 map 输出的结果暂 ...
分类:
其他好文 时间:
2020-01-28 16:02:42
阅读次数:
109
1)资源相关参数 (1)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则 ...
分类:
其他好文 时间:
2020-01-28 12:23:08
阅读次数:
98
JDK的安装 JDK使用root用户安装 上传安装包并解压 配置环境变量 验证Java版本 配置配置ssh localhost 检测 正常情况下,本机通过ssh连接自己也是需要输入密码的 生成私钥和公钥秘钥对 将公钥添加到authorized_keys 赋予authorized_keys文件600的 ...
分类:
其他好文 时间:
2020-01-26 19:25:35
阅读次数:
94