MapReduce与spark MapReduce: 操作单一,只有map,reduce spark:提供多种操作:过滤,分组,排序.... (一)spark生态环境: Mesos和YARN都是资源调度管理器 HDFS:分布式系统存储组件 S3:亚马逊提供的云端的简单的存储服务 Tachyon:基于 ...
分类:
其他好文 时间:
2020-01-28 20:53:14
阅读次数:
68
1)资源相关参数 (1)以下参数是在用户自己的mr应用程序中配置就可以生效(mapred-default.xml) 配置参数 参数说明 mapreduce.map.memory.mb 一个Map Task可使用的资源上限(单位:MB),默认为1024。如果Map Task实际使用的资源量超过该值,则 ...
分类:
其他好文 时间:
2020-01-28 12:23:08
阅读次数:
98
简介 Yet Another Resource Negotiator ,负责整个集群资源的调度,和管理,支持多框架资源统一调度(HIVE spark flink) 开启yarn 安装hadoop,可以看我之前的博文 这边就不讲了 编辑 etc/hadoop/mapred-site.xml: 添加如下 ...
分类:
其他好文 时间:
2020-01-17 13:08:54
阅读次数:
81
流式处理框架对比 Posted on 2017 07 05 23:36 天戈朱 阅读(9600) 评论(0) 编辑 收藏 分布式流处理是对无边界数据集进行连续不断的处理、聚合和分析的过程,与MapReduce一样是一种通用计算框 ...
分类:
其他好文 时间:
2020-01-07 20:08:49
阅读次数:
183
简介: 值得收藏,数据工程师必须掌握的7个大数据实战项目 原创: Lenis 有关SQL 1作为一名电影爱好者,我阅片无数,有些片子还经常翻来覆去看个好几遍。小时候因为这事儿,没少被我妈抓耳朵,“看过的片子为啥还要倒二遍?”我也说不上来,就是单纯的爱看。 男人爱看的电影,以武侠,动作,科技为多,也认 ...
分类:
其他好文 时间:
2020-01-06 14:22:20
阅读次数:
157
大数据实战开发系列,以实战为主,辅以一些基础知识,关于电信客服,在网上也有很多的资料,这里我自然会去参考网上的资料,程序的整体设计是在今天开始的,老夫尽量在本周末钱结束这个电信客服的程序编写。因为我也是一个学习者,所以在程序编写过程中难免会存在问题,有问题还请大家指出,有则改之,无则加勉。大家共同进 ...
分类:
移动开发 时间:
2019-12-25 11:36:23
阅读次数:
167
准备 1、hadoop已部署(若没有可以参考:Centos7安装Hadoop2.7),集群情况如下(IP地址与之前文章有变动): 2、官网下载安装包:spark-2.4.4-bin-hadoop2.7.tgz(推荐去清华大学或中科大的开源镜像站)。 3、spark将部署在三台都已存在的路径/myda ...
分类:
其他好文 时间:
2019-12-20 15:28:51
阅读次数:
130
1-请详细描述将一个有结构的文本文件student.txt导入到一个hive表中的步骤,及其关键字 假设student.txt 有以下几列:id,name,gender三列 1-创建数据库 create database student_info; 2-创建hive表 student create ...
分类:
数据库 时间:
2019-12-14 16:02:45
阅读次数:
141
Hive中的文件格式 1-TEXTFILE 文本格式,Hive的默认格式,数据不压缩,磁盘开销大、数据解析开销大。 对应的hive API为:org.apache.hadoop.mapred.TextInputFormat和org.apache.hive.ql.io.HiveIgnoreKeyTex ...
分类:
其他好文 时间:
2019-12-14 15:24:37
阅读次数:
160