一、前提条件 1、3台虚拟机,java1.8环境配置,hadoop-2.7.7集群搭建(参见https://www.cnblogs.com/yangy1/p/12362565.html,以及https://www.cnblogs.com/yangy1/p/12367462.html中的横向扩容) 2 ...
分类:
其他好文 时间:
2020-04-17 00:28:41
阅读次数:
83
hadoop+spark集群搭建 本次实验环境:两台hadoop+两台spark组成集群 环境准备: 1. 两个主机实现ssh无密钥认证,包括本机与本机的免密钥认证: ssh-keygren :生成一对密钥 ssh-copy-id : 把公钥发给对方服务器 2. 集群间需实现时间同步:... ...
分类:
其他好文 时间:
2020-02-23 18:34:33
阅读次数:
90
今天想记录下如何在windows环境下远程提交代码到spark集群上面运行。 spark集群搭建环境使Linux系统,但说实在,Linux系统因为是虚拟机的缘故运行IDE并不是很舒服,想要对python进行舒适的编程操作还不是一件容易事,所以今天记录下如何在Windows下进行spark编程。 首先 ...
分类:
其他好文 时间:
2020-01-27 23:46:50
阅读次数:
81
视频目录: Spark入门| 01 Spark概念架构 Spark入门| 02 Spark集群搭建 Spark入门| 03 Spark Shell算子操作 Spark入门| 04 Spark单词计数Shell操作 Spark入门| 05 IDEA中编写Spark单词计数程序 Spark入门| 06 ...
分类:
其他好文 时间:
2019-09-29 22:07:48
阅读次数:
127
环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark-1.6 组建方案:master:PCS101,slave:PCS102、PCS103 搭建方式一: ...
分类:
其他好文 时间:
2019-04-02 18:30:19
阅读次数:
156
创建spark用户组,组ID1000groupadd-g1000spark在spark用户组下创建用户ID2000的spark用户获取视频中文档资料及完整视频的伙伴请加QQ群:947967114useradd-u2000-gsparkspark设置密码passwdspark修改sudo权限chmodu+w/etc/sudoersvi/etc/sudoers找到rootALL=(ALL)ALL添加s
分类:
其他好文 时间:
2018-12-02 00:41:21
阅读次数:
198
Spark是一个基于内存的计算框架,本文主要是介绍Spark的独立部署。 ...
分类:
其他好文 时间:
2018-11-14 14:30:38
阅读次数:
206
Apache Spark 一个很快多用途的集群计算系统。提供了很多语言API :Java, Scala, Python and R,还支持很多高级的工具,包括Spark SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX 用于图形处理和Spark Streaming. 总的说:Sp ...
分类:
其他好文 时间:
2018-06-27 18:52:36
阅读次数:
229
最近在做一个人群标签的项目,也就是根据客户的一些交易行为自动给客户打标签,而这些标签更有利于我们做商品推荐,目前打上标签的数据已达5亿+, 用户量大概1亿+,项目需求就是根据各种组合条件寻找标签和人群信息。 举个例子: 集合A: ( 购买过“牙膏“的人交易金额在10-500元并且交易次数在5次的客户 ...
分类:
其他好文 时间:
2018-05-29 17:11:15
阅读次数:
277
export JAVA_HOME=/usr/java/jdk1.8.0_11 export SPARK_MASTER_IP=hadoop1 export SPARK_MASTER_HOST=hadoop1 export SPARK_MASTER_PORT=7077 export SPARK_WORK ...
分类:
其他好文 时间:
2018-04-11 18:08:49
阅读次数:
133