1. 准备文本文件: 从文件创建RDD lines=sc.textFile(): 筛选出含某个单词的行 lines.filter(),lambda 参数:条件表达式: 2. 生成单词的列表: 从列表创建RDD words=sc.parallelize(): 筛选出长度大于2 的单词 words.fi ...
分类:
其他好文 时间:
2021-06-07 20:04:33
阅读次数:
0
读学生课程分数文件chapter4-data01.txt,创建DataFrame。 一、用DataFrame的操作完成以下数据分析要求 每个分数+5分。 总共有多少学生? 总共开设了哪些课程? 每个学生选修了多少门课? 每门课程有多少个学生选? 每门课程大于95分的学生人数? Tom选修了几门课?每 ...
分类:
数据库 时间:
2021-06-07 19:58:41
阅读次数:
0
1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars 3.启动 Mysql ...
分类:
数据库 时间:
2021-06-06 19:08:48
阅读次数:
0
1.pandas df 与 spark df的相互转换 df_s=spark.createDataFrame(df_p) df_p=df_s.toPandas() 2. Spark与Pandas中DataFrame对比 http://www.lining0806.com/spark%E4%B8%8E ...
分类:
其他好文 时间:
2021-06-06 19:08:07
阅读次数:
0
1.Spark SQL出现的 原因是什么? Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作Data Frame的编程抽象结构数据模型(即带有Schema信息的RDD),Spark SQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrame API和Data ...
分类:
数据库 时间:
2021-06-06 19:05:46
阅读次数:
0
在计算机性能调试领域里,profiling 是指对应用程序的画像,画像就是应用程序使用 CPU 和内存的情况。 Go性能优化 CPU profile:报告程序的 CPU 使用情况,按照一定频率去采集应用程序在 CPU 和寄存器上面的数据 Memory Profile(Heap Profile):报告 ...
分类:
其他好文 时间:
2021-06-06 18:58:59
阅读次数:
0
Flink 1.12.1 java.lang.NoClassDefFoundError: org/apache/flink/streaming/api/functions/source/SourceFunction 错误信息描述 使用Idea运行项目,抛出以下异常 java.lang.NoClass ...
分类:
其他好文 时间:
2021-06-06 18:47:58
阅读次数:
0
1:查看防火状态 systemctl status firewalld service iptables status 2:暂时关闭防火墙 systemctl stop firewalld service iptables stop 3:永久关闭防火墙 systemctl disable firew ...
分类:
系统相关 时间:
2021-06-05 17:51:23
阅读次数:
0
linux防火墙使用以及配置 Centos 7 firewall : 1、firewalld的基本使用 启动: systemctl start firewalld 关闭: systemctl stop firewalld 查看状态: systemctl status firewalld 开机禁用 : ...
分类:
系统相关 时间:
2021-06-04 19:47:34
阅读次数:
0
停止服务:sudo /usr/sbin/apachectl stop 开启服务:sudo /usr/sbin/apachectl start 重启服务:sudo /usr/sbin/apachectl restart 设置Apache容器默认目录(不会命令行的朋友可以参考下面的常用命令) 1.Apa ...
分类:
Web程序 时间:
2021-06-02 20:19:08
阅读次数:
0