一、词频统计: 读文本文件生成RDD lines lines=sc.textFile("file:///usr/local/spark/mycode/rdd/word.txt") lines.foreach(print) 将一行一行的文本分割成单词 words flatmap() words=lin ...
分类:
其他好文 时间:
2021-04-20 14:04:55
阅读次数:
0
解决问题-》有的放矢 1.spark 报错 Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient reso ...
分类:
其他好文 时间:
2021-04-19 15:56:23
阅读次数:
0
解决办法:apt-get update或者apt-get cleanapt-get update 或者 apt-get update --fix-missing问题解析1 source本身的问题 根据提示,我们首先应当 apt-get update 一下source,如果在apt-get updat ...
分类:
其他好文 时间:
2021-04-19 15:46:10
阅读次数:
0
Redis基础 NoSQL 学名(not only sql) 特点: 存储结构与MySQL这一种关系型数据库完全不同,NoSQL存储的是key-value形式的数据。 NoSQL有很多产品,都有自己的api和语法,以及业务场景。 产品种类: Mongodb Redis Hbase hadoop No ...
分类:
其他好文 时间:
2021-04-19 14:35:28
阅读次数:
0
hive提取字符串中域名的sql方法 需求如下: 想取如下字段里的访问的域名: "GET http://suo.im/4xhnBL HTTP/1.1" "CONNECT sapi.ads.544.com:443 HTTP/1.1" "GET http://100.110.1.52:8080/job/ ...
分类:
数据库 时间:
2021-04-14 12:16:48
阅读次数:
0
qcadoo选择中文之后,产品选项的汉化是失败的。 以及进入产品页面之后 首先在项目中找到产品选项的国际化(汉化)配置文件productFlowThruDivision_cn.properties 文件路径如下: mes\mes-plugins\mes-plugins-product-flow-th ...
分类:
其他好文 时间:
2021-04-14 11:54:57
阅读次数:
0
二、学生课程分数案例 总共有多少学生?map(), distinct(), count() 开设了多少门课程? 每个学生选修了多少门课?map(), countByKey() 每门课程有多少个学生选?map(), countByValue() Tom选修了几门课?每门课多少分?filter(), m ...
分类:
其他好文 时间:
2021-04-13 12:24:49
阅读次数:
0
HIVE 学习 LATERAL VIEW hive 虚拟表函数 explode split 数据拆分函数 说明 1.Lateral View 用于和UDTF函数【explode,split】结合来使用。 2.首先通过UDTF函数将数据拆分成多行,再将多行结果组合成一个支持别名的虚拟表。 3..主要解 ...
分类:
其他好文 时间:
2021-04-13 11:45:52
阅读次数:
0
一、大数据框架三种语义???? 在分布式系统中,如kafka、spark、flink等构成系统的任何节点都是被定义为可以彼此独立失败的。比如在 Kafka 中,broker 可能会 crash,在 producer 推送数据至 topic 的过程中也可能会遇到网络问题。根据 producer 处理此 ...
分类:
其他好文 时间:
2021-04-09 13:27:18
阅读次数:
0
一、词频统计: 1.读文本文件生成RDD lines 2.将一行一行的文本分割成单词 words flatmap() 3.全部转换为小写 lower() 4.去掉长度小于3的单词 filter() 5.去掉停用词 6.转换成键值对 map() 7.统计词频 reduceByKey() 二、学生课程分 ...
分类:
其他好文 时间:
2021-04-08 13:42:37
阅读次数:
0