scala代码: package offline import org.apache.spark.ml.feature.{HashingTF, IDF} import org.apache.spark.ml.linalg.Vectors import org.apache.spark.sql.Spa ...
分类:
其他好文 时间:
2020-04-23 21:27:31
阅读次数:
67
Spark SQL原理解析前言: "Spark SQL源码剖析(一)SQL解析框架Catalyst流程概述" 这一次要开始真正介绍Spark解析SQL的流程,首先是从Sql Parse阶段开始,简单点说,这个阶段就是使用Antlr4,将一条Sql语句解析成语法树。 可能有童鞋没接触过antlr4这个 ...
分类:
数据库 时间:
2020-04-23 20:59:04
阅读次数:
93
背景在Spark 1.* 版本中不支持Hive Perment Function的加载,使用起来不是很方便;在Spark 2.* 版本中通过HiveExternalCatalog 中的HiveClient 来直接和hive metaStore交互,轻松实现Hive Perment Function的 ...
分类:
其他好文 时间:
2020-04-23 15:06:34
阅读次数:
64
一、流 动态产生无穷多的数据,末尾元素遵循lazy规则 object StreamDemo { //生成流的方法 def numStream(n: BigInt): Stream[BigInt] = n #:: numStream(n + 1) def main(args: Array[String ...
分类:
其他好文 时间:
2020-04-23 11:50:31
阅读次数:
68
//练习sparkstreaming监听socket端口 //手写wordcount java代码 package com.swust.streaming; import org.apache.spark.SparkConf; import org.apache.spark.api.java.Jav ...
分类:
其他好文 时间:
2020-04-23 11:49:08
阅读次数:
59
spark实现UserCF package cf import breeze.numerics.{pow, sqrt} import org.apache.spark.sql.SparkSession object UserCF { def main(args: Array[String]): Un ...
分类:
其他好文 时间:
2020-04-23 01:08:59
阅读次数:
146
Summary 在获取 a 标签中的 href 值得时候,发现可以获取到相对地址,但是使用 abs:href 的是返回结果是空的。 查看文档发现,Jsoup.parse 的第二个参数可以传入 baseURL,我们在这里获取即可。 Demo Scala 代码 val urlList = Jsoup.p... ...
分类:
Web程序 时间:
2020-04-22 20:19:26
阅读次数:
310
参考:https://www.jianshu.com/p/69bff3c7ec97 Scala的集合类可以从三个维度进行切分: 可变与不可变集合(Immutable and mutable collections) 静态与延迟加载集合 (Eager and delayed evaluation ) ...
分类:
其他好文 时间:
2020-04-22 16:18:11
阅读次数:
63
升级之Spark升级 在CDH5.12.1集群中,默认安装的Spark是1.6版本,这里需要将其升级为Spark2.1版本。经查阅官方文档,发现Spark1.6和2.x是可以并行安装的,也就是说可以不用删除默认的1.6版本,可以直接安装2.x版本,它们各自用的端口也是不一样的。 Cloudera发布 ...
分类:
其他好文 时间:
2020-04-22 13:33:45
阅读次数:
98
import java.sql.{DriverManager, PreparedStatement} import java.time.LocalDateTime import java.time.format.DateTimeFormatter import org.apache.spark.rd ...
分类:
数据库 时间:
2020-04-22 10:24:45
阅读次数:
83