1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示: import org.apache.spark.SparkContext import org.apache.spark.sql ...
分类:
其他好文 时间:
2019-09-11 10:06:19
阅读次数:
126
一、RDD转DataFrame 方法一:通过 case class 创建 DataFrames 方法二:通过 structType创建 DataFrames 方法三:通过json创建 DataFream 二、RDD转DataFrame df.rdd ...
分类:
数据库 时间:
2019-09-08 20:38:30
阅读次数:
116
Spark SQL实战 1.1 数据说明 数据集是货品交易数据集。 每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价。 1.2 加载数据 tbStock: scala> case class tbStock(ordernumber:String,locationid:Str ...
分类:
其他好文 时间:
2019-09-06 21:16:24
阅读次数:
104
准备数据: 一、定义自定义无类型聚合函数 想要自定义无类型聚合函数,那必须得继承org.spark.sql.expressions.UserDefinedAggregateFunction,然后重写父类得抽象变量和成员方法。 二、使用自定义无类型聚合函数 输出结果: ...
分类:
数据库 时间:
2019-09-05 15:16:11
阅读次数:
100
一、简单聚合 1.1 数据准备 注:emp.json 可以从本仓库的 "resources" 目录下载。 1.2 count 1.3 countDistinct 1.4 approx_count_distinct 通常在使用大型数据集时,你可能关注的只是近似值而不是准确值,这时可以使用 approx ...
分类:
数据库 时间:
2019-08-14 09:29:19
阅读次数:
202
Spark GraphX图形数据分析 图(Graph)的基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构 图数据很好的表达了数据之间的关系 处理的是有向图 图的术语-4 出度:指从当前顶点指向其他顶点的边的数量 入度:其他顶点指向当前顶点的边的数量 图的 ...
分类:
其他好文 时间:
2019-08-11 01:19:11
阅读次数:
201
Spark SQL中出现 CROSS JOIN 问题解决 1、问题显示如下所示: Use the CROSS JOIN syntax to allow cartesian products between these relation 2、原因: Spark 2.x版本中默认不支持笛卡尔积操作 3、 ...
分类:
数据库 时间:
2019-08-09 13:22:49
阅读次数:
307
一、JSON数据源综合案例实战1、概述Spark SQL可以自动推断JSON文件的元数据,并且加载其数据,创建一个DataFrame。可以使用SQLContext.read.json()方法,针对一个元素类型为String的RDD,或者是一个JSON文件。但是要注意的是,这里使用的JSON文件与传统... ...
分类:
Web程序 时间:
2019-08-02 11:15:13
阅读次数:
120
一、自动分区推断1、概述表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源,支持自动根据目录名推断出分区信息。例如,如果将人口数据存储在分区表中,... ...
分类:
其他好文 时间:
2019-07-31 17:01:49
阅读次数:
138
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录: SparkSql 访问 hbase配置 测试验证 SparkSql 访问 hb ...
分类:
数据库 时间:
2019-07-29 00:15:25
阅读次数:
107