码迷,mamicode.com
首页 >  
搜索关键字:spark-sql    ( 532个结果
Structured Streaming 实战案例 读取Scoker
1.1.1.读取Socket数据 ●准备工作 nc -lk 9999 hadoop spark sqoop hadoop spark hive hadoop ●代码演示: import org.apache.spark.SparkContext import org.apache.spark.sql ...
分类:其他好文   时间:2019-09-11 10:06:19    阅读次数:126
spark sql 之 RDD与DataFrame互相转化
一、RDD转DataFrame 方法一:通过 case class 创建 DataFrames 方法二:通过 structType创建 DataFrames 方法三:通过json创建 DataFream 二、RDD转DataFrame df.rdd ...
分类:数据库   时间:2019-09-08 20:38:30    阅读次数:116
大数据实训第7天
Spark SQL实战 1.1 数据说明 数据集是货品交易数据集。 每个订单可能包含多个货品,每个订单可以产生多次交易,不同的货品有不同的单价。 1.2 加载数据 tbStock: scala> case class tbStock(ordernumber:String,locationid:Str ...
分类:其他好文   时间:2019-09-06 21:16:24    阅读次数:104
SparkSQL自定义无类型聚合函数
准备数据: 一、定义自定义无类型聚合函数 想要自定义无类型聚合函数,那必须得继承org.spark.sql.expressions.UserDefinedAggregateFunction,然后重写父类得抽象变量和成员方法。 二、使用自定义无类型聚合函数 输出结果: ...
分类:数据库   时间:2019-09-05 15:16:11    阅读次数:100
Spark 系列(十一)—— Spark SQL 聚合函数 Aggregations
一、简单聚合 1.1 数据准备 注:emp.json 可以从本仓库的 "resources" 目录下载。 1.2 count 1.3 countDistinct 1.4 approx_count_distinct 通常在使用大型数据集时,你可能关注的只是近似值而不是准确值,这时可以使用 approx ...
分类:数据库   时间:2019-08-14 09:29:19    阅读次数:202
Spark GraphX图形数据分析
Spark GraphX图形数据分析 图(Graph)的基本概念 图是由顶点集合(vertex)及顶点间的关系集合(边edge)组成的一种网状数据结构 图数据很好的表达了数据之间的关系 处理的是有向图 图的术语-4 出度:指从当前顶点指向其他顶点的边的数量 入度:其他顶点指向当前顶点的边的数量 图的 ...
分类:其他好文   时间:2019-08-11 01:19:11    阅读次数:201
Spark SQL中出现 CROSS JOIN 问题解决
Spark SQL中出现 CROSS JOIN 问题解决 1、问题显示如下所示: Use the CROSS JOIN syntax to allow cartesian products between these relation 2、原因: Spark 2.x版本中默认不支持笛卡尔积操作 3、 ...
分类:数据库   时间:2019-08-09 13:22:49    阅读次数:307
40、JSON数据源综合案例实战
一、JSON数据源综合案例实战1、概述Spark SQL可以自动推断JSON文件的元数据,并且加载其数据,创建一个DataFrame。可以使用SQLContext.read.json()方法,针对一个元素类型为String的RDD,或者是一个JSON文件。但是要注意的是,这里使用的JSON文件与传统... ...
分类:Web程序   时间:2019-08-02 11:15:13    阅读次数:120
39、Parquet数据源之自动分区推断&合并元数据
一、自动分区推断1、概述表分区是一种常见的优化方式,比如Hive中就提供了表分区的特性。在一个分区表中,不同分区的数据通常存储在不同的目录中,分区列的值通常就包含在了分区目录的目录名中。Spark SQL中的Parquet数据源,支持自动根据目录名推断出分区信息。例如,如果将人口数据存储在分区表中,... ...
分类:其他好文   时间:2019-07-31 17:01:49    阅读次数:138
Spark(四): Spark-sql 读hbase
SparkSQL是指整合了Hive的spark-sql cli, 本质上就是通过Hive访问HBase表,具体就是通过hive-hbase-handler, 具体配置参见:Hive(五):hive与hbase整合 目录: SparkSql 访问 hbase配置 测试验证 SparkSql 访问 hb ...
分类:数据库   时间:2019-07-29 00:15:25    阅读次数:107
532条   上一页 1 ... 10 11 12 13 14 ... 54 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!