用户文件users.dat的格式描述如下: 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码 评级文件ratings.dat的格式描述如下: 1. userid::movieid::rating::timestamp ...
分类:
数据库 时间:
2020-06-29 00:44:59
阅读次数:
129
在生产环境中遇到了这种情况:spark程序需要处理输入是多个目录,输出也是多个目录。但是处理的逻辑都是相同的。使用方法经历多次修改,最终成功完成任务。其中涉及到spark多job提交和spark多个目录同时处理,在此记录一下。 程序中所有异常处理,建议都在函数里面处理好,不要直接写一些处理代码。这样 ...
分类:
数据库 时间:
2020-06-27 00:17:57
阅读次数:
80
四、知识点 1. 数据仓库基本介绍 英文名称为==Data Warehouse==,可简写为DW或DWH。数据仓库的目的是==构建面向分析的集成化数据环境==,为企业提供==决策支持==(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同 ...
分类:
其他好文 时间:
2020-06-26 20:18:34
阅读次数:
59
一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从 ...
分类:
数据库 时间:
2020-06-26 18:39:56
阅读次数:
61
一、 数据准备 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: val spark = SparkSession.builder().appName("aggregations").master("local[ ...
分类:
数据库 时间:
2020-06-26 18:28:15
阅读次数:
72
一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo ...
分类:
数据库 时间:
2020-06-26 18:03:35
阅读次数:
58
Hive、Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点。前面已经讨论了Hive和Impala,本节先介绍一下SparkSQL,然后从功能、架构、使用场景几个角度比较这三款产品的异同,最后附上分别由cloudera公司和SAS公司出示的关 ...
分类:
数据库 时间:
2020-06-25 21:29:31
阅读次数:
581
一、Sparksql隐式转换时异常描述 Cannot create encoder for Option of Product type, because Product type is represented as a row, and the entire row can not be null ...
分类:
数据库 时间:
2020-06-12 14:59:06
阅读次数:
120
背景 数据处理平台从oracle迁移到hadoop平台后,原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定,经常有资源竞争导致处理过程意外停止,数据倾斜导致任务执行失败。 为减少出错概率,需要对sparkSql进行规范与优化。 转换 1. exist 转换 为 ...
分类:
数据库 时间:
2020-05-25 19:47:59
阅读次数:
94
换了几个开发环境,每次都会遇到sparksql连不上元数据的情况,整理一下脱坑吧。。。。。 进入主题: 首先说一下几个文件吧,这些是我遇到的几个问题的解决方法,有可能你并不适用,仅供参考。 1、配置文件放在resources下面 2、下载hadoop-common-2.2.0-bin-master ...
分类:
数据库 时间:
2020-05-14 11:27:02
阅读次数:
101