码迷,mamicode.com
首页 >  
搜索关键字:sparksql    ( 306个结果
spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析
用户文件users.dat的格式描述如下: 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码 评级文件ratings.dat的格式描述如下: 1. userid::movieid::rating::timestamp ...
分类:数据库   时间:2020-06-29 00:44:59    阅读次数:129
sparksql系列(九) spark多job提交,spark多目录处理
在生产环境中遇到了这种情况:spark程序需要处理输入是多个目录,输出也是多个目录。但是处理的逻辑都是相同的。使用方法经历多次修改,最终成功完成任务。其中涉及到spark多job提交和spark多个目录同时处理,在此记录一下。 程序中所有异常处理,建议都在函数里面处理好,不要直接写一些处理代码。这样 ...
分类:数据库   时间:2020-06-27 00:17:57    阅读次数:80
数据仓库基础
四、知识点 1. 数据仓库基本介绍 英文名称为==Data Warehouse==,可简写为DW或DWH。数据仓库的目的是==构建面向分析的集成化数据环境==,为企业提供==决策支持==(Decision Support)。它出于分析性报告和决策支持目的而创建。 数据仓库本身并不“生产”任何数据,同 ...
分类:其他好文   时间:2020-06-26 20:18:34    阅读次数:59
入门大数据---SparkSQL外部数据源
一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源,同时 Spark 社区还提供了多达上百种数据源的读取方式,能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注:以下所有测试文件均可从 ...
分类:数据库   时间:2020-06-26 18:39:56    阅读次数:61
入门大数据---SparkSQL联结操作
一、 数据准备 本文主要介绍 Spark SQL 的多表连接,需要预先准备测试数据。分别创建员工和部门的 Datafame,并注册为临时视图,代码如下: val spark = SparkSession.builder().appName("aggregations").master("local[ ...
分类:数据库   时间:2020-06-26 18:28:15    阅读次数:72
入门大数据---SparkSQL常用聚合函数
一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo ...
分类:数据库   时间:2020-06-26 18:03:35    阅读次数:58
Hive、Spark SQL、Impala比较
Hive、Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案,但又各有特点。前面已经讨论了Hive和Impala,本节先介绍一下SparkSQL,然后从功能、架构、使用场景几个角度比较这三款产品的异同,最后附上分别由cloudera公司和SAS公司出示的关 ...
分类:数据库   时间:2020-06-25 21:29:31    阅读次数:581
SparkSql 隐式转换异常
一、Sparksql隐式转换时异常描述 Cannot create encoder for Option of Product type, because Product type is represented as a row, and the entire row can not be null ...
分类:数据库   时间:2020-06-12 14:59:06    阅读次数:120
oracleSQL 转 SPARKSQL(hiveSql) 及常用优化
背景 数据处理平台从oracle迁移到hadoop平台后,原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定,经常有资源竞争导致处理过程意外停止,数据倾斜导致任务执行失败。 为减少出错概率,需要对sparkSql进行规范与优化。 转换 1. exist 转换 为 ...
分类:数据库   时间:2020-05-25 19:47:59    阅读次数:94
记录一下window idea 如何直连sparksql 使用hive数据元数据
换了几个开发环境,每次都会遇到sparksql连不上元数据的情况,整理一下脱坑吧。。。。。 进入主题: 首先说一下几个文件吧,这些是我遇到的几个问题的解决方法,有可能你并不适用,仅供参考。 1、配置文件放在resources下面 2、下载hadoop-common-2.2.0-bin-master ...
分类:数据库   时间:2020-05-14 11:27:02    阅读次数:101
306条   上一页 1 2 3 4 ... 31 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!