搜索关键字：sparksql，搜索到306个结果！码迷,mamicode.com！

spark之通过sparksql中的SQL语句实现电影点评系统用户行为分析

用户文件users.dat的格式描述如下： 1. userid::gender::age::occupation::zip-code 2. 用户id、性别、年龄、职业、邮政编码评级文件ratings.dat的格式描述如下： 1. userid::movieid::rating::timestamp ...

分类：数据库时间：2020-06-29 00:44:59 阅读次数：129

sparksql系列(九) spark多job提交，spark多目录处理

在生产环境中遇到了这种情况：spark程序需要处理输入是多个目录，输出也是多个目录。但是处理的逻辑都是相同的。使用方法经历多次修改，最终成功完成任务。其中涉及到spark多job提交和spark多个目录同时处理，在此记录一下。程序中所有异常处理，建议都在函数里面处理好，不要直接写一些处理代码。这样 ...

分类：数据库时间：2020-06-27 00:17:57 阅读次数：80

数据仓库基础

四、知识点 1. 数据仓库基本介绍英文名称为==Data Warehouse==，可简写为DW或DWH。数据仓库的目的是==构建面向分析的集成化数据环境==，为企业提供==决策支持==（Decision Support）。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据，同 ...

分类：其他好文时间：2020-06-26 20:18:34 阅读次数：59

入门大数据---SparkSQL外部数据源

一、简介 1.1 多数据源支持 Spark 支持以下六个核心数据源，同时 Spark 社区还提供了多达上百种数据源的读取方式，能够满足绝大部分使用场景。 CSV JSON Parquet ORC JDBC/ODBC connections Plain-text files 注：以下所有测试文件均可从 ...

分类：数据库时间：2020-06-26 18:39:56 阅读次数：61

入门大数据---SparkSQL联结操作

一、数据准备本文主要介绍 Spark SQL 的多表连接，需要预先准备测试数据。分别创建员工和部门的 Datafame，并注册为临时视图，代码如下： val spark = SparkSession.builder().appName("aggregations").master("local[ ...

分类：数据库时间：2020-06-26 18:28:15 阅读次数：72

入门大数据---SparkSQL常用聚合函数

一、简单聚合 1.1 数据准备 // 需要导入 spark sql 内置的函数包 import org.apache.spark.sql.functions._ val spark = SparkSession.builder().appName("aggregations").master("lo ...

分类：数据库时间：2020-06-26 18:03:35 阅读次数：58

Hive、Spark SQL、Impala比较

Hive、Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案，但又各有特点。前面已经讨论了Hive和Impala，本节先介绍一下SparkSQL，然后从功能、架构、使用场景几个角度比较这三款产品的异同，最后附上分别由cloudera公司和SAS公司出示的关 ...

分类：数据库时间：2020-06-25 21:29:31 阅读次数：581

SparkSql 隐式转换异常

一、Sparksql隐式转换时异常描述 Cannot create encoder for Option of Product type, because Product type is represented as a row, and the entire row can not be null ...

分类：数据库时间：2020-06-12 14:59:06 阅读次数：120

oracleSQL 转 SPARKSQL（hiveSql）及常用优化

背景数据处理平台从oracle迁移到hadoop平台后，原有的数据处理过程需要改写为sparkSql。由于sparkSql执行环境和数据的不确定，经常有资源竞争导致处理过程意外停止，数据倾斜导致任务执行失败。为减少出错概率，需要对sparkSql进行规范与优化。转换 1. exist 转换为 ...

分类：数据库时间：2020-05-25 19:47:59 阅读次数：94

记录一下window idea 如何直连sparksql 使用hive数据元数据

换了几个开发环境，每次都会遇到sparksql连不上元数据的情况，整理一下脱坑吧。。。。。进入主题：首先说一下几个文件吧，这些是我遇到的几个问题的解决方法，有可能你并不适用，仅供参考。 1、配置文件放在resources下面 2、下载hadoop-common-2.2.0-bin-master ...

分类：数据库时间：2020-05-14 11:27:02 阅读次数：101

共306条上一页 1 2 3 4 ... 31 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)