搜索关键字：sparksql hivecontext，搜索到324个结果！码迷,mamicode.com！

hivesql 迁移spark3.0 sparksql报错如Cannot safely cast '字段':StringType to IntegerType的问题

一问题 hivesql可以正常运行，spark3.0运行报错如图 spark3.0配置查看源码新增一个 val STORE_ASSIGNMENT_POLICY = buildConf("spark.sql.storeAssignmentPolicy") .doc("When inserting ...

分类：数据库时间：2019-12-25 20:34:49 阅读次数：162

【SparkSQL】介绍、与Hive整合、Spark的th/beeline/jdbc/thriftserve2、shell方式使用SQL

目录一、Spark SQL介绍二、Spark和Hive的整合三、Spark的thriftserve2/beeline/jdbc 四、shell方式使用SQL 一、Spark SQL介绍官网：http://spark.apache.org/sql/ 学习文档：http://spark.apac ...

分类：数据库时间：2019-12-24 23:44:13 阅读次数：353

sparksql 自定义用户函数（UDF）

自定义用户函数有两种方式，区别：是否使用强类型，参考demo：https://github.com/asker124143222/spark-demo 1、不使用强类型，继承UserDefinedAggregateFunction package com.home.spark import org. ...

分类：数据库时间：2019-12-24 19:01:05 阅读次数：134

spark机器学一Mllib 数据类型

spark 提供了两个机器学习库 MLlib 和 ML，MLlib 是 spark 第一个机器学习库，相比于 ML，它更加成熟 rdd 是 spark core 的数据抽象，dataframe 是 sparkSQL 的数据抽象，而 MLib 的数据抽象包括 Vector、LabeledPoint、 ...

分类：其他好文时间：2019-12-20 18:26:13 阅读次数：101

小记--------sparksql和DataFrame的小小案例java、scala版本

sparksql是spark中的一个模块，主要用于进行结构化数据的处理，他提供的最核心的编程抽象，就是DataFrame。同时，sparksql还可以作为分布式的sql查询引擎。最最重要的功能就是从hive中查询数据。 Dataframe可以理解为：以列的形式组织的，分布式的数据集合。 Dataf ...

分类：数据库时间：2019-12-17 15:26:10 阅读次数：121

SparkSQL学习案例:使用DataFrame和Dataset操作json数据

一、测试数据集(奥特曼.json) 二、源代码 1 import org.apache.spark.sql.SparkSession 2 3 //在Scala中,样例类在编译时会默认实现Product特质 4 case class Ultraman(name: String, age: BigInt ...

分类：数据库时间：2019-12-14 17:35:20 阅读次数：144

spark框架体系及spark和MR的区别

2019-12-11 Spark的框架体系三个核心组件：SparkCore SparkSQL SparkStreaming Spark有三种部署模式：Stanalone Yarn Messos Spark和MapReduce之间区别 ***** 1.Spark把运算中数据放到内存中，迭代计算效率会 ...

分类：其他好文时间：2019-12-11 21:33:03 阅读次数：153

倾情大奉送--Spark入门实战系列

这一两年Spark技术很火，自己也凑热闹，反复的试验、研究，有痛苦万分也有欣喜若狂，抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍，从Spark的简介、编译、部署，再到编程模型、运行架构，最后介绍其组件SparkSQL、Spark Streaming、Spark MLi ...

分类：其他好文时间：2019-12-11 09:16:33 阅读次数：82

sparksql读取hive数据报错：java.lang.RuntimeException: serious problem

问题：原因： sparksql生成的hive表有空文件，但是sparksql读取空文件的时候，因为表示orc格式的，导致sparksql解析orc文件出错。但是用hive却可以正常读取。解决办法：暂时不知道怎么解决，这里先记录一下，等找到方法再回来补充 ...

分类：数据库时间：2019-12-02 16:36:57 阅读次数：554

4.Spark读取mysql

import org.apache.log4j.{Level, Logger}import org.apache.spark.sql.SparkSessionobject SparkSql { def main(args: Array[String]): Unit ={ Logger.getLogg ...

分类：数据库时间：2019-12-02 13:30:16 阅读次数：107

共324条上一页 1 ... 4 5 6 7 8 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)