搜索关键字：sparksql hivecontext，搜索到324个结果！码迷,mamicode.com！

使用SparkSQL编写wordCount的词频统计

# 使用SparkSQL编写wordCount的词频统计 ## word.txt```hello hello scala sparkjava sql html java hellojack jack tom tom you he he sql``` ## spark 代码：```objec ...

分类：数据库时间：2020-03-30 21:50:35 阅读次数：213

IDEA，SparkSql读取HIve中的数据

传统Hive计算引擎为MapReduce，在Spark1.3版本之后，SparkSql正式发布，并且SparkSql与apachehive基本完全兼容，基于Spark强大的计算能力，使用Spark处理hive中的数据处理速度远远比传统的Hive快。在idea中使用SparkSql读取HIve表中的数据步骤如下1、首先，准备测试环境，将hadoop集群conf目录下的core-site.xml、hd

分类：数据库时间：2020-03-30 14:42:50 阅读次数：141

sparksql系列(七) Json转Map,多文件生成

公司所有产品均是json数据上报给数仓使用，由于格式的不统一造成数据处理很麻烦，经过讨论将公共字段抽取出来，将业务线自己的字段放在 extends字段里面各个业务线的人自己写sql解析extends字段处理。里面涉及到一个json转map的知识点再此记录一下。一：JSON转Map 为什需要将JSO ...

分类：数据库时间：2020-03-29 01:30:50 阅读次数：194

SparkSession 与SparkContext

SparkSession： SparkSession实质上是SQLContext和HiveContext的组合（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。 SparkSession ...

分类：其他好文时间：2020-03-27 16:48:03 阅读次数：46

SparkSql运行原理详细解析

传统关系型数据库中，最基本的sql查询语句由projecttion (field a,field b,field c) , datasource (table A) 和 fieter (field a >10) 三部分组成。分别对应了sql查询过程中的result , datasource和op ...

分类：数据库时间：2020-03-14 12:38:24 阅读次数：75

sparksql 概述

什么是Spark SQL？ Spark SQL是Spark用来处理结构化数据的一个模块，它提供了2个编程抽象：DataFrame和DataSet，并且作为分布式SQL查询引擎的作用。我们已经学习了Hive，它是将Hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapRe ...

分类：数据库时间：2020-03-11 10:46:14 阅读次数：68

2020.2.10

一、大数据spark 跟着b站的尚硅谷大数据往后学习了9个知识点视频号：av62992342 内容：累加器与广播变量、初步认识SparkSQL 课程学习进度：63/126 二、《一线架构师实践指南》阅读阅读了第九章高层分割（两种实践套路、概念架构与贯穿案例） ...

分类：其他好文时间：2020-02-09 20:08:12 阅读次数：57

寒假7

今天学习SparkSQL方面的知识该模型允许你使用SQL或者DataFrame或DataSet进行关系型查询 Spark SQL划分为四个子项目: Catalyst (sql/catalyst) - 解析关系操作算子和表达式的语法树的实现框架 Execution (sql/core) - 代表pl ...

分类：其他好文时间：2020-02-07 22:13:50 阅读次数：85

SparkSQL 如何自定义函数

1. SparkSql如何自定义函数 2. 示例：Average 3. 类型安全的自定义函数 1. SparkSql如何自定义函数？ spark中我们定义一个函数，需要继承 UserDefinedAggregateFunction这个抽象类，实现这个抽象类中所定义的方法，这是一个模板设计模式？我只 ...

分类：数据库时间：2020-02-04 23:50:06 阅读次数：115

【2020/2/1】寒假自学——学习进度报告8

开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive，但麻烦的一点是spark官网下载的并不自带对hive的支持，所以不能使用外部的hive。之后解决。首先创建了一个json文件用来创建DataFrame，内容为： { "id":1 , "name":" Ell ...

分类：其他好文时间：2020-02-01 23:18:31 阅读次数：97

共324条上一页 1 2 3 4 5 6 ... 33 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)