透视函数其实就是我们excel中常用的数据透视表相似,先来看个例子。 以下是准备的数据源,数据是电商系统中用户的行为数据(浏览,收藏,加购,成交,评分等),score为统计次数。 对应的字段分别为 租户id,用户id,商品编码Id,行为事件代码,当日统计次数,统计日期。 现在我们要转换成目标的数据是 ...
分类:
其他好文 时间:
2020-07-28 17:17:13
阅读次数:
131
Hive函数大全–完整版 现在虽然有很多SQL ON Hadoop的解决方案,像Spark SQL、Impala、Presto等等,但就目前来看,在基于Hadoop的大数据分析平台、数据仓库中,Hive仍然是不可替代的角色。尽管它的相应延迟大,尽管它启动MapReduce的时间相当长,但是它太方便、 ...
分类:
其他好文 时间:
2020-07-28 14:21:17
阅读次数:
191
一、简介 在每个节点(driver和executor)上运行的管理器,该接口提供用于在本地和远程将block放置和检索到各种存储(内存,磁盘和堆外)的接口。 二、源码 private[spark] class BlockManager( executorId: String, rpcEnv: Rpc ...
分类:
其他好文 时间:
2020-07-27 23:41:12
阅读次数:
73
Spark SQL(6) OptimizedPlan 在这一步spark sql主要应用一些规则,优化生成的Resolved Plan,这一步涉及到的有Optimizer。 之前介绍在sparksession实例化的是会实例化sessionState,进而确定QueryExecution、Analy ...
分类:
数据库 时间:
2020-07-26 19:28:25
阅读次数:
101
一.什么是机器学习? 什么是机器学习?Herbert Sinmon给“学习”做出了这样的定义:“如果一个系统能够通过执行某个过程而改进性能,这就是学习。”更通俗的理解是:机器学习能够自动地从数据中学习“程序”,而这个程序不是人来编写的。 平面上有两类点,黄色代表类别a,蓝色代表类别b。这时我们希望能 ...
分类:
其他好文 时间:
2020-07-26 15:43:33
阅读次数:
56
webworker计算md5实践及遇到的坑最近项目要实现大文件的分块上传及断点续传,其中文件的md5是判断文件或文件块是否已被上传的重要依据。1.阶段一编码初期,直接在公共方法中写了一个传入file返回md5的函数,供文件上传模块使用。关键代码如下:/***获取文件的md5*@param{*}file文件对象*/importSparkMD5from‘spark-md5‘exportasyncfun
分类:
Web程序 时间:
2020-07-24 23:48:21
阅读次数:
117
问题背景: 使用spark datasource v2 接口,外接存储源时,发现更改项目版本后,spark-shell报错 搜索该错误无果,网上报什么window util错,并不是我遇到的问题. error: not found: value spark Exception in thread " ...
分类:
编程语言 时间:
2020-07-24 15:52:06
阅读次数:
115
引用的jar包(maven) <properties> <java.version>1.8</java.version> <ch.qos.logback.version>1.2.3</ch.qos.logback.version> <sharding-sphere.version>4.1.1</sh ...
分类:
编程语言 时间:
2020-07-21 21:58:23
阅读次数:
74
Spark基础入门 1、spark的核心概念 2、spark的四大特性 3、spark的整体架构 4、spark的集群安装部署 5、spark的集群的启动和停止 6、spark的集群web管理界面 7、spark-shell Driver 它会执行客户端写好的main方法,它会构建一个名叫Spark ...
分类:
其他好文 时间:
2020-07-21 09:31:03
阅读次数:
90
一.DStream的两类操作 DStream内部其实是RDD序列,所有的DStream操作最终都转换为RDD操作。通过分析源码,可以进一步窥探这种转换是如何进行的。 DStream有一些与RDD类似的基础属性: 依赖的其它DStream列表。 生成RDD的时间间隔。 一个名为compute的计算函数 ...
分类:
其他好文 时间:
2020-07-20 13:13:18
阅读次数:
64