基础知识 数值类型序列(list,tuple,str),通用技巧和核心基本技巧dist,常用操作,访问及遍历条件循环语句和条件语句自定义函数局部变量和全局变量匿名函数lambda模块创建及import指令运用,pip管理工具 文件对象申明及其操作系统模块下路径操作文件读写pickle模块运用及存储结 ...
分类:
其他好文 时间:
2019-01-02 01:23:03
阅读次数:
232
使用DF.createTempView("person")对数据集注册临时表 通过spark.sql(.....) 代码说明: df_rdd.createTempView("person") spark.sql("select * from person where name like '%0%'" ...
分类:
其他好文 时间:
2019-01-01 13:23:28
阅读次数:
193
1. Spark SQL定位处理结构化数据的模块。SparkSQL提供相应的优化机制,并支持不同语言的开发API。 java、scala、Python,类SQL的方法调用(DSL) 2. RDD与Spark SQL的比较说明: 使用Spark SQL的优势:a.面向结构化数据;b.优化机制; RDD ...
分类:
数据库 时间:
2018-12-31 17:28:16
阅读次数:
235
[TOC] 业务需求 用户访问session 该模块主要是对用户访问session进行统计分析,包括session的聚合指标计算、按时间比例随机抽取session、获取每天点击、下单和购买排名前10的品类、并获取top10品类的点击量排名前10的session。主要使用Spark DataFrame ...
分类:
其他好文 时间:
2018-12-30 20:20:39
阅读次数:
279
将 利用 列合并为一行,类似于 的 函数。例如如下 : 需要按照列相同的列 将 合并,想要的结果为: 利用 去实现就好, 里面可以用 实现,可以看这个 "Spark中SQL列合并为一行" ,而这里的 合并缺很奇怪, "官方文档" 的实例为: 作者自己尝试得到: 不是想要的效果。而 能得到相同的效果: ...
分类:
其他好文 时间:
2018-12-29 17:14:33
阅读次数:
416
for循环遍历dataframe,返回有一个元祖类型,第一个是行的索引,第二个是series,是每一行的内容。 ...
分类:
其他好文 时间:
2018-12-28 17:13:57
阅读次数:
202
numpy 相当于序列化好的矩阵pandas:相当于字典 0.在pandas中有两类非常重要的数据结构,即序列Series和数据框DataFrame。 0.1:Series类似于numpy中的一维数组,除了通吃一维数组可用的函数或方法,而且其可通过索引标签的方式获取数据,还具有索引的自动对齐功能 0 ...
分类:
其他好文 时间:
2018-12-27 13:11:30
阅读次数:
140
1 //将dataframe类型转换为hashmap 2 def getDFToMap(dimenDF: DataFrame, dimenKey: String, dimenValue: String): util.HashMap[String, String] = { 3 val dimenMap... ...
分类:
其他好文 时间:
2018-12-27 00:38:04
阅读次数:
726
Ref:Using iloc, loc, & ix to select rows and columns in Pandas DataFrames ...
分类:
其他好文 时间:
2018-12-26 20:20:24
阅读次数:
142