一。 从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。 SparkSess ...
分类:
其他好文 时间:
2019-04-13 10:40:54
阅读次数:
148
创建 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过Spark的数据源进行创建;从一个存在的RDD进行转换;还可以从Hive Table进行查询返回。 读取json文件创建DataFrame 注意:普通临时view是S ...
分类:
数据库 时间:
2019-04-11 14:33:27
阅读次数:
183
groupby函数 pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作,根据一个或多个键(可以是函数、数组、Series或DataFrame列名)拆分pandas对象,继而计算分组摘要统计,如计数、平均值、标准差,或用户自定义函数。 按照T ...
分类:
其他好文 时间:
2019-04-09 18:30:08
阅读次数:
283
``` 通过数据框列向(左右)合并 a = pd.DataFrame(X_train) b = pd.DataFrame(y_train) 合并数据框(合并前需要将数据设置成DataFrame格式), 其中,如果axis=1,ignore_index将改变的是列上的索引(属性名) print(pd. ...
分类:
其他好文 时间:
2019-04-08 15:29:44
阅读次数:
726
cum系列函数是作为DataFrame或Series对象的方法出现的,因此命令格式为D.cumsum() 举例: 1. cumsum 2. cumprod 3. cummax 4. cummin 参考文献: 【1】Pandas —— cum累积计算和rolling滚动计算 ...
分类:
其他好文 时间:
2019-04-08 11:54:12
阅读次数:
667
Python的文件是一个重要的对象,使用open()函数来打开文件,创建文件对象,进行文件的读写操作。当数据用于交换信息时,通常需要把数据保存为有格式的文本数据,可以保存为有特定的行分隔符和列分隔符的数据,这可以使用pandas模块中的函数来读写;也可以保存为json结构的数据,这可以使用json模 ...
分类:
数据库 时间:
2019-04-06 00:02:25
阅读次数:
464
1、创建数据帧 2、增加行、列 数据帧DataFrame的每一行都可看作是一个对象,每一列都是该对象的不同属性。每行都具有多维度的属性,因此每行都可以看作是一个小的DataFrame;而每列的数据类型都相同,因此每列都可以看作是一个Series。 2.1 增加行 创建新的DataFrame追加至原有 ...
分类:
其他好文 时间:
2019-04-04 17:28:38
阅读次数:
802
1、创建数据帧 index是行索引,即每一行的名字;columns是列索引,即每一列的名字。建立数据帧时行索引和列索引都需要以列表的形式传入。 2、获取数据帧的行索引和列索引 2.1 获取行索引 2.2 获取列索引 3、获取指定行、列的元素 3.1 获取指定行的元素 获取某行数据需用.loc[]或. ...
分类:
其他好文 时间:
2019-04-04 15:48:10
阅读次数:
467
deffunc(x1,before,after,a,b):#x1代表一整行数据,before=line0,a=t(11)print(x1[before])print(a)print(b)returna*bi=list(range(0,10))i1=list(range(10,20))i2=list(range(20,30))ser=pd.DataFrame([i,i1,i2]).T#构造dataf
分类:
移动开发 时间:
2019-04-03 09:19:40
阅读次数:
163
pandas: 在内存中或对象,会有一套基于对象属性的方法, 可以视为 pandas 是一个存储一维表,二维表,三维表的工具, 主要以二维表为主 一维的表, (系列(Series)) 二维的表,DataFrame, 也叫报表 三维的表,(面板(Panel)) 文本格式 : CSV 以文本方式存储, ...
分类:
其他好文 时间:
2019-03-31 23:17:55
阅读次数:
299