码迷,mamicode.com
首页 >  
搜索关键字:dataframe    ( 1310个结果
spark DataFrame的创建几种方式和存储
一。 从Spark2.0以上版本开始,Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。 SparkSess ...
分类:其他好文   时间:2019-04-13 10:40:54    阅读次数:148
SparkSQL
创建 在Spark SQL中SparkSession是创建DataFrame和执行SQL的入口,创建DataFrame有三种方式:通过Spark的数据源进行创建;从一个存在的RDD进行转换;还可以从Hive Table进行查询返回。 读取json文件创建DataFrame 注意:普通临时view是S ...
分类:数据库   时间:2019-04-11 14:33:27    阅读次数:183
pandas常见函数详细使用
groupby函数 pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作,根据一个或多个键(可以是函数、数组、Series或DataFrame列名)拆分pandas对象,继而计算分组摘要统计,如计数、平均值、标准差,或用户自定义函数。 按照T ...
分类:其他好文   时间:2019-04-09 18:30:08    阅读次数:283
pandas中,dataframe 进行数据合并-pd.concat()
``` 通过数据框列向(左右)合并 a = pd.DataFrame(X_train) b = pd.DataFrame(y_train) 合并数据框(合并前需要将数据设置成DataFrame格式), 其中,如果axis=1,ignore_index将改变的是列上的索引(属性名) print(pd. ...
分类:其他好文   时间:2019-04-08 15:29:44    阅读次数:726
cumsum累计函数系列:pd.cumsum()、pd.cumprod()、pd.cummax()、pd.cummin()
cum系列函数是作为DataFrame或Series对象的方法出现的,因此命令格式为D.cumsum() 举例: 1. cumsum 2. cumprod 3. cummax 4. cummin 参考文献: 【1】Pandas —— cum累积计算和rolling滚动计算 ...
分类:其他好文   时间:2019-04-08 11:54:12    阅读次数:667
Python 学习 第十三篇:数据的读写-文件、DataFrame、json和pymssql
Python的文件是一个重要的对象,使用open()函数来打开文件,创建文件对象,进行文件的读写操作。当数据用于交换信息时,通常需要把数据保存为有格式的文本数据,可以保存为有特定的行分隔符和列分隔符的数据,这可以使用pandas模块中的函数来读写;也可以保存为json结构的数据,这可以使用json模 ...
分类:数据库   时间:2019-04-06 00:02:25    阅读次数:464
pandas 对数据帧DataFrame中数据的增删、补全及转换操作
1、创建数据帧 2、增加行、列 数据帧DataFrame的每一行都可看作是一个对象,每一列都是该对象的不同属性。每行都具有多维度的属性,因此每行都可以看作是一个小的DataFrame;而每列的数据类型都相同,因此每列都可以看作是一个Series。 2.1 增加行 创建新的DataFrame追加至原有 ...
分类:其他好文   时间:2019-04-04 17:28:38    阅读次数:802
pandas 对数据帧DataFrame中数据的索引及切片操作
1、创建数据帧 index是行索引,即每一行的名字;columns是列索引,即每一列的名字。建立数据帧时行索引和列索引都需要以列表的形式传入。 2、获取数据帧的行索引和列索引 2.1 获取行索引 2.2 获取列索引 3、获取指定行、列的元素 3.1 获取指定行的元素 获取某行数据需用.loc[]或. ...
分类:其他好文   时间:2019-04-04 15:48:10    阅读次数:467
pandas apply 草稿,等待合集
deffunc(x1,before,after,a,b):#x1代表一整行数据,before=line0,a=t(11)print(x1[before])print(a)print(b)returna*bi=list(range(0,10))i1=list(range(10,20))i2=list(range(20,30))ser=pd.DataFrame([i,i1,i2]).T#构造dataf
分类:移动开发   时间:2019-04-03 09:19:40    阅读次数:163
数据分析 大数据之路 五 pandas 报表
pandas: 在内存中或对象,会有一套基于对象属性的方法, 可以视为 pandas 是一个存储一维表,二维表,三维表的工具, 主要以二维表为主 一维的表, (系列(Series)) 二维的表,DataFrame, 也叫报表 三维的表,(面板(Panel)) 文本格式 : CSV 以文本方式存储, ...
分类:其他好文   时间:2019-03-31 23:17:55    阅读次数:299
1310条   上一页 1 ... 51 52 53 54 55 ... 131 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!