pandas学习(创建多层索引、数据重塑与轴向旋转) 目录 创建多层索引 隐式构造 Series 最常见的方法是给DataFrame构造函数的index参数传递两个或更多的数组,Series也可以创建多层索引。 DataFrame 显示构造pd.MultiIndex 使用数组构造 使用tuple构造 ...
分类:
其他好文 时间:
2019-01-18 13:56:45
阅读次数:
264
数据存在mongodb中,按照类别导出到Excel文件,问题是想把同一类的数据放到一个sheet表中,最后只导出到一个excel文件中# coding=utf-8import pandas as pd def export_to_excel_bycas(): client = pymongo.Mon ...
分类:
其他好文 时间:
2019-01-17 15:14:47
阅读次数:
495
归一化操作有两种 1.max和min的归一化操作 min-max标准化(Min-Max Normalization) 返回结果0~1 公式: 实例: 如: 随机生成假数据如下 df = DataFrame({"height":np.random.randint(150,190,size=50), " ...
分类:
其他好文 时间:
2019-01-16 20:39:55
阅读次数:
298
目的: 1.找到NaN值的位置(定位到哪一列、在列的哪个索引位置) 2.对NaN值进行填充(向上填充、向下填充、线性填充等) 3.忽略NaN值 构建简单的Dataframe数据结构环境 注意点 1.None、nan在构建dataframe数据结构中都会被识别为NaN 2.None与nan的类型是不一 ...
分类:
其他好文 时间:
2019-01-15 14:17:44
阅读次数:
261
1 2 3 4 5 6 import pandas as pd dict=[[1,2,3,4,5,6],[2,3,4,5,6,7],[3,4,5,6,7,8],[4,5,6,7,8,9],[5,6,7,8,9,10]] data=pd.DataFrame(dict) print(data) for ...
分类:
其他好文 时间:
2019-01-15 14:07:10
阅读次数:
1387
将两个 DataFrame 拼接后,想要对拼接后的 DataFrame 重新设置索引要用 reset_index 方法,要想让之前的索引消失,传入参数:drop=True。具体事例: test_201718 显示的结果中,index 是重复的,0-49,0-49。 要相对整合后的 test_2017 ...
分类:
其他好文 时间:
2019-01-13 18:01:41
阅读次数:
475
1、在内存中缓存数据 性能调优主要是将数据放入内存中操作。通过spark.cacheTable("tableName")或者dataFrame.cache()。使用spark.uncacheTable("tableName")来从内存中去除table。 Demo案例: (*)从Oracle数据库中读 ...
分类:
数据库 时间:
2019-01-12 21:41:58
阅读次数:
315
一、pandas简单介绍 1、pandas是一个强大的Python数据分析的工具包。2、pandas是基于NumPy构建的。 3、pandas的主要功能 具备对其功能的数据结构DataFrame、Series 集成时间序列功能 提供丰富的数学运算和操作 灵活处理缺失数据 4、安装方法:pip ins ...
分类:
其他好文 时间:
2019-01-12 15:19:27
阅读次数:
173
df3=pd.DataFrame({'lkey':['b','b','a','c','a','a','b'],'data1':range(7)})df4=pd.DataFrame({'rkey':['a','b','d'],'data2':range(3)}) pd.merge(df3,df4,le ...
分类:
编程语言 时间:
2019-01-05 17:17:05
阅读次数:
970
1、sparksql的概述(1)sparksql的介绍: SparkSQL是Spark用来处理结构化数据(结构化数据可以来自外部结构化数据源也可以通过RDD获取)的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 外部的结构化数据源包括JSON、Parquet(默认)、RMDBS、Hive等。当前SparkSQL使
分类:
数据库 时间:
2019-01-05 13:37:33
阅读次数:
251