最近用pandas的pd.read_excel()方法读取excel文件时,遇到某一列的数据前面包含0(如010101)的时候,pd.read_excel()方法返回的DataFrame会将这一列视为int类型,即010101变成10101。 这种情况下,如果想要保持数据的完整性,可以以str类型来 ...
分类:
其他好文 时间:
2017-05-23 16:30:45
阅读次数:
495
import numpy as npfrom pandas import DataFrame , Seriesprint ("Axis indexes with duplicate values")obj=Series(range(5),index =['a','a','b','b','c'])pr ...
分类:
其他好文 时间:
2017-05-18 01:11:53
阅读次数:
446
1.DataFrame的常用函数: (1)np.abs(frame) 绝对值, (2)apply function, lambda f= lambda x: x.max()-x.min(),frame.apply(f); frame.apply(f,axis = 1) f(x), def f(x): ...
分类:
其他好文 时间:
2017-05-15 23:50:16
阅读次数:
858
Data frame 和 series 的运算:横列相加减:按照index ,row 的方向直接相加减。frame-series纵列相加减:按照 columns,运用算术函数,相加减。 frame.sub(series3, axis=0) '''operation between data fram ...
分类:
其他好文 时间:
2017-05-14 18:54:28
阅读次数:
269
1、DataFrame简介: 在Spark中,DataFrame是一种以RDD为基础的分布式数据据集,类似于传统数据库听二维表格,DataFrame带有Schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。 类似这样的 2、准备测试结构化数据集 people.json ...
分类:
数据库 时间:
2017-05-14 12:26:03
阅读次数:
282
1.读入数据 2.ix 3.DataFrame 4.cut 5.sort_values ...
分类:
其他好文 时间:
2017-05-11 18:29:02
阅读次数:
203
转自:https://www.shiyanlou.com/courses/543/labs/1835/document https://www.shiyanlou.com/courses/536/labs/1818/document 一、从 RDD 创建 DataFrame: Step 3:定义 c ...
分类:
其他好文 时间:
2017-05-02 12:02:19
阅读次数:
811
一:前置知识详解:SparkSQL重要是操作DataFrame,DataFrame本身提供了save和load的操作,Load:可以创建DataFrame,Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什么类型。二:SparkSQL读写..
分类:
数据库 时间:
2017-04-28 23:31:26
阅读次数:
314
一:准备 1.启动服务 2.启动spark-shell 二:测试检验程序 1.DataFrame的构成 2.结果 三:DataFrame的创建 1.创建SQLContext val sqlContext=new SQLContext(sc) 2.创建DataFrame(两种方式) val df=sq ...
分类:
其他好文 时间:
2017-04-27 23:07:54
阅读次数:
1974
DSL风格语法 1、查看DataFrame中的内容 2、查看DataFrame部分列的数据 3、查看DataFrame schema信息 4、查询name和age并将age + 1 5、过滤年龄大于20的人 6、按年龄分组,并统计年龄相同的人数 SQL风格 在使用SQL风格前,首先需要将DataFr ...
分类:
数据库 时间:
2017-04-27 15:37:33
阅读次数:
332