一:RDD与DataFrame互相转换 1.总纲 二:DataFrame转换为RDD 1.rdd 使用schema可以获取DataFrame的schema 使用rdd可以获取DataFrame的数据 三:RDD转换为DataFrame 1.第一种方式 使用反射, RDD的数据类型必须是case cl ...
分类:
其他好文 时间:
2018-07-28 23:26:43
阅读次数:
158
1. loc是用标签(也就是行名和列名)来查找,标签默认是数字,但也可以通过index参数指定为字符型等其他的类型。 格式是df.loc[行名,列名],如果列标签没有给出,则默认为查找指定行标签的所有列。 例如: 1.1 创建一个DataFrame,不指定各行的名称(或者说标签),pandas会默认 ...
分类:
其他好文 时间:
2018-07-28 16:01:29
阅读次数:
164
数据导入可见:《Python之Pandas知识点》 此文图方便,就直接输入数据了。 1缺失值处理 1.1删除法 DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False) axis:表示轴向。默认为0,表示 ...
分类:
其他好文 时间:
2018-07-28 11:49:58
阅读次数:
173
#!/usr/bin/env python# -*- coding:utf-8 -*-import pandas as pdsalary = [4000,8000,5000,7500,12000]age = [25,30,28,33,40]limit = [20000,70000,35000,500 ...
分类:
其他好文 时间:
2018-07-27 15:31:33
阅读次数:
134
pandas提供了 1.便于操作的数据类型 2.提供了很多分析函数和分析工具 padas库的理解 两个数据类型:Series(一维),DataFrame(多维) 关注数据的应用表达,数据和索引之间的关系 series:理解为带标签数组 可以通过标量创建 可以通过字典创建 可以通过ndarrary创建 ...
分类:
其他好文 时间:
2018-07-27 01:34:28
阅读次数:
187
from pandas import Series,DataFrameimport pandas as pdimport matplotlib.pyplot as pltimport numpy as npdf = DataFrame({'key1' : ['a', 'a', 'b', 'b', ' ...
分类:
编程语言 时间:
2018-07-26 19:58:46
阅读次数:
565
sparksql概述 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用。 相比于Spark RDD API,Spark SQL包含了对结构化数据和在其上运算的更多信息,Spark SQL使用这些信息进行了额外的优 ...
分类:
数据库 时间:
2018-07-26 15:12:40
阅读次数:
216
1:删除重复数据 使用duplicate()函数检测重复的行,返回元素为bool类型的Series对象,每个元素对应一行,如果该行不是第一次出现,则元素为true >>> df =DataFrame(np.random.randint(0,150,size=(6,3)),columns=['Chin ...
分类:
其他好文 时间:
2018-07-25 22:05:25
阅读次数:
174
输出: 输出: 输出: 输出: 输出: 输出: ...
分类:
其他好文 时间:
2018-07-22 23:35:39
阅读次数:
270
# 从csv文件创建DataFrame类型的数据结构 >>>df=pd.read_csv("xxx.csv") # DataFrame类型的形状和长度 >>> df.shape (38, 39) >>> len(df) 38 # 各列的标题和数据类型 >>> df.columns >>> df.dt... ...
分类:
编程语言 时间:
2018-07-21 21:23:56
阅读次数:
163