本文讲解Spark的结构化数据处理,主要包括:Spark SQL、DataFrame、Dataset以及Spark SQL服务等相关内容。本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但因Spark发展迅速(本文的写作时值Spark 1.6.2发布之际,并且Spark 2.0的预览版本 ...
分类:
数据库 时间:
2016-09-02 00:20:54
阅读次数:
260
版权声明:本文为博主原创文章,未经博主允许不得转载。 版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 目录(?)[+] 转载请标明出处:小帆的帆的专栏 RDD 优点: 编译时类型安全 编译时就能检查出类型错误 面向对象的编程风格 直接通过类名点的方式来操作数据 缺点: 序列化 ...
分类:
其他好文 时间:
2016-08-24 19:17:57
阅读次数:
629
数据转换指的是对数据的过滤、清理以及其他的转换操作。 移除重复数据 DataFrame里经常会出现重复行,DataFrame提供一个duplicated()方法检测各行是否重复,另一个drop_duplicates()方法用于丢弃重复行: duplicated()和drop_duplicates() ...
分类:
编程语言 时间:
2016-08-14 17:49:31
阅读次数:
279
层次化索引 层次化索引指你能在一个数组上拥有多个索引,例如: 有点像Excel里的合并单元格对么? 根据索引选择数据子集 以外层索引的方式选择数据子集: 以内层索引的方式选择数据: 多重索引Series转换为DataFrame 层次化索引在数据重塑和分组中扮演着很重要的角色,例如,上面的层次化索引数 ...
分类:
编程语言 时间:
2016-08-13 18:00:37
阅读次数:
214
本节介绍Series和DataFrame中的数据的基本手段 pandas对象的一个重要方法就是reindex,作用是创建一个适应新索引的新对象 ''' Created on 2016-8-10 @author: xuzhengzhu ''' ''' Created on 2016-8-10 @aut ...
分类:
编程语言 时间:
2016-08-11 11:18:42
阅读次数:
176
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值,字符串,布尔型)。DateFrame既有行索引也有列索引,可以被看作为由Series组成的字典。 构建DataFrame: 1、直接传入一个由等长列表或numpy数组组成的字典 ''' Created on ...
分类:
编程语言 时间:
2016-08-10 17:40:20
阅读次数:
268
pandas.DataFrame.plot¶ DataFrame.plot(x=None, y=None, kind='line', ax=None, subplots=False, sharex=None, sharey=False, layout=None, figsize=None, use_ ...
分类:
其他好文 时间:
2016-08-10 00:32:46
阅读次数:
2165
一、reindex() 方法:重新索引 针对 Series 重新索引指的是根据index参数重新进行排序。 如果传入的索引值在数据里不存在,则不会报错,而是添加缺失值的新行。 不想用缺失值,可以用 fill_value 参数指定填充值。 例如: fill_value 会让所有的缺失值都填充为同一个值 ...
分类:
编程语言 时间:
2016-08-07 12:21:45
阅读次数:
637
一、pandas 是什么 pandas 是基于 NumPy 的一个 Python 数据分析包,主要目的是为了数据分析。它提供了大量高级的数据结构和对数据处理的方法。 pandas 有两个主要的数据结构:Series 和 DataFrame。 二、Series Series 是一个一维数组对象 ,类似 ...
分类:
编程语言 时间:
2016-08-05 17:44:39
阅读次数:
172
pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas ...
分类:
其他好文 时间:
2016-08-01 15:28:06
阅读次数:
160