dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口,本节学习dplyr包函数基本用法。dplyr()可使用%>%(链式操作),其功能是用于实现将一个函数的输出传递给下一个函数的第一个参 ...
分类:
其他好文 时间:
2017-04-27 10:29:22
阅读次数:
228
一:使用sparksql开发 1.sparksql开发的两种方式 HQL:SQL语句开发 eq : sqlContext.sql("xxxx") DSL : sparkSql中DataFrame的API调用方式 eq:val df=sqlContext.xxx df.select("number") ...
分类:
数据库 时间:
2017-04-25 23:25:50
阅读次数:
217
本文主要从以下两个方向对pandas的数据结构进行展开,分别为Series和DataFrame(对应的分别是系列与numpy中的一维数组和二维数组) 1.首先从Series讲起,主要介绍Series的创建。 1) 可以通过一位数组进行创建序列 如:在python3.6中测试 #首先导入两个模块, i ...
分类:
其他好文 时间:
2017-04-21 14:39:17
阅读次数:
189
一:前置知识详解: Spark SQL重要是操作DataFrame,DataFrame本身提供了save和load的操作, Load:可以创建DataFrame, Save:把DataFrame中的数据保存到文件或者说与具体的格式来指明我们要读取的文件的类型以及与具体的格式来指出我们要输出的文件是什 ...
分类:
数据库 时间:
2017-04-20 23:20:48
阅读次数:
314
from openpyxl import load_workbook import pandas as pd data = pd.read_excel('test1.xlsx', sheetname=0) # col_data = list(data.ix[:, 5]) # 获取除表头外开始的第五列 ...
分类:
编程语言 时间:
2017-04-20 16:44:25
阅读次数:
238
一、pandas数据结构 pandas有两个主要数据结构:Series,DataFrame 1、Series Series是一种类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成。 Series的字符串表现形式为:索引在左边,值在右边。 #!/usr ...
分类:
其他好文 时间:
2017-04-15 10:01:11
阅读次数:
169
1. Spark 2.0 ! 还记得我们的第七篇 Spark 博文里吗?里面我用三点来总结 spark dataframe 的好处: 当时是主要介绍 spark 里的 dataframe,今天是想总结一下 spark 2.0 的一些重大更新,准备过段时间[等到 2.0.1 或者 2.1 出来了就]切 ...
分类:
其他好文 时间:
2017-04-10 18:20:46
阅读次数:
297
一、 spark 2 版本 相对于以前版本的变化 spark core : Accumulators (累加器):性能更好,页面上也可以看到累加器的信息 spark sql: 1、 2、DataSet(合并了之前的dataFrame) spark 2 里面没有dataframe了,dataframe ...
分类:
其他好文 时间:
2017-04-10 11:06:06
阅读次数:
125
官方提供了2种方法 1.利用反射来推断包含特定类型对象的RDD的schema。这种方法会简化代码并且在你已经知道schema的时候非常适用。 先创建一个bean类 case class Person(name: String, age: Int) 然后将Rdd转换成DataFrame val peo ...
分类:
其他好文 时间:
2017-03-31 10:10:53
阅读次数:
224
转载:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rename.html ...
分类:
编程语言 时间:
2017-03-30 18:35:59
阅读次数:
6856