摘要:DataFrame API的引入一改RDD API高冷的FP姿态,令Spark变得更加平易近人。外部数据源API体现出的则是兼容并蓄,Spark SQL多元一体的结构化数据处理能力正在逐渐释放。
关于作者:连城,Databricks工程师,Spark committer,Spark SQL主要开发者之一。在4月18日召开的 2015 Spark技术峰会 上,连城将做名为“四两拨千斤...
分类:
数据库 时间:
2015-04-03 19:26:28
阅读次数:
322
悄悄地,spark 还是像往常一样,发布了1.3版本,从release notes可以看出,这一版本比较大的变化是1. 增加了DataFrame API,这样以后操作一些结构化的数据集时将会变的非常方便,它可以通过数据源如Hive tables, JSON data, a JDBC databa.....
分类:
其他好文 时间:
2015-03-14 13:44:25
阅读次数:
192
R中使用complete.cases和na.omit来去掉包含NA的行现在有个一data.frame datafile如下所示 Date sulfate nitrate ID12015-1-1 NA NA 122015-1-2 2 6 1320...
分类:
其他好文 时间:
2015-03-13 12:34:53
阅读次数:
244
插入列# -*- coding: utf-8 -*-"""Created on Mon Mar 09 11:21:02 2015@author: myhaspl@myhaspl.com"""print u"python数据分析\n"import pandas as pdimport numpy as np#构造商品销量数据mydf = pd.DataFrame({u'商品地区编码':[1,1,3,...
分类:
编程语言 时间:
2015-03-10 12:13:45
阅读次数:
266
适合初学入门
第一课 构造数据
本节基本了解Pandas里的一些数据结构和模块的基本使用,初步了解Pandas的提供的一些功能,学会基本使用。
创建数据
通过Python的zip构造出一元组组成的列表作为DataFrame的输入数据rec。
In [3]: import pandas as pd
In [4]: import random
In [5]: num ...
分类:
编程语言 时间:
2015-02-09 14:10:00
阅读次数:
326
要利用python进行数据分析,pandas必不可少。
作为python数据分析利器,pandas以快速,高效著称。
为了更加方便地处理数据,pandas创造了自己的数据类型:Series,DataFrame。
一般使用pandas要进行如下import:
import pandas as pd
Series
可以认为series类型的包含着一列数据。
In [4]: ...
分类:
其他好文 时间:
2015-01-17 18:08:04
阅读次数:
813
统计方法pandas 对象有一些统计方法。它们大部分都属于约简和汇总统计,用于从 Series 中提取单个值,或从 DataFrame 的行或列中提取一个 Series。比如 DataFrame.mean(axis=0,skipna=True) 方法,当数据集中存在 NA 值时,这些值会被简单跳过,...
分类:
其他好文 时间:
2015-01-08 21:21:22
阅读次数:
246
面对的是这样一个问题,不断读入一行一行数据,append到data frame上,如果用dataframe, rbind() ,可以发现数据大的时候效率明显变低。原因是 每次bind 都是一次重新整个数据集的重新拷贝这个链接有人测试了各种方案,似乎给出了最优方案http://stackoverflo...
分类:
编程语言 时间:
2014-12-11 15:18:40
阅读次数:
204
DataFrame的基本操作 1,选择 (1),Select column In [11]: df['a']Out[11]:0 -1.3552631 0.0108882 1.5995833 0.0045654 0.460270Name: a, dtype: float64(2),Select row...
分类:
其他好文 时间:
2014-07-07 21:43:31
阅读次数:
309
有时候,DataFrame中的连接键位于其索引中。在这种情况下,你可以传入left_index = True或right_index = True(或两个都传)以说明索引应该被用作连接键。...
分类:
编程语言 时间:
2014-05-14 00:58:10
阅读次数:
436