resample与groupby的区别:resample:在给定的时间单位内重取样groupby:对给定的数据条目进行统计函数原型:DataFrame.resample(rule, how=None, axis=0, fill_method=None, closed=None, label=None ...
                            
                            
                                分类:
其他好文   时间:
2016-06-18 16:45:35   
                                阅读次数:
202
                             
                    
                        
                            
                            
                                我们对 DataFrame 进行选择,大抵从这三个层次考虑:行列、区域、单元格。其对应使用的方法如下:一. 行,列 --> df[]二. 区域 --> df.loc[], df.iloc[], df.ix[]三. 单元格 --> df.at[], df.iat[] 下面开始练习: 1. df[]:  ...
                            
                            
                                分类:
其他好文   时间:
2016-06-18 07:53:22   
                                阅读次数:
568
                             
                    
                        
                            
                            
                                自认为比较有用的几个技巧。 df是一个DataFrame se是一个Series 1 、导入数据后,往往需要先看看数据长什么样子,这时候需要.head(n)函数, 即显示前n行数据。 df.head(5) se.head(5) 2、想要知道df有多少列,列的具体内容是什么,用 df.columns  ...
                            
                            
                                分类:
其他好文   时间:
2016-06-14 01:07:34   
                                阅读次数:
180
                             
                    
                        
                            
                            
                                rdd生成方式: 1) 并行化 2) 通过读取文件api方法生成 DataFrame生成方式: 1)从rdd生成 2)读取hive表生成 ...
                            
                            
                                分类:
数据库   时间:
2016-06-12 10:45:05   
                                阅读次数:
166
                             
                    
                        
                            
                            
                                Seaborn的优点:(摘自http://www.tuicool.com/articles/7NzaEvq) 默认情况下就能创建赏心悦目的图表 创建具有统计意义的图 能理解pandas的DataFrame类型 Seaborn将matplotlib的参数划分为两个组,第一组控制图表的样式和图的度量尺度 ...
                            
                            
                                分类:
其他好文   时间:
2016-06-07 22:21:36   
                                阅读次数:
200
                             
                    
                        
                            
                            
                                pandas 两个主要数据结构:Series 和 DataFrame。(建议引入本地)Series:类似于一维数组的对象,它由一组数据(各种NumPy数据类型)以及一组与之相关的数据标签(即索引)组成通过Series 的 values 和 index 属性获取其数组表示形式和索引对象可以为数据指定索... ...
                            
                            
                                分类:
其他好文   时间:
2016-06-07 14:39:28   
                                阅读次数:
653
                             
                    
                        
                            
                            
                                DataFrame.as_matrix(columns=None)¶ Convert the frame to its Numpy-array representation. ...
                            
                            
                                分类:
其他好文   时间:
2016-06-06 06:53:38   
                                阅读次数:
2542
                             
                    
                        
                            
                            
                                import pandas as pd import numpy as np df1 = pd.DataFrame(np.array([['a', 5, 9], ['b', 4, 61], ['c', 24, 9]]), columns = ['name', 'attr11', 'attr12'])... ...
                            
                            
                                分类:
其他好文   时间:
2016-06-05 06:32:27   
                                阅读次数:
1697
                             
                    
                        
                            
                            
                                问题导读:
1.合并数据集
解决方案:
合并数据集
(1)数据库风格的DataFrame 合并
pandas的merge 函数 将通过一个或多个键将行连接起来如果没有指定列,merge 就会直接依据相同列名的那一列进行连接
In [3]: df1 = pd.DataFrame(
   ...: {'key':['b','b','a','c','a','a...
                            
                            
                                分类:
编程语言   时间:
2016-06-02 14:58:37   
                                阅读次数:
560
                             
                    
                        
                            
                            
                                一、从csv文件创建DataFrame
  本文将介绍如何从csv文件创建DataFrame。
如何做?
  从csv文件创建DataFrame主要包括以下几步骤:
  1、在build.sbt文件里面添加spark-csv支持库;
  2、创建SparkConf对象,其中包括Spark运行所有的环境信息;
  3、创建SparkContext对象,它是进入Spark的核心切入点,...
                            
                            
                                分类:
其他好文   时间:
2016-05-23 15:07:15   
                                阅读次数:
250