pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas ...
                            
                            
                                分类:
编程语言   时间:
2016-07-29 17:12:12   
                                阅读次数:
303
                             
                    
                        
                            
                            
                                    在Spark 1.5.x版本,增加了一系列内置函数到DataFrame API中,并且实现了code-generation的优化。与普通的函数不同,DataFrame的函数并不会执行后立即返回一个结果值,而是返回一个Column对象,用于在并行作业中进行求值。Column可以用在DataFrame的 ...
                            
                            
                                分类:
其他好文   时间:
2016-07-22 01:14:33   
                                阅读次数:
162
                             
                    
                        
                            
                            
                                    package cn.spark.study.core.mycode_dataFrame; import java.sql.DriverManager;import java.util.ArrayList;import java.util.HashMap;import java.util.List; ...
                            
                            
                                分类:
数据库   时间:
2016-07-21 17:36:10   
                                阅读次数:
466
                             
                    
                        
                            
                            
                                    在hadoop上创建目录/spark-study/users/gender=male/country=US/users.parquet(并且把文件put上去) code: package cn.spark.study.core.mycode_dataFrame; import org.apache. ...
                            
                            
                                分类:
其他好文   时间:
2016-07-20 01:07:17   
                                阅读次数:
1158
                             
                    
                        
                            
                            
                                array,list,dataframe索引切片操作 2016年07月19日——智浪文档 list,一维,二维array,datafrme,loc、iloc、ix的简单探讨 Numpy数组的索引和切片介绍: 从最基础的list索引开始讲起,我们先上一段代码和结果: 输出: list切片,在“[]”中 ...
                            
                            
                                分类:
编程语言   时间:
2016-07-19 18:58:00   
                                阅读次数:
299
                             
                    
                        
                            
                            
                                    1,对于list列表来说 a.用自定义函数来统计技术 或者利用python标准库 b.利用python标准库的collections.Counter类 2,对于DataFrame来说 对于DataFrame对象中的一列所返回的对象Series,例如frame['属性名'],有一个value_coun ...
                            
                            
                                分类:
编程语言   时间:
2016-07-19 16:51:35   
                                阅读次数:
467
                             
                    
                        
                            
                            
                                IN Python from pandas import DataFrame,Series import pandas as pd import numpy as np IN Python from pandas import DataFrame,Series import pandas as pd ...
                            
                            
                                分类:
编程语言   时间:
2016-06-19 18:18:02   
                                阅读次数:
129
                             
                    
                        
                            
                            
                                使用python计算分词结果的准确率,召回率和F值 测试文件output.txt格式如下: python代码如下: 1、读入output.txt文件,并建立相应的列名为'character','train','test'的dataframe 【注:使用df.loc添加新行的速度太慢,因而使用列表向d ...
                            
                            
                                分类:
编程语言   时间:
2016-06-19 14:15:42   
                                阅读次数:
2867
                             
                    
                        
                            
                            
                                    The function pandas.pivot_table can be used to create spreadsheet-style pivot tables.It takes a number of arguments data: A DataFrame object values: a ...
                            
                            
                                分类:
其他好文   时间:
2016-06-19 06:41:40   
                                阅读次数:
264
                             
                    
                        
                            
                            
                                    pandas.DataFrame.groupbyDataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)Group series ...
                            
                            
                                分类:
其他好文   时间:
2016-06-18 17:01:34   
                                阅读次数:
154