pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas ...
分类:
编程语言 时间:
2016-07-29 17:12:12
阅读次数:
303
在Spark 1.5.x版本,增加了一系列内置函数到DataFrame API中,并且实现了code-generation的优化。与普通的函数不同,DataFrame的函数并不会执行后立即返回一个结果值,而是返回一个Column对象,用于在并行作业中进行求值。Column可以用在DataFrame的 ...
分类:
其他好文 时间:
2016-07-22 01:14:33
阅读次数:
162
package cn.spark.study.core.mycode_dataFrame; import java.sql.DriverManager;import java.util.ArrayList;import java.util.HashMap;import java.util.List; ...
分类:
数据库 时间:
2016-07-21 17:36:10
阅读次数:
466
在hadoop上创建目录/spark-study/users/gender=male/country=US/users.parquet(并且把文件put上去) code: package cn.spark.study.core.mycode_dataFrame; import org.apache. ...
分类:
其他好文 时间:
2016-07-20 01:07:17
阅读次数:
1158
array,list,dataframe索引切片操作 2016年07月19日——智浪文档 list,一维,二维array,datafrme,loc、iloc、ix的简单探讨 Numpy数组的索引和切片介绍: 从最基础的list索引开始讲起,我们先上一段代码和结果: 输出: list切片,在“[]”中 ...
分类:
编程语言 时间:
2016-07-19 18:58:00
阅读次数:
299
1,对于list列表来说 a.用自定义函数来统计技术 或者利用python标准库 b.利用python标准库的collections.Counter类 2,对于DataFrame来说 对于DataFrame对象中的一列所返回的对象Series,例如frame['属性名'],有一个value_coun ...
分类:
编程语言 时间:
2016-07-19 16:51:35
阅读次数:
467
IN Python from pandas import DataFrame,Series import pandas as pd import numpy as np IN Python from pandas import DataFrame,Series import pandas as pd ...
分类:
编程语言 时间:
2016-06-19 18:18:02
阅读次数:
129
使用python计算分词结果的准确率,召回率和F值 测试文件output.txt格式如下: python代码如下: 1、读入output.txt文件,并建立相应的列名为'character','train','test'的dataframe 【注:使用df.loc添加新行的速度太慢,因而使用列表向d ...
分类:
编程语言 时间:
2016-06-19 14:15:42
阅读次数:
2867
The function pandas.pivot_table can be used to create spreadsheet-style pivot tables.It takes a number of arguments data: A DataFrame object values: a ...
分类:
其他好文 时间:
2016-06-19 06:41:40
阅读次数:
264
pandas.DataFrame.groupbyDataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)Group series ...
分类:
其他好文 时间:
2016-06-18 17:01:34
阅读次数:
154