1、 查看数值数据的整体分布情况 datafram.describe() 输出: agecount 1463.000000mean 22.948052std 8.385384min 13.00000025% 17.00000050% 20.00000075% 27.000000max 64.0000 ...
分类:
其他好文 时间:
2018-06-11 13:53:27
阅读次数:
225
在使用pandas框架的DataFrame的过程中,如果需要处理一些字符串的特性,例如判断某列是否包含一些关键字,某列的字符长度是否小于3等等这种需求,如果掌握str列内置的方法,处理起来会方便很多。 下面我们来详细了解一下,Series类的str自带的方法有哪些。 1、cat() 拼接字符串 例子 ...
分类:
其他好文 时间:
2018-06-11 00:40:38
阅读次数:
5455
使用pandas,首先需要熟悉它的2个主要的数据结构:Series和DataFrame。 Series series是一种类似于一维数组的的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(索引)组成。 Series的字符串表现形式为:索引在左边,值在右边。由于没有为数据设定索 ...
分类:
其他好文 时间:
2018-06-10 21:11:52
阅读次数:
148
callmap = {ts.get_stock_basics: 'D:/dxw/code/all.csv', ts.get_sz50s: 'D:/dxw/code/50.csv', ts.get_hs300s: 'D:/dxw/code/300.csv', ts.get_zz500s: 'D:/dx... ...
分类:
编程语言 时间:
2018-06-10 00:27:58
阅读次数:
234
生成一个实例 运行结果 计算名次 运行结果 重新生成一个实例,观察这个实例的生成方法 运行结果 移除重复的数据 运行结果 数据替换 这里是根据‘name’(cols)替换的。 我觉得这个方法挺重要的以后能用的上,挺好的。 i={k1[0]:123,k1[1:456} df['name].map(i) ...
分类:
其他好文 时间:
2018-06-06 22:02:28
阅读次数:
184
上篇了解了一些基本的Structured Streaming的概念,知道了Structured Streaming其实是一个无下界的无限递增的DataFrame。基于这个DataFrame,我们可以做一些基本的select、map、filter操作,也可以做一些复杂的join和统计。本篇就着重介绍下 ...
分类:
其他好文 时间:
2018-06-04 21:38:16
阅读次数:
342
loc——通过行标签索引行数据 # iloc——通过行号索引行数据 # ix——通过行标签或者行号索引行数据(基于loc和iloc 和at 和iat 的混合) # 同理,索引列数据也是如此! # : 在切片操作相当于数组,前后没有值时取全部,前后为数字序号时,不包括末端,前后为名称时则包括末端 # ... ...
分类:
其他好文 时间:
2018-06-03 10:42:51
阅读次数:
269
深入pandas 数据处理 三个阶段 数据准备 数据转化 数据聚合 数据准备 加载 组装 合并 pandas.merge() 拼接 pandas.concat() 组合 pandas.DataFrame.combine_first() 变形 删除 合并 example1: 有必要定义合并操作的标准 ...
分类:
其他好文 时间:
2018-06-02 21:30:13
阅读次数:
178
近年来,大数据的计算引擎越来越受到关注,spark作为最受欢迎的大数据计算框架,也在不断的学习和完善中。在Spark2.x中,新开放了一个基于DataFrame的无下限的流式处理组件——Structured Streaming,它也是本系列的主角,废话不多说,进入正题吧! 简单介绍 在有过1.6的s ...
分类:
其他好文 时间:
2018-06-02 17:10:16
阅读次数:
757
一 概念 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类: Series,1维序列,可视作为没有column名的、只有一个column的DataFrame; DataFrame,同Spark SQL中的DataFrame一样,其概念来自于R语言,为多column并... ...
分类:
其他好文 时间:
2018-06-02 11:18:57
阅读次数:
168