在使用 Spark SQL 的过程中,经常会用到 groupBy 这个函数进行一些统计工作。但是会发现除了 groupBy 外,还有一个 groupByKey( 注意RDD 也有一个 groupByKey,而这里的 groupByKey 是 DataFrame 的 ) 。这个 groupByKey ...
分类:
其他好文 时间:
2018-11-04 19:22:35
阅读次数:
144
pandas 是python中很重要的组件,网上关于pandas 的文章也很多,比如Python科学计算之Pandas 和 Python数据分析入门 Pandas基于两种数据类型:series与dataframe。 一个series是一个一维的数据类型,其中每一个元素都有一个标签。如果你阅读过这个系 ...
分类:
编程语言 时间:
2018-11-04 15:36:15
阅读次数:
150
1 框架一览 事件处理的架构图如下所示。 2 优化总结 当我们第一次部署整个方案时,kafka和flume组件都执行得非常好,但是spark streaming应用需要花费4-8分钟来处理单个batch。这个延迟的原因有两点,一是我们使用DataFrame来强化数据,而强化数据需要从hive中读取大 ...
分类:
其他好文 时间:
2018-11-02 23:29:29
阅读次数:
241
This would allow chaining operations like: pd.read_csv('imdb.txt') .sort(columns='year') .filter(lambda x: x['year']>1990) # < this is missing in Pand ...
分类:
其他好文 时间:
2018-10-31 14:02:56
阅读次数:
324
https://stackoverflow.com/questions/11418192/pandas-complex-filter-on-rows-of-dataframe ...
分类:
其他好文 时间:
2018-10-31 01:04:07
阅读次数:
284
1. apply与transform 首先讲一下apply() 与transform()的相同点与不同点 相同点: 都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。 不同点: apply()里面可以跟自定义的函数,包括简单的求和函数以及复杂的特征间的差值函数等(注 ...
分类:
移动开发 时间:
2018-10-29 22:57:20
阅读次数:
244
1.场景,对于colums都相同的dataframe做过滤的时候 例如: ...
分类:
其他好文 时间:
2018-10-29 21:35:59
阅读次数:
1213
数据框是一个二维数据结构,类似于SQL中的表格。借助字典,数组,列表和序列等可以构造数据框。 1.字典创建数据框,则列的名称为key的名称: 2.列表创建数据框: 3.列的选取,删除和增加: 4.一般的选取方式: ...
分类:
其他好文 时间:
2018-10-29 11:17:52
阅读次数:
194
考虑重复发生在哪一列,默认考虑所有列,就是在任何一列上出现重复都算作是重复数据 包含三个参数 , , ,`first last False first`。 ...
分类:
其他好文 时间:
2018-10-23 18:07:35
阅读次数:
689