码迷,mamicode.com
首页 >  
搜索关键字:dataframe    ( 1310个结果
Spark DataFrame 的 groupBy vs groupByKey
在使用 Spark SQL 的过程中,经常会用到 groupBy 这个函数进行一些统计工作。但是会发现除了 groupBy 外,还有一个 groupByKey( 注意RDD 也有一个 groupByKey,而这里的 groupByKey 是 DataFrame 的 ) 。这个 groupByKey ...
分类:其他好文   时间:2018-11-04 19:22:35    阅读次数:144
Python的pandas
pandas 是python中很重要的组件,网上关于pandas 的文章也很多,比如Python科学计算之Pandas 和 Python数据分析入门 Pandas基于两种数据类型:series与dataframe。 一个series是一个一维的数据类型,其中每一个元素都有一个标签。如果你阅读过这个系 ...
分类:编程语言   时间:2018-11-04 15:36:15    阅读次数:150
Spark Streaming实时处理应用
1 框架一览 事件处理的架构图如下所示。 2 优化总结 当我们第一次部署整个方案时,kafka和flume组件都执行得非常好,但是spark streaming应用需要花费4-8分钟来处理单个batch。这个延迟的原因有两点,一是我们使用DataFrame来强化数据,而强化数据需要从hive中读取大 ...
分类:其他好文   时间:2018-11-02 23:29:29    阅读次数:241
Pandas DataFrame 数据选取和过滤
This would allow chaining operations like: pd.read_csv('imdb.txt') .sort(columns='year') .filter(lambda x: x['year']>1990) # < this is missing in Pand ...
分类:其他好文   时间:2018-10-31 14:02:56    阅读次数:324
pandas.Dataframe复杂条件过滤
https://stackoverflow.com/questions/11418192/pandas-complex-filter-on-rows-of-dataframe ...
分类:其他好文   时间:2018-10-31 01:04:07    阅读次数:284
pandas中apply和transform方法的性能比较
1. apply与transform 首先讲一下apply() 与transform()的相同点与不同点 相同点: 都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。 不同点: apply()里面可以跟自定义的函数,包括简单的求和函数以及复杂的特征间的差值函数等(注 ...
分类:移动开发   时间:2018-10-29 22:57:20    阅读次数:244
pandas DataFrame 交集并集补集
1.场景,对于colums都相同的dataframe做过滤的时候 例如: ...
分类:其他好文   时间:2018-10-29 21:35:59    阅读次数:1213
pandas dataframe 数据框
数据框是一个二维数据结构,类似于SQL中的表格。借助字典,数组,列表和序列等可以构造数据框。 1.字典创建数据框,则列的名称为key的名称: 2.列表创建数据框: 3.列的选取,删除和增加: 4.一般的选取方式: ...
分类:其他好文   时间:2018-10-29 11:17:52    阅读次数:194
spark 基本操作(二)
1.dataframe 基本操作 ...
分类:其他好文   时间:2018-10-28 12:17:12    阅读次数:129
pandas.DataFrame.drop_duplicates 用法说明
考虑重复发生在哪一列,默认考虑所有列,就是在任何一列上出现重复都算作是重复数据 包含三个参数 , , ,`first last False first`。 ...
分类:其他好文   时间:2018-10-23 18:07:35    阅读次数:689
1310条   上一页 1 ... 64 65 66 67 68 ... 131 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!