码迷,mamicode.com
首页 >  
搜索关键字:dataframe    ( 1310个结果
Spark-RDD/DataFrame/DateSet
RDD 优点: 编译时类型安全编译时就能检查出类型错误 面向对象的编程风格直接通过类名点的方式来操作数据 缺点: 序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化. GC的性能开销频繁的创建和销毁对象, 势必会增加GCimport org.ap... ...
分类:其他好文   时间:2016-12-14 21:52:16    阅读次数:390
DataFrame中将空字符串替换为nan
#replace '' to np.nan dataframe.iloc[:,0].str.split(',',expand=True).replace('',np.nan) ...
分类:其他好文   时间:2016-12-13 16:13:41    阅读次数:607
RDD、DataFrame和DataSet的区别
RDD、DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同。 RDD和DataFrame RDD和DataSet DataSet以Catalyst逻辑执行计划表示,并且数据以编码的二进制形式被存储,不需要反序列化就可以执行sorting、shuffle等 ...
分类:其他好文   时间:2016-12-05 14:02:51    阅读次数:294
pandas.read_csv
pandas.read_csv参数整理 读取CSV(逗号分割)文件到DataFrame 也支持文件的部分导入和选择迭代 更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html 参数: filepath_or_buffer : str,pa ...
分类:其他好文   时间:2016-12-03 18:07:34    阅读次数:545
DataFrame入门案例(集团公司对人事信息处理场景)
我用一个集团公司对人事信息处理场景的简单案例,来作为入门,详细分析DataFrame上的各种常用操作,包括集团子公司的职工人事信息的合并,职工的部门相关信息查询、职工信息的统计、关联职工与部门信息的统计,以及如何将各种统计得到的结果存储到外部存储系统等。 在此入门案例里,涉及的DataFrame实例 ...
分类:其他好文   时间:2016-12-03 15:09:04    阅读次数:190
DataFrame编程模型初谈与Spark SQL
Spark SQL在Spark内核基础上提供了对结构化数据的处理,在Spark1.3版本中,Spark SQL不仅可以作为分布式的SQL查询引擎,还引入了新的DataFrame编程模型。 在Spark1.3版本中,Spark SQL不再是Alpha版本,除了提供更好的SQL标准兼容之外,还引进了新的 ...
分类:数据库   时间:2016-12-03 12:19:32    阅读次数:231
pandas 基础
pandas 是基于 Numpy 构建的含有更高级数据结构和工具的数据分析包 类似于 Numpy 的核心是 ndarray,pandas 也是围绕着 Series 和 DataFrame 两个核心数据结构展开的 。Series 和 DataFrame 分别对应于一维的序列和二维的表结构。pandas ...
分类:其他好文   时间:2016-12-02 02:14:16    阅读次数:270
pandas中Loc vs. iloc vs. ix vs. at vs. iat?
loc: only work on indexiloc: work on positionix: You can get data from dataframe without it being in the indexat: get scalar values. It's a very fast ...
分类:其他好文   时间:2016-11-28 00:03:22    阅读次数:308
numpy、scipy、pandas
以下分别是numpy、Scipy、pandas的简介。虽然这些包提供的一些结构比python自身的“更高级、更高效”,更高级是因为它们能完成更高级的任务,但是,学习的时候尽量不要和python割裂开认识,最好是辩证的看问题,既要看到区别,又要看到联系,这样才能理解深刻、真正的运用自如。比如pytho ...
分类:其他好文   时间:2016-11-26 13:49:49    阅读次数:250
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!