码迷,mamicode.com
首页 >  
搜索关键字:dataframe    ( 1310个结果
Feather包实现数据框快速读写,你值得拥有
什么是Feather? Feature是一种文件格式,支持R语言和Python的交互式存储,速度更快。目前支持R语言的data.frame和Python pandas 的DataFrame。 Feather收到了Apache arrow 项目的支持,Apache Arrow是Apache基金会下一个 ...
分类:其他好文   时间:2016-05-22 18:20:15    阅读次数:674
地铁译:Spark for python developers ---Spark的数据戏法
聚焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。 重点是如何通过分布式网络交换代码和数据,获得 串行化, 持久化 , 调度和缓存的实战经验 。 认真使用 Spark SQL, 交互性探索结构化和半结构化数据. Spark SQL 的基础数据结构是?Spark dataframe, Spark dataframe 受到了...
分类:编程语言   时间:2016-05-22 12:21:51    阅读次数:370
R dataframe 去除行号
原先的行号是这样的: 不好看,而且没有什么用。 用write.table中,row.name=F,quote=F,完成 ...
分类:其他好文   时间:2016-05-19 11:56:28    阅读次数:489
Spark-Sql之DataFrame实战详解
在Spark-1.3新加的最重要的新特性之一DataFrame的引入,很类似在R语言中的DataFrame的操作,使得Spark-Sql更稳定高效。...
分类:数据库   时间:2016-05-13 02:53:36    阅读次数:475
day61-Spark SQL数据加载和保存内幕深度解密实战
Spark SQL加载数据 SparkSQl 数据输入输入输出主要是DataFrame,DataFrame提供了一些通用的load和save操作。 通过load可以创建出DataFrame;通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式;直接读取 文件的指定类型:   SQLContext源码: load 和sa...
分类:数据库   时间:2016-05-13 01:11:30    阅读次数:350
Spark SQL和DataFrame的学习总结
1、DataFrame 一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequ...
分类:数据库   时间:2016-05-12 12:50:07    阅读次数:476
Spark学习五:spark sql
Spark学习五:spark sql标签(空格分隔): SparkSpark学习五spark sql 一概述 二Spark的发展历史 三Spark sql和hive对比 四spark sql 架构 五sprk sql访问hive数据 六catalyst 七thriftserver 八Dataframe 九加载外部数据源 Spark SQL强大诞生了 一,概述:二,Spark的发展历史三,Spark...
分类:数据库   时间:2016-05-09 07:02:30    阅读次数:450
python学习2016.4.13
Python函数   (1)数据框的另一种定义方式,将数据内容(多维数组)直接放入data中,再定义columns和index。(数据框.columns是取列名,.index是取行名,取出的类型类似元组,可以用[0],[1]…直接取出) df = pd.DataFrame(data=[[34, 'null', 'mark'], [22, 'null','mark'], [34, 'null'...
分类:编程语言   时间:2016-05-07 11:04:09    阅读次数:273
博客汇总
SparkIMF课程:第56课:SparkSQL和DataFrame的本质http://lqding.blog.51cto.com/9123978/1751056第57课:SparkSQLonHive配置及实战http://lqding.blog.51cto.com/9123978/1751100第94课:SparkStreaming实现广告计费系统中在线黑名单过滤实战http://lqding.blog.51cto.com/912..
分类:其他好文   时间:2016-05-01 17:55:18    阅读次数:147
R转战Python的日常(一)
1 import pandas as pd, numpy as np 2 dates = pd.date_range('20130101', periods=6) 3 df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list( ...
分类:编程语言   时间:2016-04-21 20:12:49    阅读次数:365
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!