什么是Feather? Feature是一种文件格式,支持R语言和Python的交互式存储,速度更快。目前支持R语言的data.frame和Python pandas 的DataFrame。 Feather收到了Apache arrow 项目的支持,Apache Arrow是Apache基金会下一个 ...
分类:
其他好文 时间:
2016-05-22 18:20:15
阅读次数:
674
聚焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。 重点是如何通过分布式网络交换代码和数据,获得 串行化, 持久化 , 调度和缓存的实战经验 。 认真使用 Spark SQL, 交互性探索结构化和半结构化数据. Spark SQL 的基础数据结构是?Spark dataframe, Spark dataframe 受到了...
分类:
编程语言 时间:
2016-05-22 12:21:51
阅读次数:
370
原先的行号是这样的: 不好看,而且没有什么用。 用write.table中,row.name=F,quote=F,完成 ...
分类:
其他好文 时间:
2016-05-19 11:56:28
阅读次数:
489
在Spark-1.3新加的最重要的新特性之一DataFrame的引入,很类似在R语言中的DataFrame的操作,使得Spark-Sql更稳定高效。...
分类:
数据库 时间:
2016-05-13 02:53:36
阅读次数:
475
Spark SQL加载数据
SparkSQl 数据输入输入输出主要是DataFrame,DataFrame提供了一些通用的load和save操作。
通过load可以创建出DataFrame;通过save可以将DataFrame数据保存到文件中或者说以具体的格式来指明要读取的文件是什么格式或者输出的数据是什么格式;直接读取 文件的指定类型:
SQLContext源码:
load 和sa...
分类:
数据库 时间:
2016-05-13 01:11:30
阅读次数:
350
1、DataFrame
一个以命名列组织的分布式数据集。概念上相当于关系数据库中一张表或在R / Python中的data frame数据结构,但DataFrame有丰富的优化。在spark 1.3之前,核心的新类型为RDD-schemaRDD,现改为DataFrame。spark 通过DataFrame操作大量的数据源,包括外部文件(如 json、avro、parquet、sequ...
分类:
数据库 时间:
2016-05-12 12:50:07
阅读次数:
476
Spark学习五:spark sql标签(空格分隔): SparkSpark学习五spark sql
一概述
二Spark的发展历史
三Spark sql和hive对比
四spark sql 架构
五sprk sql访问hive数据
六catalyst
七thriftserver
八Dataframe
九加载外部数据源
Spark SQL强大诞生了
一,概述:二,Spark的发展历史三,Spark...
分类:
数据库 时间:
2016-05-09 07:02:30
阅读次数:
450
Python函数
(1)数据框的另一种定义方式,将数据内容(多维数组)直接放入data中,再定义columns和index。(数据框.columns是取列名,.index是取行名,取出的类型类似元组,可以用[0],[1]…直接取出)
df = pd.DataFrame(data=[[34, 'null', 'mark'], [22, 'null','mark'], [34, 'null'...
分类:
编程语言 时间:
2016-05-07 11:04:09
阅读次数:
273
SparkIMF课程:第56课:SparkSQL和DataFrame的本质http://lqding.blog.51cto.com/9123978/1751056第57课:SparkSQLonHive配置及实战http://lqding.blog.51cto.com/9123978/1751100第94课:SparkStreaming实现广告计费系统中在线黑名单过滤实战http://lqding.blog.51cto.com/912..
分类:
其他好文 时间:
2016-05-01 17:55:18
阅读次数:
147
1 import pandas as pd, numpy as np 2 dates = pd.date_range('20130101', periods=6) 3 df = pd.DataFrame(np.random.randn(6,4), index=dates, columns=list( ...
分类:
编程语言 时间:
2016-04-21 20:12:49
阅读次数:
365