搜索关键字：dataframe，搜索到1310个结果！码迷,mamicode.com！

由于当时的需求我的a表和b表的公共键名称不一样例如这个那么我就可以进行重命名： ...

分类：其他好文时间：2017-03-08 13:28:08 阅读次数：131

Spark机器学习Pipelines中的主要概念MLlib提供的API可以通过Pipelines将多个复杂的机器学习算法结合成单个pipeline或者单个工作流。这个概念和scikit-learn里的概念类似，根据官方的说法是，此抽象概念的设计灵感来自于scikit-learn。·DataFrame:通过SparkSQL组件里的DataFram..

分类：其他好文时间：2017-03-08 01:27:33 阅读次数：326

重塑和轴向旋转

有许多用于重新排列表格型数据的基础运算。这些函数也称作重塑（reshape）或轴向旋转（pivot）运算重塑层次化索引层次化索引为DataFrame数据的重排任务提供了一致性方式。看例子： data = DataFrame(np.arange(6).reshape((2, 3)), index ...

分类：其他好文时间：2017-03-07 19:21:23 阅读次数：163

Pandas 的轴向连接 concat

在pandas里面，另一种数据何必运算也被称为连接（concatenation）、绑定（binding）或堆叠（stacking）。 Numpy的轴向连接， concatenation Numpy有一个用于合并原始Numpy数组的concatenation函数： pandas --Series--c ...

分类：其他好文时间：2017-03-06 14:13:02 阅读次数：1362

spark dataframe操作集锦（提取前几行，合并，入库等）

Spark dataframe派生于RDD类，但是提供了非常强大的数据操作功能。当然主要对类SQL的支持。在实际工作中会遇到这样的情况，主要是会进行两个数据集的筛选、合并，重新入库。首先加载数据集，然后在提取数据集的前几行过程中，才找到limit的函数。而合并就用到union函数，重新入库，就 ...

分类：其他好文时间：2017-03-06 13:56:21 阅读次数：315

Jupyter Notebook（持续更新）

1.引用Pandas import pandas as pd 2.创建DataFrame bb=pd.DataFrame(enron_data) 3.查看列 & 行 dataFrame.shape[1] dataFrame.shape[0] 4.选择选择行： data.loc['a',['w',' ...

分类：其他好文时间：2017-03-05 17:26:14 阅读次数：206

在使用R做数据挖掘时，最常用的数据结构莫过于dataframe了，下面列出几种常见的dataframe的操作方法

原网址 http://blog.sina.com.cn/s/blog_6bb07f83010152z0.html 在使用R做数据挖掘时，最常用的数据结构莫过于dataframe了，下面列出几种常见的dataframe的操作方法。1.查看数据 2.合并数据(1)data.frame(x,y)x,y是d ...

分类：其他好文时间：2017-03-05 14:55:24 阅读次数：219

sparkR 跑通的函数

spark1.4.0的sparkR的思路：用spark从大数据集中抽取小数据（sparkR的DataFrame），然后到R里分析（DataFrame）。这两个DataFrame是不同的，前者是分布式的，集群上的DF，R里的那些包都不能用；后者是单机版的DF，包里的函数都能用。sparkR的开发计划， ...

分类：其他好文时间：2017-03-01 18:20:49 阅读次数：238

sparkr——报错

class(df)[1] "DataFrame"attr(,"package")[1] "SparkR"的对象之后，使用class以及names以及show可以查看但使用showDF以及head则报出如上错误。即无法读取关注重点报错句，可知，其他节点上没有或改成单节点：即启动时，去掉--ma ...

分类：其他好文时间：2017-03-01 16:46:54 阅读次数：1750

Pandas：让你像写SQL一样做数据分析

1. 引言 Pandas是一个开源的Python数据分析库。Pandas把结构化数据分为了三类： Series，1维序列，可视作为没有column名的、只有一个column的DataFrame； DataFrame，同Spark SQL中的DataFrame一样，其概念来自于R语言，为多column ...

分类：数据库时间：2017-02-22 18:13:26 阅读次数：1151

共1310条上一页 1 ... 114 115 116 117 118 ... 131 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)