sql加载 格式 或者下面这种直接json加载 或者下面这种spark的text加载 以及rdd的加载 上述记得配置文件加入.mastrt("local")或者spark://master:7077 dataset的生成 下面是dataframe 下面是dataset $ bin/spark-she ...
分类:
数据库 时间:
2019-03-29 01:12:06
阅读次数:
368
快速了解dataframe 提供的功能. 避免重复工作 版本 spark 2.2 相关性 cov corr 删除 dropDuplicates dropna 选择 select colRegex 正则 selectExpr 支持 sql 表达式 where exceptAll 在df1不在df2 f ...
1.题目: 源码: 数据库数据: 结果: 2.编程实现将 RDD 转换为 DataFrame 官网给出两种方法,这里给出一种(使用编程接口,构造一个 schema 并将其应用在已知的 RDD 上。): 源码: 结果: ...
分类:
数据库 时间:
2019-03-26 21:13:29
阅读次数:
310
import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.MultilayerPerceptronClassifierimport org.apache.spark.ml.evaluation.Multi ...
分类:
其他好文 时间:
2019-03-25 17:39:31
阅读次数:
153
Pandas介绍(panel + data + analysis) 为什么使用Pandas 便捷的数据处理能力 读取文件方便 封装了Matplotlib、Numpy的画图和计算 Pandas的核心数据结构(DataFrame+Panel+Series) 3大核心结构: DataFrame Panel... ...
分类:
其他好文 时间:
2019-03-22 21:27:22
阅读次数:
214
前面介绍了独热编码和哑编码,还有一种可以将定性特征转化为定量特征的方法,即factorize(),下面将介绍一下该方法 概要:在泰坦尼克灾难预测中,dummy不好处理Cabin(船舱号)这种标称属性,因为它出现的变量比较多。所以Pandas有一个方法叫做factorize(),它可以创建一些数字,来 ...
分类:
其他好文 时间:
2019-03-19 16:45:13
阅读次数:
223
数据访问 在入门教程中,我们已经使用过访问数据的方法。这里我们再集中看一下。 注:这里的数据访问方法既适用于Series,也适用于DataFrame。 **基础方法:[]和. 这是两种最直观的方法,任何有面向对象编程经验的人应该都很容易理解。下面是一个代码示例: 这段代码输出如下: 注1:对于类似属 ...
分类:
编程语言 时间:
2019-03-16 12:35:34
阅读次数:
200
pandas part I: # 总结: DataFrame.loc[0:5] 一共6行数据,而切片[0:5]只有5个数据 在对df的行数据删除后,有些index已缺失,此时用 iloc[]来按照位置索引 取指定行 food_info.loc[[2,5,10]],传入list 取指定列 zinc_c ...
分类:
其他好文 时间:
2019-03-15 14:27:04
阅读次数:
176
问题:spark中如果有两个DataFrame(或者DataSet),DataFrameA依赖DataFrameB,并且两个DataFrame都进行了cache,将DataFrameB unpersist之后,DataFrameA的cache也会失效,官方解释如下: When invalidatin ...
分类:
系统相关 时间:
2019-03-13 18:22:03
阅读次数:
318
一、统计数据频率 1. values_counts 参数详解 参数示例讲解 In [21]: data=pd.DataFrame(pd.Series([1,2,3,4,5,6,11,1,1,1,1,2,2,2,2,3]).values.reshape(4,4),columns=['a','b','c ...
分类:
其他好文 时间:
2019-03-12 23:55:22
阅读次数:
210