码迷,mamicode.com
首页 >  
搜索关键字:dataframe    ( 1310个结果
SPARK_sql加载,hive以及jdbc使用
sql加载 格式 或者下面这种直接json加载 或者下面这种spark的text加载 以及rdd的加载 上述记得配置文件加入.mastrt("local")或者spark://master:7077 dataset的生成 下面是dataframe 下面是dataset $ bin/spark-she ...
分类:数据库   时间:2019-03-29 01:12:06    阅读次数:368
pyspark dataframe api速览
快速了解dataframe 提供的功能. 避免重复工作 版本 spark 2.2 相关性 cov corr 删除 dropDuplicates dropna 选择 select colRegex 正则 selectExpr 支持 sql 表达式 where exceptAll 在df1不在df2 f ...
分类:Windows程序   时间:2019-03-27 22:47:26    阅读次数:413
第五周周二练习:实验 5 Spark SQL 编程初级实践
1.题目: 源码: 数据库数据: 结果: 2.编程实现将 RDD 转换为 DataFrame 官网给出两种方法,这里给出一种(使用编程接口,构造一个 schema 并将其应用在已知的 RDD 上。): 源码: 结果: ...
分类:数据库   时间:2019-03-26 21:13:29    阅读次数:310
Spark mllib多层分类感知器在情感分析中的实际应用
import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.MultilayerPerceptronClassifierimport org.apache.spark.ml.evaluation.Multi ...
分类:其他好文   时间:2019-03-25 17:39:31    阅读次数:153
数据挖掘---Pandas的学习
Pandas介绍(panel + data + analysis) 为什么使用Pandas 便捷的数据处理能力 读取文件方便 封装了Matplotlib、Numpy的画图和计算 Pandas的核心数据结构(DataFrame+Panel+Series) 3大核心结构: DataFrame Panel... ...
分类:其他好文   时间:2019-03-22 21:27:22    阅读次数:214
定性特征转化为定量特征之factorize
前面介绍了独热编码和哑编码,还有一种可以将定性特征转化为定量特征的方法,即factorize(),下面将介绍一下该方法 概要:在泰坦尼克灾难预测中,dummy不好处理Cabin(船舱号)这种标称属性,因为它出现的变量比较多。所以Pandas有一个方法叫做factorize(),它可以创建一些数字,来 ...
分类:其他好文   时间:2019-03-19 16:45:13    阅读次数:223
程序员用于机器学习编程的Python 数据处理库 pandas 进阶教程
数据访问 在入门教程中,我们已经使用过访问数据的方法。这里我们再集中看一下。 注:这里的数据访问方法既适用于Series,也适用于DataFrame。 **基础方法:[]和. 这是两种最直观的方法,任何有面向对象编程经验的人应该都很容易理解。下面是一个代码示例: 这段代码输出如下: 注1:对于类似属 ...
分类:编程语言   时间:2019-03-16 12:35:34    阅读次数:200
pandas小结
pandas part I: # 总结: DataFrame.loc[0:5] 一共6行数据,而切片[0:5]只有5个数据 在对df的行数据删除后,有些index已缺失,此时用 iloc[]来按照位置索引 取指定行 food_info.loc[[2,5,10]],传入list 取指定列 zinc_c ...
分类:其他好文   时间:2019-03-15 14:27:04    阅读次数:176
【原创】大叔经验分享(39)spark cache unpersist级联操作
问题:spark中如果有两个DataFrame(或者DataSet),DataFrameA依赖DataFrameB,并且两个DataFrame都进行了cache,将DataFrameB unpersist之后,DataFrameA的cache也会失效,官方解释如下: When invalidatin ...
分类:系统相关   时间:2019-03-13 18:22:03    阅读次数:318
Pandas系列(十三)-其他常用功能
一、统计数据频率 1. values_counts 参数详解 参数示例讲解 In [21]: data=pd.DataFrame(pd.Series([1,2,3,4,5,6,11,1,1,1,1,2,2,2,2,3]).values.reshape(4,4),columns=['a','b','c ...
分类:其他好文   时间:2019-03-12 23:55:22    阅读次数:210
1310条   上一页 1 ... 52 53 54 55 56 ... 131 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!