搜索关键字：dataframe，搜索到1310个结果！码迷,mamicode.com！

SPARK_sql加载,hive以及jdbc使用

sql加载格式或者下面这种直接json加载或者下面这种spark的text加载以及rdd的加载上述记得配置文件加入.mastrt("local")或者spark://master:7077 dataset的生成下面是dataframe 下面是dataset $ bin/spark-she ...

分类：数据库时间：2019-03-29 01:12:06 阅读次数：368

pyspark dataframe api速览

快速了解dataframe 提供的功能. 避免重复工作版本 spark 2.2 相关性 cov corr 删除 dropDuplicates dropna 选择 select colRegex 正则 selectExpr 支持 sql 表达式 where exceptAll 在df1不在df2 f ...

分类：Windows程序时间：2019-03-27 22:47:26 阅读次数：413

第五周周二练习：实验 5 Spark SQL 编程初级实践

1.题目：源码：数据库数据：结果： 2.编程实现将 RDD 转换为 DataFrame 官网给出两种方法，这里给出一种（使用编程接口，构造一个 schema 并将其应用在已知的 RDD 上。）：源码：结果： ...

分类：数据库时间：2019-03-26 21:13:29 阅读次数：310

Spark mllib多层分类感知器在情感分析中的实际应用

import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.MultilayerPerceptronClassifierimport org.apache.spark.ml.evaluation.Multi ...

分类：其他好文时间：2019-03-25 17:39:31 阅读次数：153

数据挖掘---Pandas的学习

Pandas介绍（panel + data + analysis）为什么使用Pandas 便捷的数据处理能力读取文件方便封装了Matplotlib、Numpy的画图和计算 Pandas的核心数据结构(DataFrame+Panel+Series) 3大核心结构： DataFrame Panel... ...

分类：其他好文时间：2019-03-22 21:27:22 阅读次数：214

定性特征转化为定量特征之factorize

前面介绍了独热编码和哑编码，还有一种可以将定性特征转化为定量特征的方法，即factorize（）,下面将介绍一下该方法概要：在泰坦尼克灾难预测中，dummy不好处理Cabin（船舱号）这种标称属性，因为它出现的变量比较多。所以Pandas有一个方法叫做factorize()，它可以创建一些数字，来 ...

分类：其他好文时间：2019-03-19 16:45:13 阅读次数：223

程序员用于机器学习编程的Python 数据处理库 pandas 进阶教程

数据访问在入门教程中，我们已经使用过访问数据的方法。这里我们再集中看一下。注：这里的数据访问方法既适用于Series，也适用于DataFrame。 **基础方法：[]和. 这是两种最直观的方法，任何有面向对象编程经验的人应该都很容易理解。下面是一个代码示例：这段代码输出如下：注1：对于类似属 ...

分类：编程语言时间：2019-03-16 12:35:34 阅读次数：200

pandas小结

pandas part I: # 总结： DataFrame.loc[0:5] 一共6行数据，而切片[0:5]只有5个数据在对df的行数据删除后，有些index已缺失，此时用 iloc[]来按照位置索引取指定行 food_info.loc[[2,5,10]]，传入list 取指定列 zinc_c ...

分类：其他好文时间：2019-03-15 14:27:04 阅读次数：176

【原创】大叔经验分享（39）spark cache unpersist级联操作

问题：spark中如果有两个DataFrame（或者DataSet），DataFrameA依赖DataFrameB，并且两个DataFrame都进行了cache，将DataFrameB unpersist之后，DataFrameA的cache也会失效，官方解释如下： When invalidatin ...

分类：系统相关时间：2019-03-13 18:22:03 阅读次数：318

Pandas系列（十三）-其他常用功能

一、统计数据频率 1. values_counts 参数详解参数示例讲解 In [21]: data=pd.DataFrame(pd.Series([1,2,3,4,5,6,11,1,1,1,1,2,2,2,2,3]).values.reshape(4,4),columns=['a','b','c ...

分类：其他好文时间：2019-03-12 23:55:22 阅读次数：210

共1310条上一页 1 ... 52 53 54 55 56 ... 131 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)