一、透视表 pivot函数、pivot_table函数 一般状态下,数据在DataFrame会以压缩(stacked)状态存放,例如上面的Gender,两个类别被叠在一列中。pivot_table函数可将某一原列转为新列,新列中的值由其他列确定。请体会pivot_table函数中参数的作用: 其他一 ...
分类:
其他好文 时间:
2020-04-28 22:57:13
阅读次数:
99
第一种方式: private def singleDataSaveMysql(sql: String) = { val dataFrame2: DataFrame = ss.sql(sql) val resultRDD = df2rdd(dataFrame2) val value: RDD[Map[ ...
分类:
数据库 时间:
2020-04-28 17:18:05
阅读次数:
50
https://pandas.pydata.org/pandas docs/stable/getting_started/10min.html https://blog.csdn.net/KevinZ5111/article/details/81006852?depth_1 utm_source=d ...
分类:
其他好文 时间:
2020-04-28 16:58:29
阅读次数:
46
1.基本使用 1.1参数不冲突 参数不冲突时,直接用一个字典传递参数和要对应的候选值给GridSearchCV即可 我这里的参数冲突指的是类似下面这种情况:① 参数取值受限:参数a='a'时,参数b只能取'b',参数a='A'时,参数b能取'b'或'B'② 参数互斥:参数 a 或 b 二者只能选一个 ...
分类:
其他好文 时间:
2020-04-28 00:10:02
阅读次数:
204
合并两个没有共同列的dataframe,相当于按行号求笛卡尔积。 最终效果如下 代码如下: 目前来看运行速度比较慢,后面考虑能不能继续优化。 ...
分类:
编程语言 时间:
2020-04-27 11:49:32
阅读次数:
74
上个一篇博客讲解了如何进行数据的缺失值处理,本篇就来讲解一下如何进行数据转换的一系列操作。 一:删除重复值 由于各种原因,DataFrame中会出现重复行,如下: 用duplicated方法可以返回一个布尔值Series,找出每一行是否有重复情况。 而drop_duplicates返回的是DataF ...
分类:
编程语言 时间:
2020-04-26 21:16:56
阅读次数:
98
1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...
分类:
数据库 时间:
2020-04-26 18:43:28
阅读次数:
81
label1=['apple','orange','pear','banana'] label2=['one','two','three','four'] df=pd.DataFrame(np.arange(16).reshape(4,-1),index=label1,columns=label2) ...
分类:
其他好文 时间:
2020-04-24 01:53:43
阅读次数:
109
1 提供历史数据,暂时不提供实时数据 2 5,15,60分钟历史数据齐全,但是date 是“yyyy-mm--dd”格式,缺少分钟信息 3 open,close,high,low 数据是文本格式,不能直接使用 4 query_history_k_data_plus() 获取的结果res,使用方法ge ...
分类:
其他好文 时间:
2020-04-19 22:33:28
阅读次数:
374
5.访问数据 DataFrame的数据结构分为行和列,一行和一列的交叉位置是一个cell,该cell的位置是由行索引和列索引共同确定的。可以通过at/iat,或loc/iloc属性来访问数据框的元素,该属性后跟一个中括号:[row,col],中括号内 row表示行索引或行标签,col表示列索引或列标 ...
分类:
编程语言 时间:
2020-04-18 23:11:51
阅读次数:
74