开始尝试sparkSQL的尝试编程。 SparkSQL总体来说就是spark中的hive,但麻烦的一点是spark官网下载的并不自带对hive的支持,所以不能使用外部的hive。之后解决。 首先创建了一个json文件用来创建DataFrame,内容为: { "id":1 , "name":" Ell ...
分类:
其他好文 时间:
2020-02-01 23:18:31
阅读次数:
97
这是林子雨spark实验5的第三问:配置Spark通过JDBC连接数据库MySQL,编程实现利用DataFrame插入下列数据到MySQL, 最后打印出 age 的最大值和 age 的总和 下面贴出代码(测试过ok) 1 import java.util.Properties 2 import or ...
分类:
数据库 时间:
2020-02-01 23:00:21
阅读次数:
210
pandas.io 1.概述,主要从txt,json,pkl,csv,excel中读取数据,读取的数据最终转化为pandas.core.frame.DataFrame类型的df 先来看总的api from pandas.io.clipboards import read_clipboard #读剪切 ...
分类:
其他好文 时间:
2020-02-01 10:54:31
阅读次数:
125
一、pandas提供两个常用的数据结构: ? Series? DataFrame 二、Series Series 类似于一维数组对象,它是由一组数据(不同数据类型)以及与之相关的(数据标签)索引组成,用于存储一行或者一列的数据,(类似于列表,但是有索引) 2.1、如何创建Series对象? 常见的创 ...
分类:
其他好文 时间:
2020-01-30 19:02:27
阅读次数:
128
1、构造需要从字典构造cds={'code':["002372.XSHE","002415.XSHE","002304.XSHE","600519.XSHG","600196.XSHG"], #代码 'name':["伟星新材", "海康威视", "洋河股份", "贵州茅台", "复星医药"]} c... ...
分类:
其他好文 时间:
2020-01-29 20:03:20
阅读次数:
106
使用聚宽的python2.7,算出一个表格,感觉挺好 然而我的强迫症又发了,标题为什么对不齐啊。网上一研究,是因为标题是中文所致,解决方法: 但是,在聚宽里老是报错,找不到这个key 在网上继续找,发现有两个版本 其一,https://blog.csdn.net/weekdawn/article/d... ...
分类:
其他好文 时间:
2020-01-29 17:53:36
阅读次数:
412
RDD、DataFrame与DataSet三者有许多的共性,都有各自使用的场景,常常需要在三者之间进行转换DataFrame/Dataset 转 RDD:val rdd1=testDF.rddval rdd2=testDS.rdd RDD 转 DataFrame:// 一般用元组把一行的数据写在一起... ...
分类:
其他好文 时间:
2020-01-28 23:32:20
阅读次数:
99
5. 本地数据库 很简单的用本地Sqlite查找股票数据。 DataSource类,返回的是Dataframe物件。这个Dataframe物件,在之后的业务,如计算股票指标,还需要特别处理。 import os import sqlite3 as sqlite3 import numpy as np ...
分类:
数据库 时间:
2020-01-27 19:26:57
阅读次数:
112
3. 如果同时拿一个板块股票的收市价和成交额 前一篇说到,用大盘指数,如恒生指数,上证,深证,这些重要的大盘指数来做Dataframe主键,那麽如果是同时拿一个板块股票的收市价和成交额,可以怎样操作呢。 在实际开发中,应该是简单的数据结构,容易阅读为主,所以Dataframe的multi index ...
分类:
其他好文 时间:
2020-01-27 18:58:41
阅读次数:
69
4. 如果计算各项股票指标时,或者处理业务流程时,上一篇的直观认知数据结构,怎样帮助开发者去好好操作,又同时避免计算错误的坑。 首先从上篇的数据结据,可以看出/设计出多少种业务和股票指标。 A. 恒生成份股的股份编号 恒指成份股编别 = list(恒生成份股.keys()) B. 个股的收市价&成交 ...
分类:
其他好文 时间:
2020-01-27 18:56:54
阅读次数:
77