一、常用功能及函数简介 包导入 一般我们需要做如下导入,numpy和pandas一般需要联合使用: import pandas as pdimport numpy as np本文采用如下缩写: df:Pandas DataFrame对象s: Pandas Series对象数据导入 pd.read_c ...
分类:
其他好文 时间:
2019-06-12 19:38:24
阅读次数:
133
讨论QQ:1586558083 目录 一、SparkSQL的进化之路 二、认识SparkSQL 2.1 什么是SparkSQL? 2.2 SparkSQL的作用 2.3 运行原理 2.4 特点 2.5 SparkSession 2.7 DataFrames 三、RDD转换成为DataFrame 3. ...
分类:
数据库 时间:
2019-06-11 12:41:29
阅读次数:
145
dropna默认丢失任何含有缺失值的行。 你可能希望丢弃含有NA的行或列,传输how='all'将只丢弃含有NA的行。 要用这种方式丢弃列,只需要传入axis=1即可。 另一个滤除DataFrame行的问题涉及时间序列数据,假设你只想留下一部分观测数据,可以用thresh参数实现此目的。 你可能不想 ...
分类:
其他好文 时间:
2019-06-08 18:59:24
阅读次数:
91
第0章 预备知识0.1 Scala0.1.1 Scala 操作符0.1.2 拉链操作0.2 Spark Core0.2.1 Spark RDD 持久化0.2.2 Spark 共享变量0.3 Spark SQL0.3.1 RDD、DataFrame 与 DataSet0.3.2 DataSet 与 R ...
分类:
数据库 时间:
2019-06-08 11:48:58
阅读次数:
143
使用pip安装pandas_datareader pandas-datareader包中的pandas_datareader.data.DataReader函数可以根据输入的证券Ticker,起始日期和终止日期来返回包含所有历史日价格的数据,其数据类型是DataFrame,这是pandas包引入的一 ...
分类:
其他好文 时间:
2019-06-07 19:19:35
阅读次数:
208
01 概述 Greedy Randomized Adaptive Search,贪婪随机自适应搜索(GRAS),是组合优化问题中的多起点元启发式算法,在算法的每次迭代中,主要由两个阶段组成: 构造(construction)和局部搜索( local search) 。 构造(construction ...
分类:
编程语言 时间:
2019-06-05 09:58:35
阅读次数:
120
工作中遇到的一个问题: 统计各地区新能源汽车的充电时长 数据来源是北理新源的单日全球的运行数据。 这里仅统计北上广重庆四个地区的 数据处理的代码就省略了 需要整理好的是4个dataframe 分别是对应上述4个城市的: 例: 这时候我们需要提取其中的时间序列统计所有vid的 充电状态为1的第一个时间 ...
分类:
其他好文 时间:
2019-05-27 16:28:02
阅读次数:
135
reshape(行数,列数)常用来更改数据的行列数目 一般可用于numpy的array和ndarray, pandas的dataframe和series(series需要先用series.values把对象转化成ndarray结构) 那么问题来了reshape(-1,1)是什么意思呢?难道有-1行? ...
分类:
编程语言 时间:
2019-05-26 00:14:23
阅读次数:
136
当dataframe格式赋给list后,可以用concat()函数将其转化成dataframe格式的数据 ,其中list的每个元素都有dataframe的结构 这里的赋值是指必须是值赋给对应的列名才有效,直接append()列名无效 ...
分类:
其他好文 时间:
2019-05-23 23:12:52
阅读次数:
233