除了删除空值,还有一种处理空值的方法是填充(Imputation)。 让我们看看在revenue_millions列中填充缺失的值。 首先,将该列提取到变量中: revenue = movies_df['revenue_millions'] 使用DataFrame['列名']可以获取1列数据,即一个 ...
分类:
编程语言 时间:
2020-06-21 21:39:06
阅读次数:
127
总公司的某数据以文件存放在FTP服务器上,现将其移植到我本地的SQL服务器。 我已有连接pyodbc import pyodbcimport pandas as pdfrom ftplib import FTPimport sqlalchemy ip='XXX.XXX.XXX.XXX'port=21 ...
分类:
数据库 时间:
2020-06-21 10:12:44
阅读次数:
224
zipline 程序的整体运行逻辑: 一个回测框架至少应该包括回测环境的配置,回测的事件触发,回测的事件处理,回测循环这样的几个模块 使用conda安装zipline $ conda create -n env_zipline python=3.5 $ conda activate env_zipl ...
分类:
其他好文 时间:
2020-06-20 10:26:42
阅读次数:
56
@ 分组统计 - groupby功能 根据某些条件将数据拆分成组 对每个组独立应用函数 将结果合并到一个数据结构中 Dataframe在行(axis=0)或列(axis=1)上进行分组,将一个函数应用到各个分组并产生一个新值,然后函数执行结果被合并到最终的结果对象中。 df.groupby(by=N ...
分类:
其他好文 时间:
2020-06-18 21:43:25
阅读次数:
60
@ 一、Pandas简介 1.1 数据结构 1.2 大小可变与数据复制 Pandas 所有数据结构的值都是可变的,但数据结构的大小并非都是可变的,比如,Series 的长度不可改变,但 DataFrame 里就可以插入列。 Pandas 里,绝大多数方法都不改变原始的输入数据,而是复制数据,生成新的 ...
分类:
其他好文 时间:
2020-06-18 15:48:07
阅读次数:
53
Union and union all in Pandas dataframe Python: Union all of two data frames in pandas can be easily achieved by using concat() function. Lets see wit ...
分类:
编程语言 时间:
2020-06-17 18:12:48
阅读次数:
95
有这样一张表,“non_response_num”是真实非应答次数,“predict_non_response_num”是模型预测的非应答次数。 想计算每个时间片内不同group_id的所有hex_center的MAE值,用groupby方法: from sklearn import metrics ...
分类:
其他好文 时间:
2020-06-16 14:52:10
阅读次数:
72
Pandas基于两种数据类型: series 与 dataframe Series:是一个一维的数据类型 DataFrame:是一个二维的表结构 选择/切片 df['code'] # 选取一列,生成一个Series df[['code']] # 选取一列,生成一个DataFrame df[['cod ...
分类:
其他好文 时间:
2020-06-16 11:31:50
阅读次数:
65
第0章-课程介绍 第1章-大数据技术概述 第2章-Scala语言基础 第3章-Spark的设计与运行原理 第4章-Spark环境搭建和使用方法 第5章-RDD编程 第6章-Spark-SQL 第7章-Spark-Streaming 第8章-Spark-MLlib ...
分类:
其他好文 时间:
2020-06-10 23:09:12
阅读次数:
145
在使用python for循环做数据处理时,会遇到某些文件为空,导致程序报错,可以使用dataframe.empty加if条件判断进行解决 例如: 1 data = pd.read_csv(file, skiprows=1, header=None, error_bad_lines=False) 2 ...
分类:
编程语言 时间:
2020-06-10 11:16:52
阅读次数:
168