主要内容: 非平衡数据的特征 SMOTE算法的思想及步骤 SMOTE算法的手工案例 SMOTE算法的函数介绍 1.非平衡数据的特征 在实际应用中,类别型的因变量可能存在严重的偏倚,即类别之间的比例严重失调。如欺诈问题中,欺诈类观测在样本集中毕竟占少数;客户流失问题中,忠实的客户往往也是占很少一部分; ...
分类:
编程语言 时间:
2019-10-31 22:10:26
阅读次数:
123
数据的预处理 数据预处理的主要内容包括数据的清洗,数据的集成,数据的变换,数据的规约. 数据清洗:数据的清洗主要是删除原始数据集中的无关数据,重复数据,平滑噪声数据,筛选掉与挖掘主体无关的数据,处理缺失值,异常值. 缺失值的处理:缺失值的处理分为3种方式:删除记录,数据补差,和不处理 数据补插方式: ...
分类:
其他好文 时间:
2019-10-27 12:27:11
阅读次数:
83
逻辑回归由于其简单、高效、可解释性强的特点,在实际用途中十分的广泛:从购物预测到用户营销响应,从流失分析到信用评价,都能看到其活跃的身影。可以说逻辑回归占据了分类算法中非常重要的地位。 逻辑回归:logistic regression,LR。模型公式是Logistic函数,也叫Sigmoid函数。图 ...
分类:
编程语言 时间:
2019-10-26 17:04:05
阅读次数:
109
应用统计学-方差分析 数值型数据使用线性回归来研究因素对因变量的影响。类别型数据使用方差分析来研究因素对因变量的影响。方差分析是使用方差比MSA/MSE来检验均值是否全相等,即相等是H0假设,而不全相等是H1假设。自变量是因素,而因素取值是水平。比如,降水量是因素,降水量大、中和小是因素的三个水平。 ...
分类:
其他好文 时间:
2019-10-17 01:36:24
阅读次数:
501
Python采用基于值的内存管理模式。赋值语句的执行过程是:首先把等号右侧表达式的值计算出来,然后在内存中寻找一个位置把值放进去,最后创建变量并指向这个内存地址。Python中的变量并不直接存储值,而是存储了值的内存地址或者引用,这也是变量类型随时可以改变的原因。 变量用于引用在程序中可能会变化的值 ...
分类:
其他好文 时间:
2019-10-16 23:13:00
阅读次数:
131
变量预测过程分为动态预测与静态预测.动态预测中预测样本的初始值使用滞后变量 Y 的实际值,在随后的预测中使用 Y 的预测值,动态预测在预测过程中重复使用滞后因变量的预测值 。 ...
分类:
其他好文 时间:
2019-09-29 10:06:08
阅读次数:
141
在进行线性回归分析时,容易出现自变量(解释变量)之间彼此相关,这种情况被称作多重共线性问题。 适度的多重共线性不成问题,但当出现严重共线性问题时,可能导致分析结果不稳定,出现回归系数的符号与实际情况完全相反的情况。本应该显著的自变量不显著,本不显著的自变量却呈现出显著性,这种情况下就需要消除多重共线 ...
分类:
其他好文 时间:
2019-09-04 13:37:09
阅读次数:
188
调用scipy包中的curve_fit,可以根据指定的函数形式,对一组已知自变量和因变量的数据进行曲线拟合。 也可以定义三个参数的函数: ...
分类:
编程语言 时间:
2019-08-19 00:19:37
阅读次数:
173
A 1148 Werewolf - Simple Version 思路比较直接:模拟就行。因为需要序列号最小的两个狼人,所以以狼人为因变量进行模拟。 1 #include <cstdio> 2 #include <cstdlib> 3 #include <iostream> 4 #include < ...
分类:
其他好文 时间:
2019-08-19 00:09:02
阅读次数:
112
多项式回归 [TOC] 直线回归研究的是一个依变量与一个自变量之间的回归问题。 研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归(Polynomial Regression)多项式回归模型是线性回归模型的一种。 多项式回归问题可以通过变量转换化为多元线性回归问题来解决。 一、多 ...
分类:
其他好文 时间:
2019-08-11 00:25:05
阅读次数:
91