一.查看特征数据类型,有没有文本型变量需要处理 train_data.info() train_data.describe(include="all",percentiles=[0.5]).T.round(2) 二.查看缺失值数量或占比 三.查看标签分布 # 查看标签分布 df['label'].v ...
分类:
其他好文 时间:
2020-02-20 22:10:48
阅读次数:
52
1、专用模式,实现90%空间利用率纠删码及副本模式是在分布式存储系统中广泛应用的横向扩展模式,副本模式存储空间损耗最大,其次纠删码模式,但Infortrend自主研发的专用扩展模式,优于前两者,能最大化的实现高IO吞吐率,将空间利用率提升至90%,RAID空间占比小,剩余可用空间多,也就间接减少了硬件采购需求,成为节约成本的一大助力。2、三重混合系统模式。按需选用InfortrendCS又可称之为
分类:
其他好文 时间:
2020-02-20 15:22:42
阅读次数:
81
定义 各类别的出现概率不均衡的情况 如信用风险中正常用户远多于逾期、违约用户;流失风险中留存用户多于流失用户 隐患 降低对少类样本的灵敏性。但我们建模就是要找到这少类样本,所以必须对数据加以处理,来提高灵敏性。 解决方案 1. 过采样 对坏的人群提高权重,即复制坏样本,提高坏样本的占比。 优点: 简 ...
分类:
其他好文 时间:
2020-02-20 13:05:52
阅读次数:
77
机器学习实战之K-近邻算法: KNN算法,就是在已知数据集中,计算出离输入的需要预测的点最接近的K个点,然后通过这最近的K个点中哪种分类所占比最高,该预测点就是哪一种分类。 from numpy import * import operator import matplotlib import ma ...
分类:
编程语言 时间:
2020-02-19 18:49:49
阅读次数:
66
/** * 时间范围占比 * * @param st 开始时间戳 * @param et 结束时间戳 * @param cst 对比开始时间戳 * @param cet 对比结束时间戳 * @return 占比 * @author liushouyun */ public static Tuple2 ...
分类:
其他好文 时间:
2020-02-14 20:43:20
阅读次数:
74
以下文章来源于JavaGuide,作者SnailClimb 原文链接:GitHub 上 10 个顶级开源项目 正文 今天跟大家分享下,在 GitHub 上 Star 排名最高的 10 个开源项目是什么?JS 的项目占比挺大,其他基本都是文档/学习类型的仓库。 说明:数据统计于 2019-11-27。 ...
分类:
其他好文 时间:
2020-02-10 22:50:21
阅读次数:
125
在对Java代码进行优化的时候,想方设法的要提高整体的效率,使用JProfiler看代码的时间占比,然后,看看哪些部分是可以优化的,减少运行时间的。下面有这么几个方向。 1. 能使用构造函数一步到位的,就尽量使用构造函数,而不是使用一个个setter函数 2. 能使用数组的,就使用数组。替代list ...
分类:
编程语言 时间:
2020-02-10 11:46:31
阅读次数:
57
SQL Server 小数类型(float 和 decimal) 在SQL Server中,实际上小数数值只有两种数据类型:float 和 decimal,分别是近似数值和精确数值。其他小数类型,都可以使用float和decimal来替代,例如,双精度(double precision)数据类型等价 ...
分类:
数据库 时间:
2020-02-05 17:54:47
阅读次数:
100
摘要: 我们发现短期投资者增加与长期投资者减少以及短期投资收益的增加有关系。这导致公司权益价值在短期内上升,并在一段时间后反转。我们将双重差分(DID)应用于公司价值相对于罗素2000的增加,并将其与短期持有占比的增长进行比较。我们使用短期投资机构的企业所有权比重作为市场中短期投资者数量的代理变量。 ...
分类:
其他好文 时间:
2020-02-02 13:58:45
阅读次数:
80
随着系统的升级与漏洞的修补,入侵主机进而进行破坏的病毒攻击方式在攻击中所占比例逐渐减少,这些攻击转而改为恶意的消耗网络有限的资源或占用系统,进而破坏系统对外提供服务的能力;但传统的系统升级无法检测并预防此类攻击。针对此类攻击,业界提出了以检测网络数据流的方法来判断网络异常和攻击:借助实时的检测网络数 ...
分类:
Web程序 时间:
2020-01-27 20:41:08
阅读次数:
92