https://www.leiphone.com/news/201803/fPnpTdrkvUHf7uAj.html 雷锋网 AI 研习社消息,Kaggle 上 Corporación Favorita 主办的商品销量预测比赛于两个月前落下帷幕,此次比赛的奖金池共计三万美元,吸引到 1675 支队伍 ...
分类:
其他好文 时间:
2018-09-25 20:40:13
阅读次数:
235
主要参考 K-means 聚类算法及 python 代码实现 还有 《机器学习实战》 这本书,当然前面那个链接的也是参考这本书,懂原理,会用就行了。 1、概述 K-means 算法是集简单和经典于一身的基于距离的聚类算法 采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。 该算 ...
分类:
编程语言 时间:
2018-08-10 17:09:20
阅读次数:
191
一、为何需要归一化 不同的评价指标往往具有不同的量纲(例如:对于评价房价来说量纲指:面积、房价数、楼层等;对于预测某个人患病率来说量纲指:身高、体重等。)和量纲单位(例如:面积单位:平方米、平方厘米等;身高:米、厘米等),这样的情况会影响到数据分析的结果,为了消除指标之间量纲的影响,需要进行数据标准 ...
分类:
其他好文 时间:
2018-08-07 19:02:40
阅读次数:
322
机器学习分为三个阶段: 第一阶段:学习模型。采用学习算法,通过对训练集进行归纳学习得到分类模型; 第二阶段:测试模型。将已经学习得到的分类模型用于测试集,对测试集中未知类别的实例进行分类。 第三阶段:性能评估。显然,通过测试集产生的分类未必是最佳的,这就导致对测试集的分类可能产生错误。而人们希望尽量 ...
分类:
编程语言 时间:
2018-07-19 17:29:57
阅读次数:
391
概述 分库分表的必要性 首先我们来了解一下为什么要做分库分表。在我们的业务(web应用)中,关系型数据库本身比较容易成为系统性能瓶颈,单机存储容量、连接数、处理能力等都很有限,数据库本身的“有状态性”导致了它并不像Web和应用服务器那么容易扩展。那么在我们的业务中,是否真的有必要进行分库分表,就可以 ...
分类:
数据库 时间:
2018-07-15 13:00:11
阅读次数:
200
准确率、精确率(查准率)、召回率(查全率)、F1值、ROC曲线的AUC值,都可以作为评价一个机器学习模型好坏的指标(evaluation metrics),而这些评价指标直接或间接都与混淆矩阵有关,前四者可以从混淆矩阵中直接计算得到,AUC值则要通过ROC曲线进行计算,而ROC曲线的横纵坐标又和混淆 ...
分类:
其他好文 时间:
2018-07-09 21:33:04
阅读次数:
1128
对于分类模型的评价指标主要有错误率 、准确率、查准率、查全率、混淆矩阵、F1值、AUC和ROC。 1.1 错误率和准确率 错误率(Error rate):通常把分类错误的样本数占总样本总数的比例称为“错误率”。 准确率(Accuracy):是指分类正确的样本数占样本总数的比例,即准确率=1-错误率。 ...
分类:
其他好文 时间:
2018-07-08 19:00:52
阅读次数:
1303
混淆矩阵是一种用于性能评估的方便工具,它是一个方阵,里面的列和行存放的是样本的实际类vs预测类的数量。 P =阳性,N =阴性:指的是预测结果。 T=真,F=假:表示 实际结果与预测结果是否一致,一致为真,不一致为假。 TP=真阳性:预测结果为P,且实际与预测一致。 FP=假阳性:预测结果为P,但与 ...
分类:
其他好文 时间:
2018-07-07 15:47:30
阅读次数:
223
机器学习:准确率(Precision)、召回率(Recall)、F值(F-Measure)、ROC曲线、PR曲线 在介绍指标前必须先了解“混淆矩阵”: 混淆矩阵 True Positive(真正,TP):将正类预测为正类数,是正的,也预测正的 True Negative(真负,TN):将负类预测为负 ...
分类:
其他好文 时间:
2018-06-21 17:40:14
阅读次数:
182
项目文档:测试文档 1.引言 1.1编写目的 编写本测试计划的目的是: (1) 为整个测试阶段的管理工作和技术工作提供指南同时确定测试的内容和范围,为评价系统提供依据; (2) 此外还帮助安排测试活动,说明对资源的需求; (3) 说明测试结果的评价指标。 本文档的主要内容包括: (1) 测试系统简介 ...
分类:
其他好文 时间:
2018-06-20 18:44:42
阅读次数:
219