首页
Web开发
Windows程序
编程语言
数据库
移动开发
系统相关
微信
其他好文
会员
首页
>
其他好文
> 详细
机器学习的建议
时间:
2018-11-19 11:00:01
阅读:
203
评论:
0
收藏:
0
[点我收藏+]
标签:
因此
lin
设计
测试
哪些
模型
测试的
关系
区别
机器学习的建议
开始设计一个机器学习系统
在刚刚开始入手一个机器学习项目的时候, 应该着手于如何将快速实现机器学习算法, 并立刻使用交叉验证的数据集合进行验证, 计算出损失值
\(J_{cv}\)
, 而不是在一开始设计的时候就考虑很多的因素, 比如是否需要更多的特征, 或者需要更多的样本, 实际上, 在没有一个已经实现了的机器学习算法的情况下, 是否需要更多的特征或者更多的样本是未知的, 因此建议先实现一个简单粗暴的机器学习算法, 发现其中的问题, 有哪些地方可以优化, 应该朝那个方向优化, 是需要更多的特征, 还是更多的样本, 还是修改学习率, 还是修改正则化参数。
第一次快速实现了一个简单的机器学习算法之后
绘制出学习曲线, 也就是说上面提到的误差值与样本数量或者特征数量关系
假设我们现在有100个样本, 3个特征, 将其中60个划分为训练样本, 20个划分为交叉验证样本, 20个划分为测试样本
我们的目标是画出
\(J_{train}\)
,
\(J_{cv}\)
与样本数量的学习曲线
写一个for循环, 将输入的样本数量从1一直迭代到60, 在每一个循环中, 我们都计算出模型的参数(也就是生成一个模型), 计算训练误差值
\(J_{train}\)
, 将这个误差保存到列向量中, 同时计算出交叉验证误差
\(J_{cv}\)
, 也保存到另外一个列向量中。
在回顾一个一遍, 在for循环中, 我们通过输入训练样本获取到了模型, 接着再一次将训练样本输入到模型中得到一个误差值, 这个就是训练误差; 接着将交叉验证样本输入到模型中, 得到一个误差值, 这个就是交叉验证误差
画出学习曲线
从学习曲线的结果来看, 主要还是看
\(J_{cv}\)
的变化, 因为
\(J_{train}\)
的结果可能会比较乐观
注意点: 在绘制学习曲线的时候,
\(J_{train}\)
,
\(J_{cv}\)
都是必要求的, 值得注意的是, 这里的
\(J_{train}\)
和在训练的时候使用到的
\(J_{train}\)
还是有一点区别的, 后者是在不点迭代更新参数产生的误差, 当这个值达到了我们的阈值则表示我们的参数已经训练好了, 也就是我们的模型出来了, 这里更加强调训练的概念; 而前者则更加强调测试的概念, 也就说从训练集中出来的模型在使用训练集中的数据进行测试。
机器学习的建议
标签:
因此
lin
设计
测试
哪些
模型
测试的
关系
区别
原文地址:https://www.cnblogs.com/megachen/p/9981380.html
踩
(
0
)
赞
(
0
)
举报
评论
一句话评论(
0
)
登录后才能评论!
分享档案
更多>
2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)
周排行
更多
分布式事务
2021-07-29
OpenStack云平台命令行登录账户
2021-07-29
getLastRowNum()与getLastCellNum()/getPhysicalNumberOfRows()与getPhysicalNumberOfCells()
2021-07-29
【K8s概念】CSI 卷克隆
2021-07-29
vue3.0使用ant-design-vue进行按需加载原来这么简单
2021-07-29
stack栈
2021-07-29
抽奖动画 - 大转盘抽奖
2021-07-29
PPT写作技巧
2021-07-29
003-核心技术-IO模型-NIO-基于NIO群聊示例
2021-07-29
Bootstrap组件2
2021-07-29
友情链接
兰亭集智
国之画
百度统计
站长统计
阿里云
chrome插件
新版天听网
关于我们
-
联系我们
-
留言反馈
© 2014
mamicode.com
版权所有 联系我们:gaon5@hotmail.com
迷上了代码!