吴恩达深度学习专项课程3学习笔记/week1/Setting up ML Application

时间：2018-01-29 20:13:22 阅读：656 评论：0 收藏：0 [点我收藏+]

应用ML是一个高度迭代的过程

Idea->Code->Experment->...

去不断地调整超参数。

通常将数据集划分为Train/Dev/Test集。

以前的ML问题：数据规模在w级，通常70/30划分Train/Test集或者60/20/20比例划分。

现在的大数据时代：数据规模在百w级，趋势是Dev/Test集的比例减小，因为Dev集只需要大到足够判断不同的模型的优劣就可以了，Test集类似。如有100w的数据集，98/1/1的比例是一种较合理的划分。

经验：

可以通过Train set error和Dev set error来判断模型是否存在high bias/variance的问题。

比如，假设假设bayes error约为0%，即人类可以几乎完全准确识别，并且Train和Dev集来自同一个分布。

STEP1 High bias? --> 更大的网络；训练更长时间；（其他NN架构）

STEP2 High variance? --> 更多的数据；正则化；（其他NN架构）

在深度学习时代，不需要再过多考虑bias 和 variance的权衡，如果合理的正则化，采用更大的网络在降低bias的同时几乎不会增加variance，如果有足够大的网络，获得更多的数据在降低variance时几乎不会增加Bias，这也是深度学习在监督学习领域十分有效地原因之一。

原文地址：https://www.cnblogs.com/surimj/p/8379175.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行