首页 > 其他好文 > 详细

机器学习系列4：模型类型

时间：2020-01-07 13:13:50 阅读：113 评论：0 收藏：0 [点我收藏+]

标签：过多过拟合 logistic 局限速度 log http 标准形式

模型类型

参数模型

统计学中，参数模型通常假设总体服从某一个分布，该分布由一些参数确定(正太分布由均值和方差确定)，在此基础上构造的模型称为参数模型

包括

逻辑回归
线性成分分析
感知机

优点

间洁：理论容易理解和解释结果
快速：参数模型学习和训练的速度都很快
数据更少：通常不需要大量的数据，在对数据的拟合不很好时表现也不错

局限

约束：以选定函数形式的方式来学习本身就限制了模型
有限的复杂度：通常只能应对简单的问题
拟合度小：实际中通常无法和潜在的目标函数吻合

非参数模型

对总体的分布不做任何假设，只是知道总体是一个随机变量，其分布是存在的(分布中也可能存在参数)，但是无法知道其分布的形式，更不知道分布的相关参数，只有在给定一些样本的条件下，能够依据非参数统计的方法进行推断。

对目标函数形式不作过多的假设的算法称为非参数机器学习算法，通过不作假设，算法可以自由的从训练数据中学习任意形式的函数。

非参数理论寻求在构造目标函数的过程中对训练数据作最好的拟合，同时维持一些泛化到未知数据的能力。同样的，他们可以拟合各自形式的函数。

K近邻算法：其目标是基于k个最相近的模式对新的数据进行预测，这种理论对于目标函数的形式，除了相似模型的数目以外不作任何假设

包括

决策树、CART、C4.5
朴素贝叶斯
支持向量机SVM
神经网络

优点

可变性：可以拟合许多不同的函数形式
模型强大：对于目标函数不作假设或者作微小假设
表现良好：对于预测表现可以非常好

局限性

需要更多的数据：对于拟合目标函数需要更多的训练数据
速度慢：因为需要训练更多的参数，训练过程通常比较慢
过拟合：有更高的风险发生过拟合，对于预测也比较难以解释

距离模型

包括

线性回归
SVM
Logistics回归
knn
k-means

预处理

属性多时，最好先降维，以免无意义的数据淹没有意义的数据
使用前做直方图分析，查看样本的密集区域
使用之前需要对各个属性做标准化，以免值大的属性有更大的权重
使用前最好根据经验对各个属性分配不同权重
对于无法直接分开的数据，可以考虑使用核函数转换后再计算距离

技术图片

机器学习系列4：模型类型

标签：过多过拟合 logistic 局限速度 log http 标准形式

原文地址：https://www.cnblogs.com/monkeyT/p/12160707.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！