机器学习总结2 - 关于激活函数、损失函数、正则化、异常检测算法总结

时间：2019-06-03 14:05:10 阅读：197 评论：0 收藏：0 [点我收藏+]

LSTM特性, CNN特性, 损失函数, paper, 项目 ...软件

激活函数:
-> sigmod: 硬饱和性, y(0,1), 斜率趋于0;
-> tanh: 软饱和性, y(-1,1), 虽然输出均值为0，可以更快收敛, 但斜率依然会趋于0;
-> relu: 当x<0时, 存在硬饱和, y(0, +), 使用leak-relu, 当x<0时, 使斜率不会为0;

损失函数/ 性能指标:
-> 均方差mse, 均方根误差rmse, 常用于回归问题, rmse=500, 置信区间(68% 1a, 95% 2a, 99.7% 3a), means: 68% 的预测值位于实际值的500以内;
而岭回归, lasson回归, 是在 mse + L1_L2 正则项;
-> 交叉熵, 一方面, 当使用sigmod激活函数时, 使用交叉熵，否则会存在梯度饱和; 另一方面, 在分类问题, 用其判断真实分布与预测分布的差异;
categorical_crossentropy

正则化:
-> 在每层中, 激活函数之前, 使用L1_L2 混合正则化;

now() 模型综述:
BI平台, OneCLassSVM, 隔离森林, 异常检测; 随机森林， GBDT， LSTM预测, NLP自然语言, CNN卷积推荐。

-> OneCLassSVM： SVM主要解决: 1.小样本, 2.非线性, 3.高纬度;
样本数据对于真实数据的生成过程, 是九牛一毛, 因此需要使用超平面提升泛化能力;
对于非线性, 使用核函数与松弛变量解决: 以X轴向量为例, 若将向量进行分隔，需要使用 y = c0 + c1*x + c2*x^2 ；

-> Isolation Forest: 每颗隔离树: 只有两个子节点或两个叶子节点; 而异常值(离群点) 大概率会被分配到叶子节点,
因此可以使用叶子节点到根节点的路径长度判断是否为异常值; 最大深度为log(n);

-> RandomForest: 基于样本分裂与特征分裂的双重随机性, 具有强泛化能力, 抗噪音, 同时应对连续与离散不同的数据结构,
而且各样本集具有相同的分布;

-> GradientTree Boosting: 使用每一颗回归树优化上一步的残差, 超参数: 学习步长避免局部最优 , 采样比例(0,1) 样本独立性影响泛化能力

-> LSTM:

lstm 预测:

[[0:10],[1:11]] -> 预测 [[11],[12]]

机器学习总结2 - 关于激活函数、损失函数、正则化、异常检测算法总结

标签：最大节点机器学习回归 cal 连续置信区间 rest iso

原文地址：https://www.cnblogs.com/ruili07/p/10967146.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行