本章主要介绍几种可替代普通最小二乘拟合的其他一些方法。
Why might we want to use another fitting procedure instead of least squares?
better prediction accuracy(预测精度) and better model interpretability(模型解释力).
主要介绍三种方法:
Subset Selection、Shrinkage、Dimension Reduction
6.1Subset Selection
6.1.1 Best Subset Selection
该方法从p 个预测变量中挑选出与响应变最相关的变量形成子集,再对缩减的变量集合使用最小二乘方法。
6.1.2 Stepwise Selection
由于运算效率的限制,当p 很大时,最优子集选择方法不再适用,而且也存在一些统计学上的问题。随着搜索空间始增大,
通过此方法找到的模型虽然在训练数据上有较好的表现,但对新数据并不具备良好的预测能力。从一个巨大搜索空间中得到
的模型通常会有过拟合和系数估计方差高的问题。