Weak exogeneity:弱外生性。看意思是说假设用来预测的自变量x是没有测量误差的。这一假设当然是不现实的,不过如果没有这个假设的话,模型的复杂度会大大增加。
Linearity:线性。就是因变量y是多个自变量x之间的线性组合。
Constant variance (aka homoscedasticity):同方差性。意思是说不同的因变量x的方差都是相同的。
Independence of errors:误差独立性。即是变量之间是独立的(有些方法可以处理变量之间不独立的情况,如generalized least squares等)。
Lack of multicollinearity in the predictors:预测变量之中没有多重共线性。多重共线性意思是说,This can be triggered by having two or more perfectly correlated predictor variables (e.g. if the same predictor variable is mistakenly given twice, either without transforming one of the copies
or by transforming one of the copies linearly). It can also happen if there is too little data available compared to the number of parameters to be estimated (e.g. fewer data points than regression coefficients). 其后果是:In the case of multicollinearity, the
parameter vector β will be non-identifiable—it has no unique solution. 我的理解是说,没有特征之间的交叉或者多次重复某些互相相关的特征。其实感觉,如果有特征交叉或多次重复相关特征的话,应该就是非线性模型了。当时上课的时候李老师在如何用线性回归模型来描述非线性特征中提到了,就是使用特征交叉、对同一个feature分区间改变权重(区间之间也可以交叉)一类的方法。如果这样导致特征过多、计算量大,而想要降低维度的话,可以使用聚类来把相似特征聚到一起,或者使用L1范数来进行特征选择。