回归分析方法之岭回归（Ridge Regression）

岭回归（Ridge Regression）是回归方法的一种，属于统计方法。在机器学习中也称作权重衰减。也有人称之为Tikhonov正则化。

岭回归主要解决的问题是两种：一是当预测变量的数量超过观测变量的数量的时候（预测变量相当于特征，观测变量相当于标签），二是数据集之间具有多重共线性，即预测变量之间具有相关性。

一般的，回归分析的（矩阵）形式如下：

y = \sum_{j=1}^{p}\beta_j x_j + \beta_0

其中，$x$是预测变量，$y$是观测变量，$\beta_j$和$\beta_0$是待求的参数。而$\beta_0$可以理解成偏差（Bias）。

一般情况下，使用最小二乘法求解上述回归问题的目标是最小化如下的式子：

\hat{\beta} = \text{argmin}_{\beta} \sum_{i=1}^N (y_i-\beta_0-\sum_{j=1}^p\beta_j x_i)^2

这里的${1,\cdots,N}$是训练集中的样本。

那么，岭回归就是要在上述最小化目标中加上一个惩罚项$\lambda\sum_{j=1}^p \beta_j^2$:

\hat{\beta}^{\text{bridge}} = \text{argmin}_{\beta} \{\sum_{i=1}^N (y_i-\beta_0-\sum_{j=1}^p\beta_j x_i)^2 + \lambda\sum_{j=1}^p \beta_j^2 \}

这里的$\lambda$也是待求参数。也就是说，岭回归是带二范数惩罚的最小二乘回归。岭回归的这种估计目标叫做收缩估计器（shrinkage estimator）。

传统的回归分析我们需要使用t检验来确定预测变量是否显著，如果不显著则剔除该预测变量，然后继续回归，如此往复得到最终结果。而岭回归不需要这样，只要它的系数$\beta$能向0“收缩”即可减小该变量对最终的影响。