正则化

正则化是广泛应用于机器学习和深度学习中的技术，它可以改善过拟合，降低结构风险，提高模型的泛化能力，有必要深入理解正则化技术。

奥卡姆剃刀原则

奥卡姆剃刀原则称为“如无必要，勿增实体”，即简单有效原理。在机器学习中，我们说在相同泛化误差下，优先选用较简单的模型。依赖于该原则，提出了正则化技术。

什么是正则化及正则化的作用

正则化是在经验风险项后面加上正则罚项，使得通过最小化经验风险求解模型参数转变为通过最小化结构风险求解模型参数，进而选择经验风险小并且简单的模型。

式中是经验风险项，是正则项，是正则化参数。

简单的模型拟合程度差(偏差大)，泛化能力强(方差小)；复杂的模型拟合程度好(偏差小)，泛化能力弱(方差大)。

故选用合适的模型复杂度，使得泛化误差最小。

正则化的方法

正则化也可以称为规则化，在数学领域常称为范数，常用的有L1范数和L2范数。P范数的数学公式如下：

L0范数表示向量中非零元素的个数

L1范数表示向量元素的绝对值之和

L2范数表示向量元素的平方和再开方

∞ 范数表示所有向量元素绝对值中的最大值

-∞范数表示所有向量元素绝对值中的最小值

其中L1正则和L2正则是常用的正则化方法，L1正则可以产生稀疏权值矩阵，即产生一个稀疏模型，可以用于特征选择，同时可以防止过拟合。L2正则可以防止模型过拟合。L0范数一定可以保证得到稀疏模型，但L0范数的求解是NP难问题，实际中一般采用L1范数代替L0范数得到稀疏解，可以简单认为L1范数是L0范数的凸近似。

从图形角度分析L1正则与L2正则

从图形角度分析L1正则与L2正则，为简化分析，考虑只有两个权值向量w1和w2