【SVM】简单介绍（三）

我们考虑SVM的对偶问题，我们通常是在对偶空间中进行求解的。

1、Lagrange Multipliers

对于一个很一般的问题
$\ text { subject to } quad & left{begin{array}{l} a(x) geq 0 \ b(x) leq 0 \ c(x)=0 end{array}right. end{aligned}$

构造拉氏函数
$f(x)-alpha_1 a(x)-alpha_2 b(x)-alpha_3 c(x) \ & left{begin{array}{l} alpha_1 geq 0 \ alpha_2 leq 0 \ alpha_3 text { is unconstrained } end{array}right. end{aligned}$
我们对拉氏函数关于拉格朗日乘子求最大
$_alpha L(x, alpha)=left{begin{array}{lr} f(x), & text { if }left{begin{array}{l} a(x) geq 0 \ b(x) leq 0 \ c(x)=0 end{array}right. \ +infty, & text { otherwise } end{array}right.$
于是我们的优化目标变为
$_x &max _alpha L(x, alpha)\ text { subject to } quad & left{begin{array}{l} a(x) geq 0 \ b(x) leq 0 \ c(x)=0 end{array}right. end{aligned}$
进一步的，我们又有
$_x max _alpha L(x, alpha)=max _alpha min _x L(x, alpha)$
当我们在内层把 $x$ 消掉后，我们最终的优化问题将与样本无关，只与拉格朗日乘子有关，SVM似乎不会受样本的维数影响

2、KKT条件

$fleft(x^*right)-alpha_1 nabla aleft(x^*right)-alpha_2 nabla bleft(x^*right)-alpha_3 nabla cleft(x^*right)=0 \ & text { Primal feasibility }left{begin{array}{l} aleft(x^*right) geq 0 \ bleft(x^*right) leq 0 \ cleft(x^*right)=0 end{array}right. \ & text { Dual feasibility }left{begin{array}{l} alpha_1 geq 0 \ alpha_2 leq 0 \ alpha_3 text { is unconstrained } end{array}right. \ & text { Complementary slackness }left{begin{array}{l} alpha_1 aleft(x^*right)=0 \ alpha_2 bleft(x^*right)=0 \ alpha_3 cleft(x^*right)=0 end{array}right. end{aligned}$

3、Hard Margin SVM 对偶问题

回到我们的Hard Margin SVM

Minimize $frac{1}{2}|mathbf{w}|^2$
subject to $1-y_ileft(mathbf{w}^T mathbf{x}_i+bright) leq 0 quad$ for $i = 1, \dots, n$

构造拉格朗日函数
$mathbf{w}^T mathbf{w}+sum_{i=1}^n alpha_ileft(1-y_ileft(mathbf{w}^T mathbf{x}_i+bright)right)$
分别对权重和偏置求偏导
$mathbf{w}+sum_{i=1}^n alpha_ileft(-y_iright) mathbf{x}_i&=mathbf{0} quad Rightarrow quad mathbf{w}=sum_{i=1}^n alpha_i y_i mathbf{x}_i \ sum_{i=1}^n alpha_i y_i&=0 quad alpha_i geq 0 \ & end{aligned}$
因此将Hard Margin SVM转化为对偶问题（把求得的 $w$ 代入）
$W(boldsymbol{alpha})=sum_{i=1}^n alpha_i-frac{1}{2} sum_{i=1, j=1}^n alpha_i alpha_j y_i y_j mathbf{x}_i^T mathbf{x}_j \ & text { subject to } alpha_i geq 0, sum_{i=1}^n alpha_i y_i=0 end{aligned}$
特别注意到：
$mathbf{w}=sum_{i=1}^n alpha_i y_i mathbf{x}_i$

由于标签的值为+1或-1,所以上式隐含正负样本对分解面的贡献是大致相同的。正负样本规模大致相当
对于每一个样本 $mathbf{x}_i$ ，都有一个 $alpha_i$ ，而当 $alpha_i$ 为 $0$ 时，该样本对分类器没有贡献，事实确实如此。而那些对分类器有贡献的样本又叫支撑向量Support Vectors