位置: IT常识 - 正文

【机器学习】支持向量回归

编辑:rootadmin
【机器学习】支持向量回归

推荐整理分享【机器学习】支持向量回归,希望有所帮助,仅作参考,欢迎阅读内容。

文章相关热门搜索词:,内容如对您有帮助,希望把文章链接给更多的朋友!

有任何的书写错误、排版错误、概念错误等,希望大家包含指正。

在阅读本篇之前建议先学习: 【机器学习】支持向量机【上】硬间隔 【机器学习】支持向量机【下】软间隔与核函数

支持向量回归

支持向量回归(support vector regression,SVR)是指,将支持向量机的思想推广到回归问题中。与传统回归模型类似,支持向量回归以 www 和 bbb 为待确定的模型参数,希望模型输出 f(x)f(x)f(x) 与真实输出 yyy 之间的差值对应的损失尽可能小;不过,在传统回归模型中,当且仅当 f(x)f(x)f(x) 与 yyy 完全相同时,损失才为零,与此不同,支持向量回归假设我们容忍 f(x)f(x)f(x) 与 yyy 之间最多有 ϵ\epsilonϵ 的偏差,即仅当 f(x)f(x)f(x) 与 yyy 之间的差别绝对值大于 ϵ\epsilonϵ 时才计算损失。如图 111 所示,这相当于以 f(x)f(x)f(x) 为中心,构建了一个上边界和下边界分别为 f(x)+ϵf(x) +\epsilonf(x)+ϵ 和 f(x)−ϵf(x)-\epsilonf(x)−ϵ 的“管道”,ϵ\epsilonϵ 为人为固定值且 ϵ>\epsilon>0ϵ>0,若训练样本落入此管道内,则认为被预测正确。

图 1    支持向量回归示意图

注意观察和理解图 111 与参考 [3] 中图 111 的区别。

本图中样本用同样的圆形表示,而它图中分别用 +++ 和 −-− 表示正、负两种样本,这体现了回归问题与分类问题的本质区别;本图中横轴表示样本特征,纵轴表示样本对应的预测值,描述的样本是一维的,而它图中横、纵坐标分别表示不同的特征,描述的样本是二维的。

支持向量回归也大致可以分为,硬间隔 SVR、软间隔 SVR 和核函数 SVR。

硬间隔 SVR 适合样本全部落在管道内;软间隔 SVR 适合少量样本落在管道外;核函数 SVR 适合非线性分布的样本。

重点讲解软间隔 SVR,另外两个相对简单。

软间隔支持向量回归

对于软间隔支持向量回归而言,我们不要求样本分布得非常贴近一条线,允许少量样本出现偏差,即噪声,而大部分点可以落在管道内。与软间隔支持向量机类似,软间隔支持向量回归也引入松弛变量。每个样本 (xi,yi)(x_i,y_i)(xi​,yi​) 对应两个松弛变量 ξ^i\hat\xi_iξ​i​ 和 ξi\xi_iξi​,分别表示向上松弛量和向下松弛量。当样本 (xi,yi)(x_i,y_i)(xi​,yi​) 位于上边界上方(above),那么该样本将贡献损失,即 yi−(f(xi)+ϵ)y_i - \big(f(x_i)+\epsilon\big)yi​−(f(xi​)+ϵ),超出上边界的(纵轴方向)距离也就是 ξ^i\hat \xi_iξ​i​,故对于落在上边界上方的样本有 yi−(f(xi)+ϵ)=ξ^iy_i - \big( f(x_i) + \epsilon \big)=\hat \xi_iyi​−(f(xi​)+ϵ)=ξ​i​,而且直观上,此时不可能存在向下的松弛,所以 ξi=\xi_i=0ξi​=0;类似地,对于落在下边界下方的样本有 (f(xi)+ϵ)−yi=ξi\big( f(x_i) + \epsilon \big) - y_i=\xi_i(f(xi​)+ϵ)−yi​=ξi​ 且 ξ^i=\hat \xi_i = 0ξ​i​=0;对于落在管道内的样本,显然不存在向上或向下的松弛,所以 ξ^i=ξi=\hat \xi_i = \xi_i = 0ξ​i​=ξi​=0,同时这些样本不贡献损失。不难总结,每个样本带来的损失可以统一表示为 ξ^i+ξi\hat \xi_i + \xi_iξ​i​+ξi​,因此全部样本贡献的损失为 ∑i=1nξ^i+ξi\sum_{i=1}^n \hat \xi_i + \xi_i∑i=1n​ξ​i​+ξi​。

观察图 111 发现,上、下边界的欧式距离可以表示为 2ϵ/∥w∥2+12\epsilon/\sqrt{\Vert w \Vert^2 + 1}2ϵ/∥w∥2+1​,当 ∥w∥\Vert w\Vert∥w∥ 越小时,划分超平面倾斜程度越小,上下边界的欧式距离越大,当 ∣∣w∣∣=||w||=0∣∣w∣∣=0 时距离取到最大值 2ϵ2\epsilon2ϵ。直观上,距离越大,划分超平面越倾斜程度越小,管道覆盖面越大,所能容纳的样本越多,管道外的样本越少,带来的损失也可能减少。这与支持向量机中“最大间隔”的思想一致。

当然,严谨来说,“划分超平面越倾斜程度越小容纳的样本越多”的说法是不准确的,比如图 222 所示情况。对于同样的六个样本点,倾斜程度大的管道(左)反而损失值为零。

图 2    大倾斜程度管道(左)和小倾斜程度管道(右)

基于上面的松弛思想和最大间隔思想,目标函数为 12∥w∥2+C∑i=1n(ξ^i+ξi)\frac{1}{2} \Vert w\Vert^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i)21​∥w∥2+Ci=1∑n​(ξ​i​+ξi​) 其中,C>C>0C>0 称为惩罚(超)参数,一般根据应用问题人为决定,CCC 值越大对管道外样本的惩罚越大。

定义原始问题 min⁡w,b,ξ^i,ξi12∥w∥2+C∑i=1n(ξ^i+ξi)\min_{w,b,\hat \xi_i,\xi_i}\frac{1}{2} \Vert w\Vert^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i) \\w,b,ξ​i​,ξi​min​21​∥w∥2+Ci=1∑n​(ξ​i​+ξi​)

s.t.yi−f(xi)≤ϵ+ξ^if(xi)−yi≤ϵ+ξiξ^i≥,    ξi≥,    i=1,2,…,n\begin{matrix} s.t. & y_i - f(x_i)\le \epsilon + \hat \xi_i\\ & f(x_i) - y_i \le \epsilon + \xi_i \\ & \hat \xi_i\ge 0,\space\space\space\space\xi_i\ge 0,\space\space\space\space i = 1,2,\dots,n \end{matrix}s.t.​yi​−f(xi​)≤ϵ+ξ​i​f(xi​)−yi​≤ϵ+ξi​ξ​i​≥0,    ξi​≥0,    i=1,2,…,n​

构建广义拉格朗日函数 L(w,b,α^,α,ξ^i,ξi,μ^i,μi)=12∣∣w∣∣2+C∑i=1n(ξ^i+ξi)−∑i=1nμ^iξ^i−∑i=1nμiξi+∑i=1nα^i(yi−f(xi)−ϵ−ξ^i)+∑i=1nαi(f(xi)−yi−ϵ−ξi)\begin{aligned} &L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i) \\ &= \frac{1}{2} ||w||^2 + C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \sum_{i=1}^n\hat \mu_i\hat \xi_i - \sum_{i=1}^n\mu_i\xi_i +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)-\epsilon-\hat \xi_i) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i-\epsilon - \xi_i) \end{aligned}​L(w,b,α,α,ξ​i​,ξi​,μ​i​,μi​)=21​∣∣w∣∣2+Ci=1∑n​(ξ​i​+ξi​)−i=1∑n​μ​i​ξ​i​−i=1∑n​μi​ξi​+i=1∑n​αi​(yi​−f(xi​)−ϵ−ξ​i​)+i=1∑n​αi​(f(xi​)−yi​−ϵ−ξi​)​ 将 f(xi)=wTxi+bf(x_i) = w^Tx_i+bf(xi​)=wTxi​+b 代入,再令 L(w,b,α^,α,ξ^i,ξi,μ^i,μi)L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i)L(w,b,α,α,ξ​i​,ξi​,μ​i​,μi​) 对 www,bbb,ξ^i\hat \xi_iξ​i​ 和 ξi\xi_iξi​ 的偏导为零可得 w=∑i=1n(α^i−αi)xi(1-1)w = \sum_{i=1}^n(\hat \alpha_i - \alpha_i)x_i \tag{1-1}w=i=1∑n​(αi​−αi​)xi​(1-1)

=∑i=1n(α^i−αi)(1-2)0 = \sum_{i=1}^n (\hat \alpha_i - \alpha_i) \tag{1-2}0=i=1∑n​(αi​−αi​)(1-2)

C=α^i+μ^i(1-3)C = \hat \alpha_i + \hat \mu_i\tag{1-3}C=αi​+μ​i​(1-3)

【机器学习】支持向量回归

C=αi+μi(1-4)C = \alpha_i + \mu_i\tag{1-4}C=αi​+μi​(1-4)

将式 (1~1)∼(1~4)(1\text{\textasciitilde}1)\sim (1\text{\textasciitilde}4)(1~1)∼(1~4) 代入拉格朗日函数 L(w,b,α^,α,ξ^i,ξi,μ^i,μi)=(12∣∣w∣∣2+∑i=1nα^i(yi−f(xi)−ϵ)+∑i=1nαi(f(xi)−yi−ϵ))+(C∑i=1n(ξ^i+ξi)−∑i=1nμ^iξ^i−∑i=1nμiξi−∑i=1α^iξ^i−∑i=1αiξi)=(12∣∣w∣∣2+∑i=1nα^i(yi−f(xi))+∑i=1nαi(f(xi)−yi)−ϵ∑i=1n(α^i+αi))+(C∑i=1n(ξ^i+ξi)−(∑i=1nμ^iξ^i+∑i=1α^iξ^i)−(∑i=1nμiξi+∑i=1αiξi))=(12∣∣w∣∣2+∑i=1nyi(α^i−αi)−∑i=1n(α^i−αi)(wTxi+b)−ϵ∑i=1n(α^i+αi))+(C∑i=1n(ξ^i+ξi)−C∑i=1ξ^i−C∑i=1nξi)=(12∣∣w∣∣2+∑i=1nyi(α^i−αi)−(wT∑i=1n(α^i−αi)xi+b∑i=1m(α^i−αi))−ϵ∑i=1n(α^i+αi))+=12wTw+∑i=1nyi(α^i−αi)−(wTw+)−ϵ∑i=1n(α^i+αi)=∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12wTw=∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12∑i=1n∑i=1n(α^i−αi)(α^j−αj)(xiTxj)\begin{aligned} &L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i) \\ &= \Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)-\epsilon) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i-\epsilon) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \sum_{i=1}^n\hat \mu_i\hat \xi_i - \sum_{i=1}^n\mu_i\xi_i -\sum_{i=1}\hat \alpha_i\hat\xi_i-\sum_{i=1} \alpha_i\xi_i \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n\hat \alpha_i (y_i - f(x_i)) + \sum_{i=1}^n \alpha_i(f(x_i)-y_i) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - \big(\sum_{i=1}^n\hat \mu_i\hat \xi_i +\sum_{i=1}\hat \alpha_i\hat\xi_i\big) - \big(\sum_{i=1}^n\mu_i\xi_i +\sum_{i=1} \alpha_i\xi_i\big) \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) - \sum_{i=1}^n (\hat \alpha_i-\alpha_i)(w^Tx_i+b) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + \Big( C\sum_{i=1}^n (\hat \xi_i + \xi_i) - C\sum_{i=1}\hat\xi_i - C\sum_{i=1}^n\xi_i \Big) \\ %%%% &=\Big(\frac{1}{2} ||w||^2 +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) -\big(w^T\sum_{i=1}^n (\hat \alpha_i-\alpha_i)x_i +b\sum_{i=1}^m (\hat \alpha_i - \alpha_i)\big) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \Big) + 0 \\ %%%% &=\frac{1}{2} w^Tw +\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i) - \big(w^Tw +0\big) - \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) \\ %%%% &=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} w^Tw \\ %%%% &=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j) \\ \end{aligned}​L(w,b,α,α,ξ​i​,ξi​,μ​i​,μi​)=(21​∣∣w∣∣2+i=1∑n​αi​(yi​−f(xi​)−ϵ)+i=1∑n​αi​(f(xi​)−yi​−ϵ))+(Ci=1∑n​(ξ​i​+ξi​)−i=1∑n​μ​i​ξ​i​−i=1∑n​μi​ξi​−i=1∑​αi​ξ​i​−i=1∑​αi​ξi​)=(21​∣∣w∣∣2+i=1∑n​αi​(yi​−f(xi​))+i=1∑n​αi​(f(xi​)−yi​)−ϵi=1∑n​(αi​+αi​))+(Ci=1∑n​(ξ​i​+ξi​)−(i=1∑n​μ​i​ξ​i​+i=1∑​αi​ξ​i​)−(i=1∑n​μi​ξi​+i=1∑​αi​ξi​))=(21​∣∣w∣∣2+i=1∑n​yi​(αi​−αi​)−i=1∑n​(αi​−αi​)(wTxi​+b)−ϵi=1∑n​(αi​+αi​))+(Ci=1∑n​(ξ​i​+ξi​)−Ci=1∑​ξ​i​−Ci=1∑n​ξi​)=(21​∣∣w∣∣2+i=1∑n​yi​(αi​−αi​)−(wTi=1∑n​(αi​−αi​)xi​+bi=1∑m​(αi​−αi​))−ϵi=1∑n​(αi​+αi​))+0=21​wTw+i=1∑n​yi​(αi​−αi​)−(wTw+0)−ϵi=1∑n​(αi​+αi​)=i=1∑n​yi​(αi​−αi​)−ϵi=1∑n​(αi​+αi​)−21​wTw=i=1∑n​yi​(αi​−αi​)−ϵi=1∑n​(αi​+αi​)−21​i=1∑n​i=1∑n​(αi​−αi​)(αj​−αj​)(xiT​xj​)​ 拉格朗日函数为 L(w,b,α^,α,ξ^i,ξi,μ^i,μi)=∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12∑i=1n∑i=1n(α^i−αi)(α^j−αj)(xiTxj)L(w, b,\hat \alpha,\alpha,\hat \xi_i,\xi_i,\hat \mu_i, \mu_i)=\sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j) \\L(w,b,α,α,ξ​i​,ξi​,μ​i​,μi​)=i=1∑n​yi​(αi​−αi​)−ϵi=1∑n​(αi​+αi​)−21​i=1∑n​i=1∑n​(αi​−αi​)(αj​−αj​)(xiT​xj​) 可得到 SVR 的对偶问题 max⁡α^,α∑i=1nyi(α^i−αi)−ϵ∑i=1n(α^i+αi)−12∑i=1n∑i=1n(α^i−αi)(α^j−αj)(xiTxj)\max_{\hat \alpha,\alpha} \sum_{i=1}^n y_i(\hat \alpha_i - \alpha_i)- \epsilon\sum_{i=1}^n(\hat \alpha_i + \alpha_i) - \frac{1}{2} \sum_{i=1}^n \sum_{i=1}^n (\hat \alpha_i- \alpha_i)(\hat \alpha_j - \alpha_j)(x_i^Tx_j)α,αmax​i=1∑n​yi​(αi​−αi​)−ϵi=1∑n​(αi​+αi​)−21​i=1∑n​i=1∑n​(αi​−αi​)(αj​−αj​)(xiT​xj​)

s.t.∑i=1n(α^i−αi)=≤α^i,αi≤C\begin{matrix} s.t. &\sum_{i=1}^n (\hat \alpha_i - \alpha_i) = 0\\ & 0\le \hat \alpha_i,\alpha_i \le C \end{matrix}s.t.​∑i=1n​(αi​−αi​)=00≤αi​,αi​≤C​

满足的部分 KKT 条件为 α^i(yi−f(xi)−ϵ−ξ^i)=(2-1)\hat \alpha_i (y_i - f(x_i) - \epsilon - \hat \xi_i)=0\tag{2-1}αi​(yi​−f(xi​)−ϵ−ξ​i​)=0(2-1)

αi(f(xi)−yi−ϵ−ξi)=(2-2)\alpha_i (f(x_i) - y_i - \epsilon - \xi_i)=0\tag{2-2}αi​(f(xi​)−yi​−ϵ−ξi​)=0(2-2)

(C−α^i)ξ^i=(2-3)(C-\hat\alpha_i)\hat\xi_i = 0 \tag{2-3}(C−αi​)ξ​i​=0(2-3)

(C−αi)ξi=(2-4)(C-\alpha_i)\xi_i = 0\tag{2-4}(C−αi​)ξi​=0(2-4)

式 (2~1)∼(2~4)(2\text{\textasciitilde}1)\sim(2\text{\textasciitilde}4)(2~1)∼(2~4) 为互补松弛条件。其中,(2~3)(2\text{\textasciitilde}3)(2~3) 和 (2~4)(2\text{\textasciitilde}4)(2~4) 分别运用了式 (1~3)(1\text{\textasciitilde}3)(1~3) 和 (1~4)(1\text{\textasciitilde}4)(1~4)。

这里四个等式带来的信息量非常大。根据式 (2~1)(2\text{\textasciitilde}1)(2~1) 可知,当 α^i≠\hat \alpha_i\ne0αi​​=0 时,yi−f(xi)−ϵ−ξ^i=y_i - f(x_i) - \epsilon - \hat \xi_i=0yi​−f(xi​)−ϵ−ξ​i​=0,样本 (xi,yi)(x_i,y_i)(xi​,yi​) 要么在管道的上边界上(lie on),对应 ξ^i=\hat \xi_i=0ξ​i​=0,要么在管道的上边界上方(above),对应 ξ^i>\hat \xi_i>0ξ​i​>0;当 αi≠\alpha_i\ne 0αi​​=0 时,根据式 (2~2)(2\text{\textasciitilde}2)(2~2) 可以推出类似的结果。但是 α^i\hat\alpha_iαi​ 和 αi\alpha_iαi​ 不能同时非零,即满足 α^iαi=\hat \alpha_i\alpha_i =0αi​αi​=0,这是因为两个限制 yi−f(xi)−ϵ−ξ^i=y_i - f(x_i) - \epsilon - \hat \xi_i = 0yi​−f(xi​)−ϵ−ξ​i​=0 和 f(xi)−yi−ϵ−ξi=f(x_i) - y_i - \epsilon - \xi_i=0f(xi​)−yi​−ϵ−ξi​=0 是不兼容的。可以这样证明:将两个式子相加得到等式 2ϵ+ξi+ξ^i=2\epsilon+\xi_i+\hat\xi_i=02ϵ+ξi​+ξ​i​=0,由于 ϵ>\epsilon>0ϵ>0,ξi≥\xi_i\ge 0ξi​≥0,ξ^i≥\hat \xi_i\ge0ξ​i​≥0,所以等式不成立,究其原因为两个限制不兼容。

⽀持向量是对于目标函数有贡献的样本,换句话说,就是那些使得 α^i≠\hat\alpha_i\ne0αi​​=0 或 αi≠\alpha_i\ne0αi​​=0 成立的样本,也就是 (α^i−αi)≠(\hat \alpha_i - \alpha_i) \ne 0(αi​−αi​)​=0 的样本。根据上面的讨论,我们可以知道 SVR 中的支持向量是位于管道上或者管道外的样本。

另外,可以根据式 (2~3)(2\text{\textasciitilde}3)(2~3) 和 (2~4)(2\text{\textasciitilde}4)(2~4) 可以讨论三种情况:① 当 αi=\alpha_i=0αi​=0 且 α^i≠\hat \alpha_i\ne 0αi​​=0 时,由 αi=\alpha_i=0αi​=0 可得 ξi=\xi_i=0ξi​=0,由 α^i≠\hat \alpha_i\ne0αi​​=0 可得 ξ^i≥\hat \xi_i\ge0ξ​i​≥0;② 当 αi≠\alpha_i\ne0αi​​=0 且 α^i=\hat \alpha_i= 0αi​=0 时,由 αi≠\alpha_i\ne0αi​​=0 可得 ξi≥\xi_i\ge0ξi​≥0,由 α^i=\hat \alpha_i=0αi​=0 可得 ξ^i=\hat \xi_i=0ξ​i​=0;③ 当 αi=α^i=\alpha_i = \hat \alpha_i = 0αi​=αi​=0 时,ξi=ξ^i=\xi_i = \hat \xi_i = 0ξi​=ξ​i​=0。这三种情况可以统一表示为 ξ^iξi=\hat \xi_i\xi_i = 0ξ​i​ξi​=0。巧妙的是,这四个等式带来的信息与我们本小节对松弛变量的直观理解不谋而合。

参数 bbb 可以这样得到:考虑一个满足 <αj<C0 < \alpha_j < C0<αj​<C 的样本。根据式 (2~4)(2\text{\textasciitilde}4)(2~4) 可知 ξj=\xi_j = 0ξj​=0,再根据式 (2~2)(2\text{\textasciitilde}2)(2~2) 可知一定有 f(xj)−yj−ϵ=f(x_j)-y_j-\epsilon=0f(xj​)−yj​−ϵ=0。将 f(xj)=wTxj+bf(x_j) = w^Tx_j+bf(xj​)=wTxj​+b 代入求解 bbb,同时将式 (1~1)(1\text{\textasciitilde}1)(1~1) 代入,得 b=yj+ϵ−wTxj=yj+ϵ−∑i=1n(α^i−αi)(xiTxj)(3)\begin{aligned} b &= y_j + \epsilon - w^Tx_j \\ &=y_j + \epsilon - \sum_{i=1}^n(\hat \alpha_i - \alpha_i)(x_i^Tx_j) \\ \end{aligned}\tag{3}b​=yj​+ϵ−wTxj​=yj​+ϵ−i=1∑n​(αi​−αi​)(xiT​xj​)​(3) 当然,也可以通过考虑一个满足 <α^j<C0 < \hat\alpha_j < C0<αj​<C 的样本,得到类似的结果。在实际应用中,更好的做法是对所有的这些 bbb 的估计进⾏平均。

使用训练好的模型进行预测也非常简单,根据式 (1~1)(1\text{\textasciitilde}1)(1~1) 计算出最优解 w∗w^*w∗,根据式 (3)(3)(3) 计算出最优解 b∗b^*b∗。预测函数为 f(x)=w∗Tx+b∗=∑i=1n(α^i−αi)(xiTx)+b∗(4)\begin{aligned} f(x) &= {w^*}^Tx + b^* \\ &= \sum_{i=1}^n (\hat \alpha_i - \alpha_i) (x_i^T x) + b^* \end{aligned} \tag{4}f(x)​=w∗Tx+b∗=i=1∑n​(αi​−αi​)(xiT​x)+b∗​(4)

另外,我们也可以从正则化的角度理解原始问题的目标函数,将 ∣∣w∣∣2||w||^2∣∣w∣∣2 视为正则化项,另一部分视为未引入正则化项的损失函数,这与软间隔支持向量机类似。

硬间隔与核函数支持向量回归

硬间隔认为全部的样本点都可以被容纳在 ϵ~\epsilon\text{\textasciitilde}ϵ~管道中,也就不存在松弛变量及其对应约束。求解过程与软间隔类似,甚至可以认为硬间隔是软间隔的一种特殊情况。

使用核函数的方法与支持向量机中使用核函数的方法一致,目的都是实现划分超平面非线性化,如图 333 所示。

图 3    核函数支持向量回归

若考虑特征映射式 (1~1)(1\text{\textasciitilde}1)(1~1) 对应 w∗=∑i=1n(α^i−αi)ϕ(xi)w^* = \sum_{i=1}^n (\hat \alpha_i - \alpha_i)\phi(x_i)w∗=i=1∑n​(αi​−αi​)ϕ(xi​) 式 (3)(3)(3) 对应 b∗=yj+ϵ−∑i=1n(α^i−αi)K(xi,xj)b^* =y_j + \epsilon - \sum_{i=1}^n(\hat \alpha_i - \alpha_i)K(x_i,x_j)b∗=yj​+ϵ−i=1∑n​(αi​−αi​)K(xi​,xj​) 式 (4)(4)(4) 对应 f(x)=∑i=1n(α^i−αi)K(xi,x)+b∗f(x) = \sum_{i=1}^n (\hat \alpha_i - \alpha_i) K(x_i, x) + b^*f(x)=i=1∑n​(αi​−αi​)K(xi​,x)+b∗

REF

[1]《Pattern Recognition and Machine Learning》

[2]《机器学习》周志华著

[3] 【机器学习】支持向量机【上】硬间隔_不牌不改的博客 - CSDN

[4] 【机器学习】支持向量机【下】软间隔与核函数 - CSDN

[5] 支持向量回归(Support Vector Regression) - CSDN

[6] 如何通俗易懂地解释支持向量回归(support vector regression)? - 知乎

本文链接地址:https://www.jiuchutong.com/zhishi/299584.html 转载请保留说明!

上一篇:计算机视觉OpenCV-图像直方图(计算机视觉opencv项目简单代码)

下一篇:大模型时代的“Linux”生态,开启人工智能新十年(大模型时代的自然语言处理)

  • iphone13pro怎么截长图(iphone13pro怎么截屏)

    iphone13pro怎么截长图(iphone13pro怎么截屏)

  • qq群屏幕分享在哪(qq群里的屏幕分享)

    qq群屏幕分享在哪(qq群里的屏幕分享)

  • 微信被限制收款是为什么(微信被限制收款功能怎么解除)

    微信被限制收款是为什么(微信被限制收款功能怎么解除)

  • 小米手环4标准版和nfc的区别(小米手环4标准版功能)

    小米手环4标准版和nfc的区别(小米手环4标准版功能)

  • ssl工作在osi的哪一层(ssl osi)

    ssl工作在osi的哪一层(ssl osi)

  • 什么软件可以让手机不卡顿(什么软件可以让模糊的图片变清晰)

    什么软件可以让手机不卡顿(什么软件可以让模糊的图片变清晰)

  • 华为mate30呼叫等待怎么设置(华为mate30手机呼叫等待怎么设置)

    华为mate30呼叫等待怎么设置(华为mate30手机呼叫等待怎么设置)

  • oppo 手机微信视频通话时怎么美颜(oppo手机微信视频横屏怎么关闭)

    oppo 手机微信视频通话时怎么美颜(oppo手机微信视频横屏怎么关闭)

  • 小米手环出现请先绑定是怎么回事(小米手环出现请先绑定提示该怎么办)

    小米手环出现请先绑定是怎么回事(小米手环出现请先绑定提示该怎么办)

  • word形式是什么意思(word的形式)

    word形式是什么意思(word的形式)

  • 华为手机寿命一般几年(华为手机寿命一般几年知乎)

    华为手机寿命一般几年(华为手机寿命一般几年知乎)

  • 抖音定向版和速推版的区别(抖音定向版和速推版哪个点赞多)

    抖音定向版和速推版的区别(抖音定向版和速推版哪个点赞多)

  • 京东领券中心在哪(京东领券中心在哪里找到)

    京东领券中心在哪(京东领券中心在哪里找到)

  • 苹果手机怎么关闭wifi自动更新(苹果手机怎么关闭5g开关)

    苹果手机怎么关闭wifi自动更新(苹果手机怎么关闭5g开关)

  • 手机npu是什么(手机nps是什么意思)

    手机npu是什么(手机nps是什么意思)

  • 虚商号码是什么意思啊(虚商号码属于哪个运营商)

    虚商号码是什么意思啊(虚商号码属于哪个运营商)

  • 企业微信的聊天记录会被老板看到吗(企业微信的聊天记录管理员看得到吗)

    企业微信的聊天记录会被老板看到吗(企业微信的聊天记录管理员看得到吗)

  • vivo怎么查看已删除短信(vivo手机查看型号)

    vivo怎么查看已删除短信(vivo手机查看型号)

  • 抖音用户资料暂时被锁定什么意思(抖音用户资料暂时被锁定是被人投诉了吗)

    抖音用户资料暂时被锁定什么意思(抖音用户资料暂时被锁定是被人投诉了吗)

  • 华为p30如何删除应用(华为P30如何删除系统应用)

    华为p30如何删除应用(华为P30如何删除系统应用)

  • 0xc000007b应用程序无法正常启动win10解决方法(0xc000007b应用程序无法正常启动win11)

    0xc000007b应用程序无法正常启动win10解决方法(0xc000007b应用程序无法正常启动win11)

  • Linux Mint系统版本信息在哪? Linux Mint查看系统信息的技巧(linux mint 20.1安装)

    Linux Mint系统版本信息在哪? Linux Mint查看系统信息的技巧(linux mint 20.1安装)

  • phpcms要钱吗(phpcms视频教程)

    phpcms要钱吗(phpcms视频教程)

  • 工资超出5000怎么样纳税
  • 公司申报房产税 土地取得时间怎么写的
  • 应纳附加税是什么
  • 企业所得税的计算公式
  • 一般纳税人劳务票一般开几个点
  • 资产计提折旧的科目
  • 质量体系证费用计入什么科目
  • 足球俱乐部买卖球员的程序
  • 有现金折扣方式有哪些
  • 关于公司食堂的文案
  • 固定资产丢失收据怎么写
  • 地税印花税税率是多少
  • 业务招待费怎么调整应纳税所得额
  • 收代扣代收代征手续费会计分录
  • 空调折旧年限的最新规定2018
  • 自建房房产税计税依据及计算方式
  • 公司租房可以抵扣个人所得税吗
  • php一个页面多个分页
  • 主营业务收入明细账图片
  • 结构性存款利息增值税
  • echarts饼图背景图片
  • 大沼泽地国家公园位于哪个城市
  • 巴伐利亚知乎
  • 如何设置长期有效的群二维码安卓手机
  • 凭证怎么记账
  • 发票查真伪是什么意思
  • 谷粒学院项目含金量
  • 收费公路通行费补费平台
  • 支付给外单位人员的报酬怎么入账
  • 地方教育附加是非税收入吗
  • vuex 3
  • python中字典的键有何要求
  • mysql的基本介绍
  • 原材料入库单价20000出库单价800000
  • 一次性开票分期确认收入如何纳税申报
  • 制造费用和生产成本结转
  • 开一家公司的具体步骤
  • 2021年村级财务管理要点
  • 缴纳车辆购置税有发票吗
  • 代开增值税额与实际缴款额差一分钱如何入账?
  • 什么情况下需要异地预缴增值税
  • 一般纳税人第一次逾期申报处罚吗
  • 第三方平台佣金账务处理
  • 收到工程进度款怎么做分录
  • 因质量原因无法退货
  • 预付账款怎么做坏账
  • 汇算清缴弥补以前年度亏损多少年
  • 银行承兑汇票去哪个银行承兑
  • 工程施工人工费,材料费,机械费占多少比例
  • 双倍余额递减法最后两年怎么算
  • 计提了减值准备怎么算折旧额
  • 残疾人就业保障金上年职工工资总额
  • 固定资产不能使用了怎么处理
  • 企业大额融资需要什么资料
  • 未分配利润借方是什么意思
  • 获取sql
  • sqlcipher c#
  • sql参数化还是被注入了
  • windows8.
  • linux界面显示
  • 在任务栏右下角添加图标
  • centos8 systemd
  • 如何关闭win8快速启动
  • 微软将为11增加AI助手
  • win8.1系统激活
  • win7电脑全屏
  • 安装音乐库
  • linux-swap
  • HTML <!DOCTYPE> 标签
  • perl-v
  • UNITY开发数字孪生
  • javascript相对路径
  • windows常用网络命令的使用
  • 统计文件个数linux
  • javascript的相关应用
  • jQuery Ajax使用FormData对象上传文件的方法
  • js原型作用
  • 安卓手机怎么自定义
  • 济南槐荫税务局办税大厅电话
  • 通讯费报销会计分录
  • 免责声明:网站部分图片文字素材来源于网络,如有侵权,请及时告知,我们会第一时间删除,谢谢! 邮箱:opceo@qq.com

    鄂ICP备2023003026号

    网站地图: 企业信息 工商信息 财税知识 网络常识 编程技术

    友情链接: 武汉网站建设