《SFDC》 4.5.2前半分析
夜风街流浪人
2023年10月23日 16:52
收录于文集
共14篇

看到这个标题大家可能会比较懵,这篇专栏是《statistical foundations of data science》这本书的4.5.2章节前半部分的分析(书名太长,标题放不下)。

为什么要写这玩意呢?是我有一个博士朋友的研讨会上要讲这东西,然后他对机器学习完全不熟悉,然后找到做机器学习的我,帮他写个稿子。我就直接从4.5.2开始看,整个过程简直是痛苦,虽然只有几页,但大量引用了之前的内容,加上大量我不熟悉的符号。我一边问ChatGPT,一边查术语,总算是写出来一个能够讲出来的稿子,当然,肯定有很多不准确的地方,但能打马虎眼的地方就马虎眼打过去。

本着“写的那么痛苦,不发出来感觉难受”和“这鬼东西其他地方也不好发,就扔小号”的心态,我就来投专栏了。

叠了那么多甲了,大家也应该知道了,我几乎没有理解这短短几页到底在讲什么...如果真的有找这本书资料的人也不建议进行任何参考。当然,如果你没有这本书的话,你应该是完全不知道我在说什么的。

正文:

这一章节的目的是给出在在罚项较小且有序的情况下部分最小二乘(PLS)方法的近似局部解。(罚项就是惩罚项,是对待评估参数的一种限制,例如限制他们尽可能小一些,在最小二乘中也一般叫做正则化,目的是降低模型的复杂度,提高模型的鲁棒性,就和岭回归之类的比较像)

要给出PLS的近似解,我们就需要解4.183中的这个式子。等式左边是响应变量Y和模型参数β之间的线性关系,右边是惩罚项的梯度和近似误差。我们的目的就是从这个式子中求解出β的值。

但是从4.183求解是需要条件的,近似误差νapprox需要为零且罚项水平为(1 + ν/2)λ,λ是个超参,ν进一步控制罚项水平(这个是求解必须的条件)。如果我们加两个条件(这两个是进一步进行情况简化的条件):(1)没有比κ0更大的凹性;(2)满足近似误差条件 ||νapprox||∞ ≤ νλ/2,则近似解(4.183)等价于(4.134)

然后作者表明这部分的目的,就是将较小的惩罚项和有序的惩罚项统一进行考虑,在惩罚项比4.166还小的情况下如何求得近似解,并且研究这个近似解和理想解的区别。4.166实际上是惩罚项的一个阈值,低于这个值的惩罚项往往会会导致性能下降,所以在较小和有序的罚项的情况才会在本部分单独进行讨论,即我们如何在这种情况下依然保持一定的性能。

4.184就是带入之前的一些公式推导出的不等式,其中h是代表近似解语理想解之间的差的,所以4.184实际上是对于近似解与理想解之间误差的一个说明,即说明它的一些界限在哪里,会受到什么因素影响(例如受到惩罚项凹度影响),同时我们看到这个式子中表现出了可分离(也就是有序)的惩罚项,对于一般情况,排序罚项提供了对噪声的较弱控制,目的是适应 λs (表示排序罚项的参数)的成本。这意味着在某些情况下,为了适应不同的罚项水平 λs,可能需要牺牲对噪声的一些控制。这个讨论涉及了罚项选择和控制噪声之间的权衡。

对于4.183,为了进一步评估近似解的质量和控制噪声的性能,我们定义了4.185,并以此写出对于噪声和近似误差的条件,即4.186,这一步的目的是确保近似解的质量和对噪声的控制在可接受的范围内,然后我们就可以对4.184进行改造(左边就是对4.184做了一些移项操作),得到了4.187不等式(可以看到,其中是包含4.185的一些元素的),也就是说在足够低的噪声和近似误差水平下,得到的近似解是有一定准确性的。

接下来就是讨论正则化条件(RE condition)了(之前也提到了,这部分主要考虑的是2范数和无穷范数),因为4.183是一个更大类别的估计方法,所以正则化条件对应的cone(特定类型的向量集合)是“更大”的,这个cone表示为4.189,特殊的我们有2范数的RE条件,即4.190,我们注意到,4.189也是包含有序惩罚项相关信息的。然后本文给出了4.190满足的一个不等式(约束条件),并以此说明在特定条件下,正则化条件可以与强凸性条件等价,并且使用更大的cone可能导致更严格的条件。此外,它还强调了正则化条件的选择需要根据具体问题和需求来调整,以平衡模型的性能和对噪声的控制。

然而以上的讨论是基于4.187成立(即噪声和近似误差够低)的情况,不满足4.187的一些近似解与理想解的误差h也可能满足4.188。如果我们可以用链条解的计算方式(即式子4.190)逐步迭代计算β,那么h就满足4.188(相当于再次扩大可求解范围)。

然后给出命题4.4,就是把之前的分析整合起来,给出一种用迭代方法计算4.183的近似解的步骤(迭代方法和怎么判断迭代停止),并且说明4.4可以看做是对4.3的一种扩展,其强调了h在更大锥体内的成员身份(就是满足4.188),也允许更大的计算步长。命题4.4暗示了迭代计算满足一系列条件,其中包括范数和预测误差的可接受水平

之后就是4.4的证明。最后,文中提出了式子 (4.193),它总结了关于模型参数β的计算过程,通过一系列满足条件的解来逐步计算β,这些条件包括最大凹性和RE设计的受限特征值等条件。