听说高考数学全国卷三考了朵云……

按说每年高考的时候,最火的当属全国各地的语文作文题,不管是跃跃欲试的段子手,还是幸灾乐祸的朋友圈作文大赛选手们,都免不了俗要来上几段。今年关于高考的热搜倒是有点奇怪,据说高考数学全国卷三考了朵云,考了朵云……朵云……云……把很多考生都直接考懵了……

原题大概是在极坐标中给出了三段圆弧的圆心和一些点的坐标,求整个曲线的极坐标方程和特定点的极坐标。这都不是重点,不就是一朵云吗?你看它那么可爱,人畜又无害,不如我们……(图片来自网络)

它那么可爱,人畜都无害。它做错了什么,你们要这么对它……

不过对于曲线拟合,物理学家们实在是见得多了。而且有些拟合,还会让你怀疑人生……


最天马行空的拟合

二流的物理学家做合理的假设,一流的物理学家做不合理的假设。

这句话说的不是那些大家们都在瞎猜啊,而是说他们的眼光更具有前瞻性,发现物理问题的真正矛盾所在。举一个大家最耳熟能详的例子,爱因斯坦提出狭义相对论时候假设光速不变——无论在哪种惯性参考系中观察,光在真空中的传播速度相对于该观测者都是一个常数。在当时想到麦克斯韦的经典的电磁学理论和牛顿力学存在矛盾的人很多,但能把自己的平时的生活常识都给驳倒,让自己去相信光速是不变的,只有爱因斯坦一个人。

可能你想象中高速运动的时候,你眼中的景色是这样的,星光快速后退变成一条条的光带。但实际上,因为狭义相对论预言的光行差效应,你眼中的光绝大部分都会集中到前进方向上,同时伴随着强烈的多普勒效应。

在曲线拟合的时候,其实也是差不多的道理。在上个世纪初,也就是大概 100 年前的时候,天文学家们已经能够通过望远镜测量遥远的天体距离地球的距离以及它们相对地球运行的速度。研究人员夜以继夜地测量,终于得到了 40 个数据点。不得不说天文观测确实是一个苦差事,虽然大家一般都会说日以继夜,但光学望远镜在白天看不到啊,只能一个晚上又接着一个晚上熬夜。

最后哈勃利用这 40 个数据发表了哈勃定律,论文原图大概是这个样子。

哈勃在1929年发表的星云速度(纵坐标)与距离(横坐标)关系图。其中实心点、实线与空心点、虚线分别代表两种不同计算方法的结果,二者相差不大。[1]

虽然在这幅图里面,大概能看出来距离和星云速度大概是呈现线性关系的,但敢在这么稀疏分布地这么散的数据点里面描出来一条直线,最后这条直线还被别人证实可以向前不断延伸,只能说大神的世界我们真的不懂了……


四个参数画大象

在物理学的研究中,物理学家们经常建需要建立各种各样的模型来帮助人们理解和计算物理量。在这其中免不了假设一些参数去拟合实验数据得到的曲线。其中最著名的桥段,莫过于冯 · 诺依曼的「四个参数画大象」

欢快玩耍的大象。冯 · 诺依曼究竟有没有说过这句话已经不得而知了……(图片来自 Giphy)

故事大概是这样的,彼时戴森是一个 26 岁的少年,但已经成为康奈尔大学的教授,带领着一个由研究生和博士后组成的小团队进行介子和质子散射理论的计算。在一次与费米的讨论中,戴森因为其理论计算结果和费米的实验数据符合地非常好,喜不自禁,但是却被费米泼了一盆冷水:「理论物理的研究有两种方式,其一,这是也我更喜欢的,对你所计算的物理图像有清晰的认识,其二,使用的是简洁且自洽的数学公式。你两个都不是。」[2]

这句话对从事物理学研究的戴森而言无疑打击巨大。打个不恰当的比方,发好人卡至少还说你是个好人了对吧。于是被打击到的戴森决定问清楚为什么,但费米却反问道,「你们在计算过程中引入了多少个任意参数?」戴森回答说四个。于是费米讲了一句日后很著名的话:「我记得我的朋友冯 · 诺依曼曾经说过,用四个参数我可以拟合出一头大象,而用五个参数,我可以让它的鼻子动起来。」

当然,关于冯 · 诺依曼到底有没有说过这句话已经是未解之谜了,因为这个故事是被费米流传出来,借由戴森才广为世人所知的。[3]


真的拟合出来了!

冯 · 诺依曼的「四个参数画大象」已经成为了一句名言。回到我们问题的主线上,那我们到底能不能利用参数拟合出一个大象来呢?在 1975 年,著名化学工程学家韦潜光(James Wei)在《化学工程》(Chemtech)上发表了题为「最小二乘法拟合大象(Least Square Fitting of an Elephant)」[4] 的论文具体地讨论了这个问题,其中用到了傅里叶展开的方法。在选择 5 个参数的时候,这种方式只能拟合出来一个蛋。要想较好地拟合出大象的形状,需要多达 30 个左右的傅里叶展开项。[5]

论文 [4] 的封面图,使用最小二乘法拟合大象曲线,但是效果并不算理想

这么有趣的研究,也有很多后来者在一直不断地尝试。目前最近的结果为 2010 年,Mayer [6] 等人在韦潜光研究的基础上更近一步,虽然同样是利用傅里叶分析,但是它们把傅里叶展开中较小的那几项给扔掉了,最后保留了能够用四个复变量描述的一只可爱的大象。虽然丢失了一些细节,比如尾巴之类的,但是说实话,是真的挺可爱的……

利用 Mayer 的方法拟合出来的大象曲线。虽然他们使用了复变量在参数的个数上取巧,但是画出来的大象图像还挺可爱的……网上有很多人根据论文复现了大象是怎么画出来的,左图就是小编利用 Python 画的,详细代码参见参考链接 [7]


上图方法改变参数以后鼻子的变动情况

当然这种方法有很强的泛用性,你甚至可以拟合一只皮卡丘……[8]


机器学习中的过拟合

让我们把话题重新转回到拟合上面来。拟合这件事情真的是无处不在,比如现在正火热的机器学习中。在统计学和机器学习中,他们同样需要拟合曲线来消除随机误差和噪声带来的影响。但是在系统中的参数过多,模型过于复杂的时候,机器学习的就不那么好用了,它会纠结于系统中的误差项,做出完全错误的预测。

几种典型的拟合情况示意图

最左边的为欠拟合,系统并没有很好地学习到数据的特征,只是非常粗暴地把整个区域一分为二,误差很大,预测性也很差。最右边则为过拟合,其预测曲线弯弯曲曲地绕过所有边界,把两类数据完完全全分割开来,如果这是一个分隔的任务的话,你可以认为它完成地十分出色。但是实际上这条曲线把所有的噪声都考虑进来,而且太过复杂,可预测性也非常差。

而中间的这种拟合恰是理想的状态,基本完整地描述了数据的特征,而且很好地在误差和噪声中间得到了平衡。机器学习中对数据进行分类的方式则更加多样,上述各种拟合情况都存在,怎么样平衡误差和噪声,选取合适的模型,是机器学习核心的一个问题。

关于过拟合的一个笑话


结   语

为了防止大家说标题党,我们就用一张会动的云来结尾吧。至于怎么拟合,那就当课后习题好了(手动狗头保命)

图片来自 Giphy,@ctrlplusc


参考资料:

[1] 宇宙膨胀背后的故事(之十):哈勃的“新”发现,科学网,程鹗:http://wap.sciencenet.cn/blog-3299525-1179310.html

[2] Dyson, Freeman. "A meeting with Enrico Fermi." Nature 427.6972 (2004): 297.  :https://www.nature.com/articles/427297a

[3] 关于这部分故事,可以参考:有哪些数学系鄙视物理系的经典桥段? - qfzklm的回答 - 知乎:https://www.zhihu.com/question/269693413/answer/349760632

[4] Wei, J. "Least square fitting of an elephant." Chemtech 5.2 (1975): 128-129. :http://www.personal.utulsa.edu/~geoffrey-price/Courses/ChE3063/FittingAnElephant.pdf

[5] 费米与大象,科学网,邢志忠:http://blog.sciencenet.cn/blog-3779-803730.html

[6] Mayer, Jürgen, Khaled Khairy, and Jonathon Howard. "Drawing an elephant with four complex parameters." American Journal of Physics 78.6 (2010): 648-649.

[7] How to fit an elephant,John D. Cook:https://www.johndcook.com/blog/2011/06/21/how-to-fit-an-elephant/

[8] https://mathematica.stackexchange.com/questions/17704/how-to-create-a-new-person-curve


>>热门文章推荐<<







本文为我原创

本文禁止转载或摘编

-- --
  • 投诉或建议
评论