
恰逢图形学顶级学术会议 SIGGRAPH 闭幕和各大技术公司校园招聘开启,在学术和职场双丰收的季节,元象技术合伙人与我们的明星合作学者 - UCSB 大学教授闫令琪博士一起,畅谈图形学最前沿技术与学界和工业界求职一手经验。
分享共分为上下两篇,具体分为前沿技术、求职经验和观众提问三部分,该篇以前沿技术为主。
嘉宾介绍
令琪:图形学专家。B站学习up顶流,图形学课程《GAMES 101》已破百万播放量。本科就读于清华大学、现任加州大学圣塔芭芭拉分校助理教授;毛发渲染领域的研究成果被应用于奥斯卡特效提名影片《猩球崛起:终极之战》和《狮子王2019》中。
浩智:元象 XVERSE 图形引擎技术负责人。本科和博士毕业于清华大学;曾任腾讯 AI Lab AI图形学组组长,手机QQ艺术滤镜和腾讯云虚拟人背后的技术大佬。
丽冰:元象XVERSE运营总监。毕业于香港中文大学,负责元象生态运营及创新项目探索,此前在腾讯游戏天美工作室及Roblox任职。
1)令琪在这届SIGGRAPH发表多项研究,能介绍一下你的研究和关注领域吗?
令琪:SIGGRAPH是我们实验室及合作伙伴每一年瞄准的顶会,肯定是希望能在这多发表文章,也希望自己的文章能有一些影响力,推动渲染研究的发展。这次我发表了好几个论文,主要前几年各种原因没中,今年刚好赶上,还是比较幸运的。
论文集中在我关注的渲染方向,以及这之下的若干不同小方向。比如:一个比较重量级的工作叫Towards Practical Physical-Optics Rendering*,是我一直在试图回答的问题,在平时我们做光线追踪时我们总是会和一个叫reference或是ground truth的东西,在暴力的路径追踪算法上作比较。
在真实的世界中,光线其实是一种电磁波,它和各种各样的物质发生作用的过程,主要包括一开始的光源发出、传播、和物体作用、成像被人看到,那我们主要研究这一过程,希望利用我们的研究来解释光线追踪是正确的,同时解释它目前情况和真实的物理世界的差距。

我的另一个研究重点是材质*,这次会上有相对不错的爆发。比如我们研究一个光线在微表面上多次弹射,让它可以能量守恒的一个偏理论性工作。
偏实践性的我们也做了一个研究*,比如要把一个小动物的每根毛发都渲染出来,这是一个很耗时的过程,那我能不能尝试用1/10的毛发或者1%的毛发得到和原来一样的效果?因此要回答的一个核心问题就是,如果我现在有一根毛发、我知道一根毛发的样子,那能不能快速告诉我其他100根头发长度,如果能快速回答这个问题,就可以通过非常小的开销,去渲染一个毛茸茸的动物。
另外我也在做一些探索,我称为神经辅助渲染*,之所以不叫神经渲染,是因为我不太愿意依赖于神经网络的解法,或者说我希望神经网络做一部分能够帮助渲染过程的事情。因此我们主要是用神经网络来代替渲染中间的一小部分的工作,用神经网络能够表示物体表面的材质,即BRDF,以及它们之间的相互作用。所谓相互作用是指,假设我们在一个木头桌面上刷一层清漆,透过这个清漆,看到的其实是上层的清漆和下层的木头共同作用的结果,那么这两个BRDF如何共同作用呢?
我们有一个公式可以解答这个过程,第一它肯定能解出,第二解它的过程可能比较繁琐,那么这种非常小的过程就可以交给神经网络来做,我们就用了一个超级简单的两层神经网络,每一层几个节点,比较小的规模,去完成这么一个工作,这也是我想探索的一件事,神经网络到底应该在渲染中间怎么用、是不是需要一个非常庞大的网络,事实证明,没有这个必要,以及是否一定要解决端到端的问题,事实证明也没有这个必要,解决一个它能解决的小问题,才是适合的。
2)令琪之前也做过用神经网络来表达一些BRDF的内容,这篇研究和过往有哪些差别?对于神经网络想尝试哪些不同操作?
令琪:用神经网络来做一些表示性的工作,本质上是压缩,相当于BRDF是一张4D的表,输入的方向、输出的方向各自两位,总共四位,也就是说它所描述的是一个高额的表。而神经网络本身非常适用于压缩,因此从压缩的角度并不新奇,也有各种各样、不同的神经网络解决这个问题。
我想试图证明的一件事情,就是在进行压缩表示之后,我们也叫Latent Vector,但人们并不知道如何去解释它,即它丧失一定直观性。而我们想研究的一个问题,就是得到的Latent Vector,在神经网络看来,是否可以把它当成一个神经网络自己可以认识的一种operate操作数,比如说在a+b中 a、b就叫操作数,加号就叫操作符。
如果我给神经网络不同的操作数,用神经网络本身做操作符,那刚刚的例子就是给上层的清漆BRDF,再给下层的BRDF,两者都是神经网络压缩过的、即神经网络的操作数,然后我再给一个简单的神经网络,把它们合在一起,最后显现出来的BRDF,因此也是一样在压缩空间里面表示。
我们试图让神经网络知道,在它的压缩表示下,怎么样去操作得到一些新的东西,也相当于一个人类完全不能解释的一个空间里,让神经网络来做这件事情,类似于做了一个所谓神经网络的代数方法,说明神经网络可以做的事情不只是压缩,还有运算。
这个工作和之前就有所不同,比如之前可以看到用各种各样的神经网络来压缩参数化的、非参数化的、测量的,这就是本质的不同,我的理解从一开始就想着运用很多的神经网络都可以来做压缩,不过还可以做得更好,在这基础上做一些改进,所以神经网络这种小事是非常可行的,也非常高效。
关于神经网络,我还想试试不同类型的操作,比如我刚才说分层算是一种,单说BRDF也有好多不同的操作,比如说我可以改变物体宏观表面的方向、从而得到一些效果,本质上相当于我有一个压缩的BRDF、有一个变化法线的方案,然后再得到一个新的BRDF,所有这些操作在人们看来可能比较复杂,但对于神经网络来说,它有一个明确的解,所以神经网络在做这件事情,反倒会比现在的一些方法要高效。
回到刚刚提到的例子,在两层BRDF之间,光线进入第一层清漆之后,它有可能直接反射、也有可能穿过,并且在清漆的下表面、木头的上表面反射走,之后也有可能再反射、再回来、再上去,这是一个无限多的在两个材质来回不同的作用。这个就比较复杂,但是交给神经网络来处理就会容易很多。
因此我想在一个更大的层面上,试图探索神经网络在渲染中应该怎么使用?作为轻度的用法,我还是认同的。而相对比较复杂的在渲染上的一些东西,比如速度、质量要求等,可能相对困难一点,因此目前来说的它在渲染上的探索,我个人觉得并不完全。
3)今年大会多了一个Conference Track,它和Journal Track的区别是?
令琪:SIGGRAPH今年的一个新变化是,开始引入一个新的投稿方式,即投到Conference Track,而不是投到Journal Track,这两个是相对的。以前SIGGRAPH是一一对应的性质,就是在SIGGRAPH上的所有论文,都会被一期《Acm Transaction on Graphics》的期刊、所谓的TPOG所收录,那么反过来也一样,所有被TPOG收录的文章也都会在SIGGRAPH上做报告。
以前的SIGGRAPH的论文可以认为是Journal track,其中文章会被期刊journal收录,那么今年Conference Track的就只是SIGGRAPH文章,并不会被期刊收录,是否收录还需要专业的评定,但作为SIGGRAPH文章,国内还是相当认可Conference Track的。
那么Conference Track的区别主要是,在不影响创新性的情况下缩短论文的篇幅,要求Conference Track最多只允许有七页的正文,七页足够描述一个好的想法,但可能不用做相关的实验。从出发点来看,主要是因为现在的文章越来越长,我自己是有一篇20页的论文,因此为了说清楚想法,并让我们的文章能够中,可能一些意义不大、需要投入较多时间精力的测试需要省去。
那在今年SIGGRAPH大会,有大约50-60多篇的Conference Track,数量上也是比较多的。另一个角度来看,Conference Track一定程度上也缓解当前图形学领域论文数量越来越少的问题。
至于引入Conference Track的负面作用,可能有些文章质量就是没么高,尽管理论上说是要保证算法的新颖性,但是不管从哪个角度上来说,它的质量多少都会受到一些影响,但其专业程度不一定会随着数量的上升而上升,利或弊哪一个更多还得随着时间推进以后再看。
4)之前做SIGGRAPH通常要做一个很精美的视频或demo,现在还有类似要求吗?
令琪:这个要求会降低,但有些情况下还是需要必要的实验,不再像之前投Journal track大家约定俗成提交一个video,从解放工作量来说 Conference Track还是很成功的。
另外补充一下,视频其实不是所有的文章都需要,而且往往渲染它并不一定需要一个视频,会有其他的一些子方向,比如现在的一些文章可能需要展示在时间上的稳定性,我自己就在考虑,不通过视频也能证明,实施起来也很不错。
5)和很多Graphics的会议或期刊相比,SIGGRAPH近几年规模较小,整体似乎没有增长,令琪是怎么看的?
令琪:这个问题我觉得确实客观存在,单说图形学这边,19年SIGGRAPH录用的文章是90多篇,也就是那个时候,人们开始研究在图形学如何产出更多的文章,让这个圈子壮大起来,所以就有了各种各样的解决方案,Conference Track就是之一。
单从国内的分级制度来看,如果是我,可能会把CGF、EGSR、PG这些类型的期刊变成a类, SIGGRAPH和TPOG的话可以变为S类。那我觉得这样的的话,多少能平衡一些,可以极大刺激国内的通讯发展。目前国内很多顶尖高校确实直接去数SIGGRAPH文章,和隔壁做计算机视觉的实验室数CVPR的文章,那确实没有办法比对。
我当时毕业的时候还挺自豪,有很多SIGGRAPH,相比一年级视觉领域的博士生,那确实完全不够看。自己当了老师之后,也经常和其他老师聊,大家都知道目前计算机系里有大量的年轻老师是做机器学习和相关应用的方向,比如MLP相关,相对来说会比SIGGRAPH容易一些,那这一领域的老师们就不得不扩大自己的实验室规模,否则在同一个领域里面竞争大家就会处于一个非常吃亏的状态,因此也就要求老师们不断地去写proposal,才能去招更多的学生。
渐渐的就会引起两件坏事,一是让老师自己从实验室里面能力最强的角色,变成了一个领导、一个经理的角色;二是会让这个产业变成劳动密集型,对于学生来说,渐渐对于这个领域失去兴趣。
不管是图形学,还是视觉研究,它都是跟时代有着密切联系的,而现在我们处在一个广泛应用机器学习的时代,那自然会出现这样的结果,早在多年前甚至20年前,也有大量的人在做图形学实验。
从历史的角度上来,我觉得这件事情正常,回到个人的角度来说,主要还是看个人选择、或者说情怀,比如说我自己,不管它是难还是简单,自己有兴趣就会去做、去坚持。领域的发展也跟时代有着一定的关系,至于说这个时代应该往哪个方向走,就目前的情况图形学的研究并没有那么热闹,因此反而机会会更多。
6)这次参会有没有一些有意思的话题,或代表了某个趋势、大家关注的方向?
令琪:今年SIGGRAPH上可能对于我个人来说,感兴趣的话题相对少了些。我个人的参会程度不如从前;另外一个是现在SIGGRAPH上有很多文章不再是纯粹地做渲染相关的工作,我能够学习到的东西相对较少。
即便如此,今年仍有一些非常亮眼的工作。单从渲染来说,有一个是在研究怎么样更好的用russian roulette来决定一个路径的长度,这是一个荒废了很久的一个话题,我觉得非常不错。
还有一些关于光线追踪的研究,如光纤光线应该怎么连等等,以及我也看到了前面提到的小规模的轻量级神经网络用在渲染上的研究,这一点的应用也越来越成功,是一个非常好的趋势。
还有一个典型的例子,是adobe做的一个工作,用神经网络去学习一个高度场,当让它贴在物体表面的时候,从侧面看过去有各种各样的轮廓等等,相当于用神经网络做一个displacement map。
今年有一个变化是评选best paper以及honorable mention等等,今年有一篇best paper,缩写叫NGP neural graphics primitive, Thomas Muller的文章,这个研究是在非常短的时间内让神经网络学到任何一个高维信号的表示,我觉得这是一个非常不错的事情,对于神经网络来说它想学一个高维的信号,这个信号本身类似一张巨大的表,首先把这张表里的数据压缩,这需要花很多的时间,但对于神经网络来说,如果有一个方案可以快速地实现压缩出来,那不管是描述五维、nerve神经辐射场、还是描述三维的SDF,那就给了我一个非常不错的启发。

对于应用一些图形学的知识,并结合一个非常简单的神经网络,比如说MLP,那它就可以完成很大的一件事情。所以我觉得今年SIGGRAPH是有很多不错的工作,我觉得收获是非常大的。
在这次会上还倾听了大家的报告,因为疫情,很多老师被迫为学生做报告,效果还是截然不同的。还有一点是,参会过程可以接触到各种各样不同的人,可能是在一个session里的同辈研究人员、或听过名字没见过面的科研组的老师学生等等,也参加了很多公司安排的活动, 也可以了解到各种各样不同的人,互相分享研究之外的生活等等。也非常幸运的见到很多领域里的上古大神,包括Turner Whitted 、两位图灵的获得者等等,收获满满。
7)浩智有没有关注SIGGRAPH上的内容,哪些是你觉得在未来的项目中或落地中有参考价值的?
浩智:我个人目前关注较多的,一个是NeRF或类似的将神经网络当作渲染过程中的lookup table的用法,就是怎么去把渲染过程中的一些东西存到神经网络里,并用在NeRF、烘焙等不同方面。
另一个是动作生成的相关工作,例如DeepPhase,这篇论文的相关作者最开始在2017年就尝试用phase function去表达角色的行走动作,根据不同的环境去预测角色下一个步的动画。今年这篇DeepPhase做得更通用了一些,除了做行走相关的locomotion,还可以跳舞、踢球等等,将这些都统一起来了。恰好这也是今年的best paper之一。

我有了解到,除了我们在关注这个领域,一些游戏行业的其他同仁也在关注,像黑神话悟空有在用类似motion matching的东西,但原始版本的motion matching会有一些问题,包括存储数据的空间大小、运行时计算量等一些问题,所以近几年来人们一直在尝试用神经网络的表达做一些改进。
8)最近半年元象有哪些和图形学相关的有趣项目或技术突破?
浩智:最近元象有挺多商业化项目,我们自己也有做一些技术上的探索。这是两条线,从工业界来看图形学的技术怎么样去落地、怎么样用在一些商业场景上是很重要的探索。
商业化这块的路径我们最近有几个蛮有意思的合作,例如跟腾讯音乐的虚拟演出的合作,支持了像阿迪达斯、百事可乐这样的商业演出,其中角色舞蹈的动作捕捉我们使用的是自研的基于RGB单目摄像头的视频动捕方案(详情介绍),它的优势在于实际生产过程,不需要动捕演员和我们在同一个地点,甚至他在家中或在附近找studio排练厅等就可以自己录制视频,然后我们就能直接用从视频中提取动作,之后再进行一些后处理,并加上一些基于物理的碰撞、或是基于人体关节点能够转多少度的先验,以及一些人工修复的瑕疵,后面也会考虑到物理重力或是摩擦因素去做进一步的后处理与优化,最终形成与百事可乐合作的虚拟演出,实现不同角色唱歌跳舞的节目效果。
另一方面还有一个有趣的应用,我们与一些电商、珠宝品牌合作,比如最近和I DO钻戒合作,为他们做一个虚拟商铺,与一些大型的电商平台中心化的流量不同,我们的方案可以通过商家I DO自己的小程序就可以进入到3D世界,在这个场景里用户可以点开任意钻戒做360度的浏览,也可以与其他用户互动,以及公司产品部分的同学也设计了求婚的交互小环节。我觉得目前处于一个探索阶段,这些都非常有意思。
