我们如何测量气味?气味是由在空气中飘荡、进入我们的鼻子并与感觉受体结合的分子产生的。可能有数十亿个分子可以产生气味,因此很难对哪些分子产生哪些气味进行分类或预测。感官地图可以帮助我们解决这个问题。色觉拥有这些地图中最熟悉的例子,从我们每个人在小学学习的色轮到用于在视频制作中执行色彩校正的更复杂的变体。虽然这些地图已经存在了几个世纪,但有用的气味地图却一直缺失,因为气味是一个更难破解的问题:分子的变化方式比光子多得多;数据收集需要气味器和气味之间的物理距离(我们没有良好的气味“相机”和气味“监视器”);人眼只有三种颜色的感觉受体,而人的鼻子有> 300种气味。因此,以前制作气味图的努力未能获得成功。
2019 年,我们开发了一个图神经网络 (GNN)模型,该模型开始探索数千个不同分子的示例,并与它们唤起的气味标签配对,例如“牛肉味”、“花香”或“薄荷味”,以学习分子结构与该分子具有每个气味标签的概率之间的关系。该模型的嵌入空间包含将每个分子表示为一个固定长度的向量,该向量根据其气味描述该分子,就像视觉刺激的 RGB 值描述其颜色一样。

左图:一个色图示例,其中坐标可以直接转换为色调和饱和度的值。相似的颜色彼此靠近,特定波长的光(及其组合)可以通过地图上的位置来识别。右图:主要气味图中的气味操作类似。单个分子对应于点(灰色),这些点的位置反映了对其气味特征的预测。
今天我们介绍“主要气味图”(POM),它将模型嵌入空间中每个气味分子的向量表示识别为高维空间中的单个点。POM 具有感官地图的特性:首先,感知上相似的气味对对应于 POM 中的两个附近点(以此类推,在色轮上,红色更接近橙色而不是绿色)。其次,POM 使我们能够预测和发现新气味以及产生它们的分子。在一系列论文中,我们证明该地图可用于前瞻性地预测分子的气味特性,从基础生物学角度了解这些特性,并解决紧迫的全球健康问题。我们将在下面讨论 POM 的这些有前途的应用以及我们如何测试它们。
首先,我们询问基础模型是否可以正确预测新分子的气味,这些分子以前从未闻过,并且与模型开发过程中使用的分子有很大不同。这是一项重要的测试——许多模型在看起来与模型之前看到的数据相似的数据上表现良好,但在对新案例进行测试时会崩溃。
为了测试这一点,我们收集了有史以来最大的新分子气味描述数据集。我们在莫奈尔中心的合作伙伴培训小组成员使用 55 个不同的标签(例如,“薄荷味”)对 400 种分子中的每一种进行评级,这些标签被选中以覆盖可能的气味空间,同时既不多余也不过于稀疏。不出所料,我们发现不同的人对同一分子有不同的表征。这就是为什么感官研究通常使用数十或数百人的小组,并强调为什么气味是一个难以解决的问题。我们不是看模型是否可以匹配任何人,而是询问它与共识的接近程度:所有小组成员的平均值。我们找到 模型的预测比普通小组成员更接近共识。换句话说,该模型展示了从分子结构预测气味的非凡能力。

由我们的 GNN 模型(橙色)和基线化学信息学随机森林 (RF) 模型(蓝色)两个模型做出的预测与训练有素的小组成员(绿色)对分子 2,3-二氢苯并呋喃-5-甲醛给出的平均评分进行比较. 每个条对应一个气味字符标签(为清楚起见,仅显示了 55 个中的前 17 个)。前五名用颜色表示;对于 RF 模型,我们的模型正确地识别出前五名中的四个,置信度高,而只有五个中的三个,置信度低。在我们的模型中,与全套 55 个标签的相关性 (R) 也更高。

与替代基准模型(在各种化学信息学特征集上训练的 RF 和最近邻模型)不同,我们的 GNN 模型在预测小组平均评分方面优于中值人类小组成员。换句话说,我们的 GNN 模型比典型的小组成员更好地反映了小组共识。
POM 还在替代人类嗅觉任务(例如检测气味的强度或不同气味的相似性)上展示了最先进的性能。因此,使用 POM,应该可以预测数十亿未知气味分子中的任何一种的气味质量,并广泛应用于香精和香料。
因为主要气味图在预测人类气味感知方面很有用,所以我们询问它是否也可以预测动物的气味感知以及作为其基础的大脑活动。我们发现,这张地图可以成功地预测嗅觉神经科学家研究过的大多数动物的感觉受体、神经元和行为的活动,包括老鼠和昆虫。
自然界的什么共同特征使这张地图适用于经过数亿年进化的物种?我们意识到嗅觉能力的共同目的可能是检测和区分代谢状态,即感知某物何时成熟与腐烂,营养与惰性,或健康与生病。我们收集了生命王国中数十种物种的代谢反应数据,发现该图与新陈代谢本身密切相关。根据地图,当两个分子在气味上相距很远时,需要一连串的代谢反应才能将一个分子转化为另一个分子;相比之下,类似气味的分子仅通过一个或几个反应分离。即使是包含许多步骤的长反应路径也可以通过地图追踪平滑路径。并且同时出现在相同天然物质(例如橙子)中的分子通常在地图上非常紧密地聚集在一起。POM 表明,嗅觉通过新陈代谢的结构与我们的自然世界相关联,也许令人惊讶的是,它抓住了生物学的基本原理。

左图:我们汇总了在 4 个王国的 17 个物种中发现的代谢反应,以构建代谢图。在此图中,每个圆圈是一个不同的代谢物分子,箭头表示存在将一个分子转化为另一个分子的代谢反应。一些代谢物有气味(颜色),而另一些则没有(灰色),两种有气味的代谢物之间的代谢距离是将一种代谢物转化为另一种所需的最小反应次数。在粗体显示的路径中,距离为 3。右图:代谢距离与 POM 中的距离高度相关,这是对感知气味差异的估计。
与整个动物王国的感知和生物学密切相关的气味地图打开了新的大门。蚊子和其他害虫被人类吸引,部分原因是它们对气味的感知。由于 POM通常可用于预测动物嗅觉,因此我们对其进行了重新训练以解决人类最大的问题之一,即由蚊子和蜱虫传播的疾病祸害,这些疾病每年导致数十万人死亡。
为此,我们使用两个新的数据源改进了我们的原始模型:(1)美国农业部从 80 年前开始对人类志愿者进行的一组早已被遗忘的实验,最近被Google Books发现,我们随后将其制成机器-可读;(2) 我们在TropIQ的合作伙伴使用他们的高通量实验室蚊子检测方法收集的新数据集。这两个数据集都测量了给定分子使蚊子远离的程度。一起,得到的模型可以预测几乎任何分子的驱蚊性,从而在巨大的分子空间上启用虚拟屏幕。我们使用全新的分子对这个屏幕进行了实验验证,发现其中十几个分子的驱避力至少与大多数驱虫剂中的活性成分DEET一样高。更便宜、更持久、更安全的驱虫剂可以降低疟疾等疾病的全球发病率,从而可能挽救无数生命。

我们将之前由 Google Books 扫描的数千个分子的 USDA 驱蚊数据数字化,并使用它来改进模型核心的学习表示(地图)。我们添加了额外的层,专门用于预测蚊子喂食器测定中的驱虫性,并迭代训练模型以改进测定预测,同时运行候选驱虫剂的计算筛选。

许多在实验室试验中表现出驱蚊性的分子在应用于人类时也表现出驱避性。有几种表现出比当今最常用的驱虫剂(避蚊胺和排卡瑞丁)更强的驱虫力。
我们发现,我们的气味预测建模方法可用于绘制主要气味图,以更广泛地解决与气味相关的问题。这张地图是测量气味的关键:它回答了一系列关于新气味和产生它们的分子的问题,它将气味与进化和自然界的起源联系起来,它正在帮助我们应对重要的人类健康挑战影响数百万人。展望未来,我们希望这种方法可用于为食品和香料配方、环境质量监测以及人类和动物疾病检测等问题找到新的解决方案。
原文链接https://ai.googleblog.com/2022/09/digitizing-smell-using-molecular-maps.html