NeurIPS 2024 | Can Transformers Smell Like Humans?

发布于:2025-07-13 ⋅ 阅读:(18) ⋅ 点赞:(0)

在这里插入图片描述

作者:Farzaneh Taleb, Miguel Vasco, Antônio H. Ribeiro, Mårten Björkman, Danica Kragic
单位:KTH Royal Institute of Technology, Uppsala University
论文链接:http://arxiv.org/html/2411.03038
代码链接:https://github.com/Farzaneh-Taleb/transformer-olfactory-alignment

研究背景

人类大脑将环境刺激编码为高维表征,从而形成对世界的感知。视觉、语言和听觉感知的研究已较为深入,但嗅觉感知由于缺少大规模人类嗅觉标注数据集,仍是机器学习领域的冷门主题。化学结构与嗅觉感知之间的映射关系复杂,缺少统一的组织原则,导致定性或定量描述气味剂的方法尚未达成共识。

研究动机

在这里插入图片描述

作者提出一个核心问题:预训练在通用化学结构上的Transformer模型,其编码的气味剂表征是否与人类嗅觉感知一致,即“Can Transformers Smell Like Humans?”。现有依赖专家标注的监督方法费时且易引入主观偏差,而自监督的Transformer模型能否在不使用任何嗅觉标签的情况下,依然对齐人类嗅觉感知,成为本研究的根本动机。

研究内容

  1. 使用MoLFormer(已在PubChem、ZINC等通用化学数据上自监督预训练)提取气味剂表征,维度768。
  2. 设计三大任务验证表征-感知对齐:
    1. 用线性分类器从表征预测GS-LF数据集中专家标注的138个二元嗅觉描述符;
    2. 用线性回归从表征预测Keller、Sagar数据集中人类给出的连续感知评分;
    3. 用表征间的余弦相似度预测Ravia、Snitz数据集中人类给出的气味剂对相似度评分。
  3. 评估表征与15个已知与嗅觉解码相关的physicochemical descriptors之间的可解码性,并逐层分析MoLFormer内部表征的变化。
  4. 与两个基线对比:Open-POM(监督图神经网络,在GS-LF上训练)以及DAM(基于21-维物理化学特征的模型)。

研究价值

首次实证表明:

  • 无需任何嗅觉标签、仅在化学结构上自监督训练的Transformer,可显著对齐人类嗅觉感知;
  • 其结果为化学家与神经科学家提供了从结构直接预测感知的新工具;
  • 揭示了Transformer逐层从低层化学特征向高层感知特征的抽象过程,为理解大脑嗅觉机制提供线索。

要点汇总

在这里插入图片描述
在这里插入图片描述

  1. MoLFormer编码的气味剂表征可在无嗅觉标签条件下对齐专家标注的嗅觉描述符:在GS-LF数据集上,以PCA降至20维后训练线性逻辑回归,平均ROC-AUC显著优于基于15维物理化学特征的DAM,虽低于完全监督的Open-POM,但已表明大规模化学预训练模型具备零样本嗅觉概念捕获能力。(Section 4.1, Figure 2)

在这里插入图片描述
在这里插入图片描述

  1. MoLFormer表征可预测人类参与者给出的连续嗅觉评分:在Keller与Sagar数据集上,线性回归模型输出的评分与人类平均评分之间的Pearson相关性在多数描述符上与监督模型Open-POM相当,并优于DAM;整体平均相关性虽不高,但已显著优于随机水平。(Section 4.2, Table 1, Figure 4)

在这里插入图片描述

  1. MoLFormer表征可直接估计人类感知的气味剂相似度:对Ravia与Snitz数据集中所有气味剂对计算余弦相似度后,与人类相似度评分的Pearson相关性分别达0.66与0.64(p<0.0001),显著优于DAM,与Open-POM无显著差异,显示Transformer更擅长捕获抽象的感知相似性而非具体描述符。(Section 4.3, Figure 5a)

在这里插入图片描述

  1. Transformer层数越深,表征与人类感知对齐越强,而与底层化学特征对齐越弱:逐层分析显示,随层数增加,预测physicochemical descriptors的性能下降,而预测人类相似度评分的能力提升,与视觉模型中“低层局部特征、高层抽象概念”的层级结构一致。(Section 4.4, Figure 5b, Figure 7)

在这里插入图片描述

  1. 噪声上限分析揭示了数据质量对模型性能评估的影响:Keller数据集噪声上限约0.28,表明当前模型已接近数据极限;Sagar数据集噪声上限约0.7,说明仍有提升空间,为未来数据收集与模型改进提供参考。(Appendix A, Table S.1, S.2)
  2. 当前工作未考虑气味剂浓度与个体差异:模型对混合物仅简单平均单体表征,未利用感知强度权重;所有实验仅使用跨被试平均评分,未评估个体层面一致性,这些限制了结果的精细度与可推广性。(Section 5 Discussion, Limitations)

局限性

  • 未引入气味剂在混合物中的相对浓度或感知强度;
  • 受限于公开数据,连续评分任务中样本多样性不足;
  • 仅使用群体平均评分,未分析个体差异;

相关工作

  • Predicting odor perceptual similarity from odor structure, Kobi Snitz et al., PLoS Computational Biology, 2013 提出Distance Angle Model (DAM),使用1433个物理化学特征子集预测气味剂对感知相似度,需人工特征选择。
  • A measure of smell enables the creation of olfactory metamers, Aharon Ravia et al., Nature, 2020 扩展DAM,引入感知强度加权,用于多组分气味剂相似度预测,仍依赖少量物理化学描述符。
  • A principal odor map unifies diverse tasks in human olfactory perception, Brian K Lee et al., BioRxiv, 2022 构建Principal Odor Map (POM)图神经网络,监督学习约5000分子的138个专家标签,性能优于传统方法,但需要昂贵标注。
  • Large-scale chemical language representations capture molecular structure and properties, Jerret Ross et al., Nature Machine Intelligence, 2022 提出MoLFormer,基于Transformer的化学语言模型,自监督训练PubChem、ZINC,展示在多种化学任务上的通用表征能力,但未涉及嗅觉感知。

网站公告

今日签到

点亮在社区的每一天
去签到