304am永利集团师生论文被人工智能领域顶会AAAI2026录用
近日,304am永利集团智能计算实验室的论文《Invariant Conditional Molecular Generation under Distribution Shift》被人工智能领域的CCF A类国际会议——AAAI Conference on Artificial Intelligence (AAAI 2026)录用。该会议已于2026年1月22日至1月27日在新加坡举行。以下是论文简介:
论文标题:Invariant Conditional Molecular Generation under Distribution Shift
作者:胡春雨,廖添胤,隋轶丞,张然,王啸,张子威
作者单位:304am永利集团、中信银行、北京航空航天大学
摘要
条件分子生成在药物发现和材料科学中具有重要价值。然而,现有方法通常假设训练和测试时的条件分布一致,无法应对现实中存在的分布偏移问题。为解决这一难题,我们提出了IC-MOL,一个将不变性学习与图扩散模型相结合的框架。IC-MOL首先将分子图解耦为决定属性的不变子图和作为环境因素的变化子图,在此基础上,我们设计了一个两阶段扩散生成模型:第一阶段专注于生成符合目标属性的不变子图,第二阶段通过交叉注意力机制融合变化子图信息,生成结构完整且符合属性要求的分子。大量实验表明,对于六种不同的属性条件分布偏移,IC-MOL均显著超越了当前最先进的基线方法。
背景与挑战
条件分子生成旨在设计具有特定化学性质(如热容、偶极矩)的新分子,是加速药物研发的关键技术。近年来,扩散模型等深度生成模型在该领域取得了巨大成功。
然而,现有方法普遍存在一个假设:训练时的属性条件与测试时的属性条件是独立同分布的。但在实际研发中,科学家往往需要探索极端或全新的属性空间,导致存在分布偏移问题。
受不变学习启发,我们注意到分子属性通常与某些稳定的不变子图(如特定的官能团)高度相关。即使环境变化,这些子图与属性的因果关系依然成立。这为处理分布偏移提供了新思路,但也面临三大核心挑战:
1、任务差异:现有不变性学习方法主要针对分类任务,难以直接适配生成任务。
2、子图解耦难:生成模型通常将分子图作为整体处理,如何区分不变子图和变化子图,是一个未解难题。
3、信息融合难:即使解耦成功,如何有效融合不变子图、变化子图和目标属性,生成既有效又合规的分子,仍缺乏探索。
研究方法
IC-MOL整体框架包含两个部分:等变子图解耦和两阶段图扩散生成。

图1 IC-MOL的整体框架
等变子图解耦部分,我们假设每个分子都可以被分割成两个不相交的子图:不变子图和变异子图,该部分的目标是得到这两个子图。为了实现这一目标,我们将SE(3)等变性与一种代表性的图不变学习方法GALA相结合,并使用E(3)等变图神经网络(E3GNN)作为骨干网络来实现该方法。
两阶段图扩散生成部分, 目标是生成符合分布外属性的分子。在扩散生成模型的第一阶段,仅生成基于目标性质的不变子图。确保新生成的不变分子的核心结构与所需的性质在因果关系上一致,避免环境因素的干扰。在扩散生成模型的第二阶段,补全完整分子,将第一阶段生成的不变子图作为骨架。同时,将变化子图的表征与目标属性通过一个交叉注意力机制进行融合,得到一个上下文向量,该向量作为条件,指导扩散模型将不变子图细化为一个完整的、化学上有效的分子。
实验分析
在QM9数据集上,针对六种量子属性(如热容、偶极矩等)模拟了两种分布偏移场景(从小值域到大值域S→L,以及从大值域到小值域L→S),并与JODO、Twigs等当前最先进的方法及其结合分布鲁棒优化(DRO)的变体进行了对比。在两种分布偏移场景下,IC-MOL在六种属性上都取得了最低的平均绝对误差,证明了其生成分子的属性更接近目标属性。
表1 S→L条件下的单属性的平均绝对误差

表2 L→S条件下的单属性的平均绝对误差

表3 S→L条件下的三维分子生成结果

表4 S→L条件下的三D分子生成结果
我们还测量了3D分子质量指标。在3D指标中,IC-MOL 在所有性质上几乎都具有最高的原子稳定性和有效性。
总结
IC-MOL结合了不变性学习和图扩散,以实现OOD泛化。大量的实验结果表明,在分布偏移下,IC-MOL在六种属性条件下均优于现有最佳基线方法,验证了其在条件分子生成任务中卓越的泛化能力。未来,我们将探索更灵活的子图解耦方法,并将IC-MOL应用于更复杂的场景,如大规模分子数据集或多属性约束情况。