2024年诺贝尔物理学奖和化学奖双双花落AI领域——前者突出“Science如何应用并改变AI”,后者强调“AI如何改变科学和人们的认知”,将AI for Science(AI4S)的研究热度推上新高潮,其在成为学界前沿趋势的同时正在推动科学研究范式的变革。信息工程学院田永鸿、陈杰团队一直致力于推动AI for Science的发展,前期工作曾入围2022年度戈登贝尔特别奖,与美国阿贡国家实验室、橡树岭国家实验室团队在世界舞台上角逐这一超级计算机领域的国际最高奖项,团队于众多世界级顶尖强队中脱颖而出名列前茅,展现出中国人工智能在计算集群和科研创新领域的全球顶尖水平。除此之外,团队先后获得2023年度广东省科学技术奖科技进步奖特等奖、首届“祖冲之奖——人工智能前沿创新奖年度重大成果奖”以及国家数据局2024年“数据要素×”大赛广东省一等奖、全国二等奖等荣誉。1月17日,团队联合广州国家实验室周鹏研究员的AI4S研究新进展在《自然·机器智能》(Nature Machine Intelligence)上发表,再次展现AI助力自然科学研究范式革新的巨大潜力。
论文链接:https://www.nature.com/articles/s42256-024-00966-9
研究亮点:
(1)探讨了如何定制化蛋白质语言模型以适配进化预测任务,提出了定制化预训练策略和数据集,为蛋白质语言模型预训练与下游任务之间的权衡提供了研究新视角;
(2)从进化论角度凝练了病毒进化的两大本质问题,从而通过“微弱突变放大”和“稀少有益突变挖掘”两个创新设计实现了跨病毒类型和跨毒株类型的通用预测,涵盖新冠、流感、寨卡和艾滋病病毒,实现了Science和AI架构的高度融合;
(3)突变所处相互作用网络的全面重建模块(包含动态粒度注意力机制以挖掘motif模式)以及提出的多任务焦点损失函数适用于蛋白质通用体系,具有进一步拓展用于各类蛋白质功能预测及蛋白质定向进化的可能;
(4)实现了不同尺度的病毒进化预测,未来可与疫苗和蛋白类药物设计流程相结合,有望提升设计效率和设计可控度。
在自然界,物种多样性与生物体内承载功能的蛋白质相互约束,这是因为蛋白质作为功能的载体决定了生物的性状,而这些性状经过选择压力筛选后形成了当下的物种多样性分布结果。立足达尔文进化论及表观遗传学持续新研究的角度,生物演化与环境组成了复杂系统,是与环境的协同演化。受此启发,研究团队基于进化论视角重新审视病毒进化预测难题,提出了解决病毒进化两大本质问题的跨病毒类型、跨毒株类型的通用进化预测模型,为疫苗、药物的快速主动更新以及提高人类对于新发病毒感染的响应速度提供了强大工具,支撑和加速对于物种复杂进化机制的探索。
突变是病毒进化的基石,不同病毒的具体进化历程各有其独特性,但是其共性在于最终的进化结果中几乎都是有害突变占据大多数。从整个进展尺度来看,即使有害突变与有益突变的比例会随物种和环境不同而有所区别,但是有害突变被认为总是远多于有益突变,即有益突变是病毒蛋白进化适应度空间中的极小子集。很自然地,有害突变的高发性使得同一个变异株内难以共存较多的突变,即一个变异株所具有的突变数量与原始型相比往往较少,仅有少数位点会发生突变。因此,团队将上述病毒进化轨迹凝练为病毒进化的两大本质特点:“少数位点突变”(Few-site mutations)和“稀少有益突变”(Rare beneficialmutations)。以上两大进化特点导致了明显的建模难题:“少数位点突变”引起的分子内相互作用网络的变化相对比较微弱,使得神经网络对其直接捕获极其困难,而“稀少有益突变”在数据层面造成了严重的正负样本不平衡问题,这导致精准预测对进化至关重要的稀少有益突变成为巨大挑战。
为此,研究团队提出了进化驱动的病毒变异驱动力预测框架E2VD(图1),通过“微弱突变放大”和“稀少有益突变挖掘”两个创新设计实现了跨病毒类型和跨毒株类型的统一预测。通过面向进化场景的定制化蛋白质大语言模型(国产E级智算平台“鹏城云脑II”256张NPU支撑训练)、突变所处相互作用网络的全面重建模块(包含动态粒度注意力机制以挖掘motif模式)以及提出的多任务焦点损失函数,E2VD在几类关键病毒进化驱动力预测任务上实现了最佳性能,显著且全面超越其他方法(性能提升在7%-21%不等),实验证明了该预测框架对于病毒进化模式的精准捕获,将稀少有益突变的预测精度从13%大幅提升至80%,实现了跨越式精度提升。其可用于灵活定制化组合以预测不同尺度的进化趋势,不仅实现了大流行内部进化轨迹的解释和潜在高风险突变的精准预测,而且实现了对于大流行尺度的宏观进化轨迹预测,重现了病毒在真实世界中的进化路线,为病毒进化机制的解读提供理论性支撑。
图1:E2VD模型架构
此外,E2VD在跨越病毒类型和毒株类型时展现出强大的泛化能力(图2)。研究团队提出鲁棒且避免实验批次效应影响的突变所致病毒适应度变化评估指标,并以此评估了模型在同病毒类型的不同毒株之间以及不同病毒类型之间的泛化表现,E2VD在新冠病毒、寨卡病毒、流感病毒以及艾滋病病毒上展现出理想的泛化能力,始终超越其他方法,未来可进一步拓展至更多传染性病毒,与疫苗和蛋白类药物设计流程相结合,有望提升设计效率和设计可控度。
图2:跨病毒类型和跨毒株的泛化性能
北京大学信息工程学院博士生聂志伟、硕士生刘旭东为该工作的共同第一作者,田永鸿教授和陈杰副教授为共同通讯作者。
相关链接:
入围戈登贝尔特别奖新闻链接:https://news.pku.edu.cn/jxky/90d276ae5f8441849fd04372fd872154.htm
论文链接:https://www.nature.com/articles/s42256-024-00966-9