AI4S是科学研究的新范式。北京大学深圳研究生院新材料学院潘锋教授团队将图论数学与结构化学相融合创建基于图论的结构化学理论方法,运用图论把晶体结构中的原子及其间的化学键抽象成图论中的点和线,构建出原子间的连接关系图(Sci China Chem, 2019, doi /10.1007/s11426-019-9502-5;National Science Review,2022, Doi10.1093/nsr/nwac028))。由此发展了以结构基元及其连接关系与相互作用为要素的材料基因挖掘方法,并构建了包含60万余种独立晶体结构数据库,通过解构晶体成为结构基元与连接关系并结合AI方法,自主发展了设计新材料、预测结构演化以及自动分析X射线/中子衍射图谱解析材料结构的软件系统(www.pkuszsam.com)。使用人工智能技术实现材料结构解析的自动化是物质结构和新材料研究的新范式。它是开发材料领域自驱动实验室的一个关键步骤,对于无机化合物,X射线衍射(XRD)分析在材料的结构解析过程中起到了重要作用。但由于该过程往往需要大量的专家知识,因而实现其自动化仍是一个巨大的挑战。
近日,北京大学深圳研究生院新材料学院潘锋/李舜宁团队设计了一个基于残差神经网络的深度学习模型CrySTINet。该模型能够从XRD数据中准确识别出未知材料的结构类型,为自动化XRD分析提供了新的途径。相关研究成果以“Crystal Structure Assignment for Unknown Compounds from X‑ray Diffraction Patterns with Deep Learning”为题,发表于《美国化学会志》(J. Am. Chem. Soc. 2024Doi10.1021/jacs.3c11852)。
在传统的XRD分析过程中,研究人员在面对未知材料时如果无法从数据库中找到其物相的晶体结构,则需要借用相近的结构模型,通过对该模型进行调整以获得实测物质的晶体结构。该过程中所借用的结构模型对应了未知材料的一种可能的结构类型。对未知材料结构类型的判别一般依赖于专家知识,因而实现该过程的自动化十分困难。由于无机材料的结构类型种类繁多,导致训练得到的深度学习分类模型往往难以获得较高精度。对此,潘锋/李舜宁团队设计了一个由多个子模型组合而成的模型框架,每个子模型通过残差神经网络对特定数量的结构类型进行判别,通过联合多个子模型的判别结果可以给出未知材料的最可能结构类型。在该框架下,CrySTINet可以扩展至新的结构类型而无需对已有子模型进行重新训练,从而使模型能够广泛应用到各类无机材料的研究之中。
人工智能辅助XRD分析,实现对材料结构类型的自动化判别
研究团队选用了100种最常见的结构类型的模拟XRD数据来训练CrySTINet的初始子模型。这一共包含了63963种无机化合物,覆盖了元素周期表中的几乎所有元素。模型在模拟数据集上的准确率达到了80.0%,并且在实验数据集中也拥有同样高的准确率。研究团队进一步使用了梯度加权类激活映射(Grad-CAM)来解释CrySTINet的分类决策。其结果表明,在每个子模型中,神经网络会将注意力集中至特定衍射角区间以提升子模型中相应结构类型的分类准确率,但这会导致子模型在面对某些分布外数据时容易给出过高的置信度值。因此,在只依靠神经网络输出的置信度值作为结构类型判定依据时,CrySTINet的准确度较低,只有65.7%。而在判定依据中引入与相应结构类型平均XRD图谱对比得到的余弦相似度值后,则可以补充XRD数据的全局特征信息,从而避免模型陷入对特征峰的过度依赖而导致的误判。以该置信度值与余弦相似度值组合构造的参数作为判定依据,可使CrySTINet的准确度最终提升至80.0%。
Grad-CAM提供模型分类决策的可视化解释
北京大学深圳研究生院新材料学院研究生陈历涛、王炳胥和张文韬为文章的共同第一作者,潘锋和李舜宁为通讯作者。该研究得到广东省重点实验室、软科学研究计划项目和广东省自然科学基金的支持。