近日,我院莫凡洋团队与东方理工大学张东晓团队合作,通过结合统计学和机器学习方法,首次明确揭示了薄层色谱(TLC)与柱色谱(CC)之间的量化关系。该研究提出了一种知识发现技术、建立了可解释的公式,将专家经验(Chemist’s experience)转化为“人工智能经验”(AI experience),为色谱分离实验条件的确定与优化提供了理论支持。相关成果发表于《自然·通讯》(Nature Communications)。
图1.相关工作于1月19日发表于Nature Communications
薄层色谱和柱色谱都是一种基于色谱原理(Chromatography)的分析分离方法,广泛应用于合成化学实验室。在进行柱色谱实验时,往往需要先进行薄层色谱分析,通过保留因子(RF值)来评估混合物中组分与流动相的相对极性。在实际操作过程中,流动相的组成和比例通常会根据需要进行调整,以确保目标化合物的RF值大致在0.2到0.3之间。这一源于经验的方法非常有效,然而其背后的原理尚未得到充分阐明,存在“知其然而不知其所以然”的现象,阻碍了研究者对色谱分离化学本质的深入理解。
、
图2.色谱分离的专家经验与数据驱动的关系量化
为回应这一科学问题,研究团队采取以数据为中心的视角,试图直接从大量实验数据中识别出薄层色谱与柱色谱之间的潜在耦合关系,并将其表达为简洁的方程形式。为此,研究团队开发了一种自动化柱层析平台,系统采集了不同实验条件下192种化合物的柱色谱保留体积,共获得了5984条数据。基于此,研究团队通过机器学习方法分析了薄层色谱的保留因子(RF值)与柱色谱保留体积之间的关系,并通过符号回归方法得出了明确的数学公式。
图3.柱色谱的保留时间与薄层色谱的RF值之间关系的公式识别与预测效果
研究揭示了柱色谱中化合物的保留体积分布范围与其RF值存在的显式关系。此外,通过迁移学习还可实现该公式在不同色谱柱规格上的推广。该研究结合机器学习方法,运用AI在识别科学数据集中的模式与关系的能力,破解了化学经验的“黑箱”,为实验化学中的色谱分离原理提供了重要的理论支持,有助于确定色谱分离的条件,有望为相关研究带来更高效的解决方案。
北京大学莫凡洋长聘副教授、东方理工大学张东晓教授(美国工程院院士)为本论文的共同通讯作者。该研究得到了国家自然科学基金、博士后科学基金、北京大学深圳研究生院AI4S交叉专项计划等项目的支持。
本期来源:莫凡洋课题组
编校:Lilly