2024年11月1日,在北京大学“研究生教育创新计划”支持下,“粤港澳”大湾区首届AI for Science博士生学术论坛在北京大学深圳研究生院D栋阶级教室拉开帷幕。中国科学院院士、数学家、信号与信息处理专家、西安交通大学徐宗本教授,北京大学深圳研究生院党委书记谭文长教授,北京大学深圳研究生院新材料学院莫凡洋长聘副教授,北京大学深圳研究生院信息工程学院陈杰副教授,北京大学深圳研究生院信息工程学院袁粒助理教授及来自香港大学、香港中文大学、香港浸会大学、澳门科技大学、澳门理工大学、北京大学、清华大学、中山大学、南方科技大学、深圳大学等高校的100余位在校博士研究生出席论坛。本次论坛由北京大学深圳研究生院院长助理、信息工程学院院长田永鸿教授主持。
集体合影
AI for Science主论坛现场
谭文长教授代表北京大学深圳研究生院向参加本次论坛的嘉宾和同学表示由衷的感谢和最热烈的欢迎。他表示北大深研院在“问题导向、南北联动、AI牵引、创新融合”的发展理念指导下,将科学智能(AI for Science/AI4S)作为优先发展战略,申请增设科学智能交叉学科,积极探索培育兼具交叉学科背景和AI研究能力的高层次人才。希望本次论坛能为广大学子提供相互学习和展示自我的舞台,也希望青年科技工作者及青年学生人才能沿着老一辈科学家艰苦奋斗,在AI4S交叉学科这块广阔无垠的土地上深耕细作,勇做拓荒者,争做引领者,为科技自立自强和中华民族伟大复兴而团结奋斗。
谭文长书记致辞
徐宗本院士为大家带来主题为“大模型的极限理论:解读智能涌现现象”的学术报告,解析什么是智能涌现? 是什么要素催生了智能涌现?大模型在什么情况下才会出现智能涌现? 报告提出了一个数学框架,核心思想是利用三元随机函数ℰ(N,P, ∂ℓ)来度量大模型泛化性, 利用 ℰ(N, P, ∂ℓ)的极限行为/极限速度 (N→∞, P→∞, ∂ℓ→0)来度量大模型的尺度变化律(Scaling Law),并以此为基础来解译智能涌现。他表示大模型泛化性能与模型规模的尺度率在亚指数率与指数率之间;大模型泛化性能与训练数据规模的尺度率为亚指数率;当大模型的权值最优设定,而且其基块满足Lip(T)<1或m(A)>0时(Lip(T),m(A)分别是大模型基块的Lip数和Dahlquits数),模型规模、训练数据规模趋于无穷将导致大模型出现智能涌现。
徐宗本院士线上作学术报告
AI for Materials分论坛由莫凡洋副教授的报告和5位在校博士生的口头报告组成,涵盖化合物色谱分离、分子模拟、红外光谱预测模型等主题。
AI for Materials分论坛各汇报人作汇报(莫凡洋、崔涛镛、赖根明、陈喆、刘丞军、张瑞琪)
莫凡洋副教授带来主题为“机器学习辅助化合物色谱分离”的报告,详细介绍了化学合成产物分离难题及色谱技术的局限,人工进行化合物色谱分离存在费时费力的缺陷,而通过建立AI大模型,能很大程度上提高色谱分离的准确性和便捷性。
清华大学的崔涛镛作了题为“Geometry-enhanced pretraining on interatomic potentials ”的报告,分享了其利用机器学习来进行材料设计和药物研发方面的工作。
北京大学的赖根明作了题为“Analysis of LI Metal Anode by Machine Learning Potent”的报告,分享了人工智能技术应用于锂沉积机制、锂枝晶调控和锂在铜结构体沉积等方面的工作,为今后提升锂金属负极的性能提供思路。
中山大学的陈喆以“Automate Reaction Exploration and Machine Learning Gulded Discover Catalyst ”为题,介绍了利用人工智能技术,筛选出具有活性的催化剂,并进行实验合成验证方面的创新成果。
北京大学的刘丞军作了题为“Infrared Spectra Prediction for Functional Group Region Utilizing a Machine Learnin
/Neighboring Mechanism”的报告,提出了一种机器学习方法,采用一种结构邻近机制,旨在增强预测和红外光谱的解释,从而显著增强光谱预测的准确性、鲁棒性和可解释性。
北京大学的张瑞琪作了题为“Machine Learning for Screening Stable Structures and Elucidating Doping Effects on”的报告,介绍了利用人工智能技术进一步提高正极材料的能量密度以及降低成本方面的工作。
AI for Biology分论坛由陈杰副教授的报告和来自北京大学、香港中文大学、中山大学的5位在读博士生的口头报告组成,涵盖蛋白质设计、多组学数据整合、蛋白质复合体结构建模、肿瘤微环境细胞解析等热点话题。
AI for Biology分论坛各汇报人作汇报(陈杰、林宗莹、江韬、陈晟、熊昕、张祎坤)
陈杰副教授作了题为“大数据驱动的蛋白质设计科研范式”的报告,介绍了基于AI大模型进行蛋白质药物设计方面的研究工作,展示了人工智能在蛋白质设计领域开辟出全新的科研范式。
北京大学的林宗莹带来主题为“基于分类学引导的蛋白质序列扩散模型”的分享,提出了一种结合生物物种信息的可控制蛋白质序列生成的分类引导扩散模型TaxDiff,利用扩散模型的生成能力生成结构稳定的模型序列空间内的蛋白质。
香港中文大学的江韬作了题为“MetaGXplore: Integrating Multi-Omics Data with Graph Convolutional Networks for Pan-cancer Patient Metastasis Identification”的报告,分享了利用增强AI模型的可解释性并识别与AI模型相关的关键基因转移方面的工作,为未来的靶向治疗提供新的见解。
中山大学的陈晟作了题为“Protein complex structure modeling by cross-modal alignment between cryo-EM maps and protein sequences”的报告,通过采用更加全局的方向预测氨基酸类型,并将冷冻电镜图与蛋白质序列进行跨模态对齐,开辟了蛋白质复合体结构建模的新路径。
香港浸会大学的熊昕通过作了题为“DeSide: A unified deep learning approach for cellular deconvolution of tumor microenvironment”的报告,为肿瘤微环境细胞解卷积提供了深度学习的统一方法,为肿瘤研究带来了新方向。
北京大学的张祎坤作了题为“Multiple sequence alignment-based RNA language model and its application to structural inference”的报告,展示了基于多重序列比对的RNA语言模型在结构推断中的应用,为RNA研究领域注入了新的技术动力。
AI for Informatics的分论坛由袁粒助理教授的报告和来自北京大学、香港大学、上海交通大学的5位在校博士生的口头报告组成,涵盖了AIGC的视频生成、异常检测、语义通信、版权保护和具身智能等热点话题。
AI for Informatics分论坛各汇报人作汇报(袁粒、姚欣成、朱婷婷、张轩宇、牟冲、穆尧)
袁粒助理教授以“生成未必理解:从视频生成开源模型到理解与生成统一架构”为题,介绍了AIGC视频生成方面的工作,指出目前视频理解基本收敛于自回归模型,而生成架构仍未收敛到扩散模型,两套建模方式的割裂是目前视频开源生成模型面临的重大问题,也是可供各位科研探索者大展宏图的广阔天地。
上海交通大学的姚欣成作了题为“ResAD: A Simple Framework for Class Generalizable Anomaly Detection”的报告,探讨了类无关的异常检测方法,巧妙地运用残差的特征,先为每个类匹配最相似的类相关属性,再用相减抵消类相关性,消除了类的相关性对结果的影响,实现了异常检测的简单有效。
中山大学的朱婷婷作了题为“How to Evaluate Semantic Communications for Images with ViTScore Metric?”的报告,在信息传输从传统比特通信转向语义通信的大背景下,提出了一种基于ViT模型的通信效果度量指标,能广泛应用于经典图像通信、图像语义通信和有噪声的图像语义通信等多个层面。
北京大学的张轩宇带来主题为“EditGuard: Versatile Image Watermarking for Tamper Localization and Copyright Protection”的分享,面对AIGC时代下生成内容人类无法判断的问题,创造性提出向图片嵌入双重水印的解决方案。
北京大学的牟冲作了题为“T2I-Adapter: Learning Adapters to Dig Out More Controllable Ability for Text-to-Image Diffusion Models”的报告,介绍了基于扩散模型的精准可控生成、精准图像和视频编辑方面的工作,创造性地提出了增加名为T2I-Adapter适配器的构想,在不影响生成效果的同时实现即插即用、组合应用,实现了对生成结果精准编辑的效果。
香港大学的穆尧带来题为“RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis”的分享,介绍了具身智能领域的一些新进展,运用视觉语言模型构造三维世界坐标地图,通过定义物体可能的交互偏好和现实世界的物理约束,运用大模型进行具体推断,实现机器人与现实物体交互的效果。
田永鸿教授、莫凡洋教授、谭明奎教授为获奖学生颁奖
本次论坛还评选出了优秀论文、优秀海报和优秀讲者三类奖项,崔涛镛获优秀论文一等奖,张祎坤和牟冲获优秀论文二等奖,任恒宇和赖根明获优秀论文三等奖;刘丞军、陈晟、郑圳香、杨睿获优秀海报奖;陈喆、熊昕、穆尧被评为优秀讲者。