专题新闻

首页 > 专题报道 > 专题新闻 > 正文

【南燕青年教师】余珂:在AI浪潮中坐稳科研“冷板凳”

2022-12-26宣传与公共关系办公室

责编:王可佳

E栋204室一进门是余珂老师的办公室,简朴的书架上堆满各类书籍,会客桌上摆放着《曾国藩六戒》的书法作品,从办公桌上的两台计算机设备可以窥见到余珂老师的研究工作对计算机学科的涉猎;角落里摆放着儿童座椅和玩具,为气氛严肃的办公室增添了一些活泼,严谨的“科研之家”透露着一丝生活气息。推开内侧的门则是余珂老师的学生们日常学习研究的地方,余珂老师笑称觉得里屋的学生们才是老板,坐在门口的他反而像是学生。整个访谈气氛轻松生动,大概可以想见余珂老师课题组平时的工作氛围。


余珂在新疆赛里木湖采样留影

因交叉学科背景结缘南燕

“北大一直是我的梦校,我在学生时代一直想和北大有些联系,但无奈一直未能成行。我在加州大学伯克利分校做博士后的时候,师兄提起北大深研院恰好有合适的教学岗位,我就来应聘了,这才与南燕结缘。”谈及选择南燕的原因时,余珂老师提到,北京大学深圳研究生院重视交叉学科的发展,为研究人员提供了宽松的研究平台,“南燕对我们的研究方向不设限制,并且允许失败、允许尝试,这对于发展新的交叉学科研究是十分重要的。”

余珂老师介绍,他深耕的环境微生物与生物信息学实际上是三个学科的交叉:环境工程学、微生物学以及计算机科学。其中计算机科学作为工具,用于解析生物数据,如目前的新冠病毒检测就涉及到对病毒的测序;通过解析数据揭秘如何对群落中的微生物进行控制,从而为环境治理等环境工程课题提供解决方案。余珂老师也正是因为环境微生物与生物信息学的交叉学科背景,在招聘时得到北京大学环境与能源学院院长秦华鹏的肯定,2016年加入南燕,聘为环能学院助理教授。

“我选择在这一交叉领域进行研究的一部分原因是时代背景下新的研究趋势。”余珂谈到。1985年,“人类基因组计划”被正式提出;1990年,我国参与到这项被誉为生命科学的“登月计划”的伟大工程,基因测序技术日渐兴起;2007年前后第二代基因测序技术相较于初代技术取得突破性进展,获取核酸分子序列的精度和效率大大提升,并开始商业化使用。2010年,在香港大学攻读博士学位的余珂开始对两学科的交叉研究进行探索,一头扎进了这个在当时看来前路迷茫的新领域。

“人工智能成为科学家的新生产工具”

余珂老师介绍,传统的微生物学的研究范式是对微生物进行分离培养,观察其生物特性。这一研究范式的局限性在于,人类对于99%甚至更多的微生物都是不了解、无法了解的,这其中也包括现在的新冠病毒:目前能够培养分离出来的微生物大约只有10万种,能够被测序到的微生物种类大概在50万种,而微生物种类总数有10万亿种——人类有了解的微生物种类相较于整个微生物世界而言不过沧海一粟。基因测序技术的兴起使大规模检验、提取微生物数据更加可行,为探索如此庞大的微生物世界提供了可能。

“计算机是十分重要的研究工具。一个人类基因组包含30亿个碱基,单个基因组所包含的数据量就已经十分巨大,计算机的介入可以帮助我们快速解析其中的生物学信息。我们通过基因测序技术提取核苷酸的相关数据,据此进行算法编码,推测该微生物的相关功能,并将其应用在相关的实践中。”

AI for Science(AI4S)正是在科研活动对数据处理的要求越来越高的背景下被提出,试图推动科学研究从小作坊模式转变到大平台模式,即由整个科学家群体共同努力构建基础模型、基础算法和工具,以提升整体科研的效率。2022年,AI4S被阿里达摩院评为年度十大科技趋势,并位列榜首,认为AI技术成为科学家的新生产工具。

具体而言,AI4S中的“AI”,即Artificial Intelligence,指的是机器学习中的自主学习。在应用自主学习处理研究数据时,全部数据被分成两组:训练集和测试集。训练集用于训练、拟合模型,代入测试集不断提高模型的精度和契合度,最终形成专家系统,推测新数据集的结果。这一专家系统取代传统计算机应用中的自然人成为决策者,以达到减少人工工作量、提高工作效率的目的。

余珂老师指出,AI4S中所应用到的人工智能大部分可以通过普通的智能计算机完成,区别于天河二号等依赖CPU(Central Processing Unit,中央处理器)算力的超级计算机,智能计算机依赖GPU(Graphics Processing Unit,图形处理器)加载,算力更强,而相对成本更低。

AI技术在具体科研中的应用——新可能与新课题

近年来,人工智能领域飞速发展,比如DeepMind公司相继推出Alpha-Go和Alpha-Zero,自主学习的能力显著提升。余珂老师提到,这一技术在解析精度上或许仍然无法满足研究需要,但是大大提升了工作效率。

“以我着手的肠道微生物研究为例,人类肠道内的微生物有数百种,其中单单大肠杆菌着一种微生物就又能被分为200多种菌株。不同人体的菌株之间的基因差异很小——通常不足1%,但这微小的基因差异中的一部分带来的碳水化合物的代谢效率的差异是非常显著的,具体可以体现在人体的胖瘦上;另一个典型的例子则是病理性醉酒。揭秘这些差异可以为医药研发提供支持和帮助——实践需求呼唤相关研究工作的开展。”

但这一研究领域也面临着现实难题:传统的测序技术无法达到要求的精度,而通过人工肉眼观测这些差异又使研究人员面临着难以负荷的工作量,因为涉及到的数据通常都是千亿量级的。“如果能够把现有信息转化成计算机可以处理的数据,通过训练模型的方式使计算机代替人工做决策,研究效率可以大大提高。但这仍然需要科研人员人工找出这些微小的差异,组建训练集。”

余珂老师指出,AI4S在推进过程中面临的另一个比较突出的现实问题是,交叉科学的研究对所涉及的领域要求都很高。“以环境工程学和信息工程学的结合为例,相关研究的顺利开展既要求环境工程方面提供能够数据化的相关信息和资源,能够明确具体的需要计算机科学解决的问题并且了解人工智能能够承担哪些工作、能够帮助解决本领域的哪些具体问题;同时也要求信息工程方面有能力解决环境工程方面提出的诉求,并且对科学研究有足够的兴趣。这也意味着我们的学生的培养难度相比其他单一学科而言要更大,对学生的吸引力也相对低,招生是一个很大的难题。”

不仅培养难,研究工作的周期也相对更长。余珂老师介绍,他目前待发表的一篇研究成果花费了8年的时间完成,仍然在修改完善。

一坐就是十多年的“冷板凳”

“交叉学科研究做起来可能会很痛苦,要求研究人员‘能坐冷板凳’。一个研究者穷其一生或许可以在某一单一学科成为大师,交叉学科的研究则要求在两个甚至更多领域都要做得出色、都达到各自领域内很高的水平,才能支持交叉学科研究的顺利进行,这也意味着我们的学生培养周期都异常长,同时也是我们这个领域招生比较困难的原因之一。”余珂老师提到,解决这些问题的一个可行方案是实行双导师制,让专家在各自的领域为学生提供必要的指导和帮助。

多元化的教育背景也是余珂老师重视的学生特质之一。“不同思想交汇可以碰撞出新的火花,多元化的学生背景对于提升创造力有很大帮助,对于研究也是如此。这就要求科研环境有足够的包容性,允许‘百家争鸣’。”

而在学生的培养路径上,余珂老师坦言自己并没有明确的倾向性。“在这一点上,导师的影响是非常重要的,我自己当时选择继续读博也是受到了我当时的导师的影响,但我自己还没有摸索出成熟的学生培养路径。在毕业后的选择上,我们组的学生继续深造的比例很大,也有毕业工作了两年又回来继续读博的。在学生培养上,深研院的制度也在逐步健全,我们每个老师都有一个公费博士后的名额,博士后的支持很好地弥补了我在学生培养上的精力有限、认知受限的问题。”

余珂老师的课题组的另一个特点则是浓厚的人文关怀。“学校除了培养学生,还要培养科学家和思想家,我们要注重学生的长期发展。今年疫情最严重的时候,我和学生都被封在学校出不去,就经常聚在一起吃吃火锅,自己组织一些娱乐活动,相比之下当时我们组的学生精神状态是最好的。另外在日常科研活动中,氛围感也是很重要的,我也会经常夸奖、鼓励学生,并保持一些小小的内部良性竞争,促进大家进步。”

关于研究成果在行业中的具体应用,余珂老师说目前他的工作相对局限于研究层面,并不参与到实际落地的过程中,但研究成果实际上对污水治理、环境微生物调控等具体实践都提供了支持。比如余珂老师会参与到污水处理厂的污水处理工艺的改进中,帮助解析当地污水中的基石微生物,通过调控该微生物来调节午睡的菌群体系,以达到污水治理的效果。余珂老师说,目前正在进行中的一个研究是与香港合作的关于调控环境微生物的项目,未来的研究方向是研发共性可应用技术,通过数据解析的方法找到微生物的特性,为环境工程、医药、农业等行业的发展提供支持。

谈到如何在漫长、艰难的学术道路上一直保持热忱,余珂老师反复提到的关键词是“兴趣”和“倔”。“兴趣是支撑研究的重要动力,尤其是在交叉学科,我们的学生通常都没有生物学或者计算机的背景,让他们从头开始学习一门新的学科,没有兴趣是难以支撑下去的。就我个人而言,我在选择这一交叉领域的时候,人工智能和生物、环境工程的交叉并不是一个前景光明的选择,我的博士导师当时也劝我不要选择这一领域进行研究,这并不是一条好走的路,走的人少,未知的领域庞杂,进入这一领域意味着多数研究都是“垦荒”——可以借鉴的前人研究非常有限。”对发展趋势的高度认同,对未来前沿的热切期待,使得余珂在AI牵引、交叉学科的道路上十数年如一日的执着坚持,从过去走到现在,并朝着未来努力前行。

采访:王可佳 孙凡舒

文字:孙凡舒

图片由受访者提供

关闭