4月15日晚19:00,由北京大学深圳研究生院团委打造的“师友计划”系列品牌活动——青年与未来交流沙龙第六期活动《对话袁粒:迸发于热爱中的科技火种》在六号楼学生活动中心多媒体室顺利举办。本次活动有幸邀请到北京大学深圳研究生院信息工程学院助理教授、博士生导师袁粒老师分享他的个人经历,讲述他如何培养研究兴趣,以及他对这次AI浪潮的见解。参加本次活动的还有深研院团委副书记、国际法学院学工老师徐小奇老师、哈工大(深圳)、清华大学(深圳)以及北京大学各个学院的40余名青年学子。
人工智能的浪潮汹涌而至,也带来了更多的思考和未知的领域,复杂的视觉神经网络、如黑箱般的多模态机器学习、可以智能对话的NLP大模型再到神奇的文生图、文生视频的视觉大模型,在技术快速升级迭代的过程中,AI行业的共识也从对泛用大模型的追求,到对更具落地能力的行业模型,而这也是袁粒一直坚信的“只有被应用到实际生活里,科学技术才能产生价值。”
本次讲座袁粒老师讲述了他是如何从漫漫求学生涯中埋下一粒科技火种,与我们了分享他的研究过程和见解,共同聆听其团队Sora复现计划的未来,带我们走进他的“袁”宇宙。
嘉宾介绍
袁粒,北京大学深圳研究生院信息工程学院助理教授、博士生导师。分别在中国科学技术大学和新加坡国立大学获得本科(2017年)和博士学位(2021年)。
研究方向为深度视觉神经网络设计和多模态机器学习,在人工智能顶级期刊和会议上发表论文40余篇,代表性一作论文包括T2T-ViT(被引1000+)和VOLO视觉模型(IEEE TPAMI);主持多项国家级项目,包括国家自然科学基金青年项目和科技部2030新一代人工智能重大项目课题;ACM MM最佳挑战赛冠军、入选2023年福布斯亚洲30U30榜单。
由袁粒带领的学生团队设计出的ChatExcel测试版于2023年2月28日发布,仅半个月,公测网页的日活用户峰值达到11万独立IP,累计访问量逾200万人次。7月袁粒带领课题组和北京大学-兔展AIGC联合实验室推出“ChatLaw”项目——国内首个法律场景下的落地大语言模型产品。2024年3月1日袁粒和北大计算机学院教授、博导田永鸿等初始团队10人又发起了一项Sora复现计划——Open Sora。
一、选择与探索:从小镇少年到新加坡国立博士
“因为我发现只要你敢去做一件事,就这个事情也许你完全没做过,但只要你去做,好像也没有那么难”这是高中时的袁粒探索出的世界规则,而年少时的“一腔孤勇”也带着他乘风破浪,完成了许多不可能的事。2013年,带着对变形金刚般酷炫的机械制造的想象,袁粒选择了中国科学技术大学的精密仪器专业,但与此同时,这一年对于人工智能领域来说也是关键的一年,特别是在深度学习算法的应用和计算机视觉领域的发展上取得了重大突破,AlphaGo后续的出现,并展现出超越人类顶级棋手的实力更加深深吸引了袁粒对于人工智能领域的关注,并且隐隐洞悉着时代主旋律和大潮所向。为了明确自己的研究兴趣,获取更多信息,袁粒在大学阶段做了很多尝试,参加了许多不同类型的社团,以及各类赛事,最后发现自己还是最热爱计算机领域,于是大二时便下定决心转专业,并且奔着本科直博的目标,加入了用人工智能做生物医学方向科研的实验室,负责算法部分的研究,凭借三年刻苦的训练、对于数据深入的挖掘与钻研,取得了一定的成果,最终获得了新加坡国立全奖直博的名额。2019年,袁粒读博期间在哈佛大学访学进修,继续寻找着研究方向,做了许多尝试之后,发现transformer很有可能是一个大一统的结构,也坚定了深入视觉神经网络与多模态机器学习领域的研究。“在不同的时代,你需要找到一个合适的位置”在班上许多同学选择放弃深造,去企业工作时,袁粒没有随波逐流,给自己找到的位置是延心之所向,顺时代之势而为。
二、自由、平等与开放:是学术研究的底色
博士毕业半年,袁粒陆陆续续拿到了许多国内外高校的offer,但他一直在等心目中最心仪的那个offer。北大深研院自由、平等、开放的学术研究氛围正是袁粒坚定选择来到这里的原因。22年6月入职,从课题组的搭建,到机房的设计装修,袁粒都亲力亲为。在学生管理模式上,鼓励学生自由选择,无论是科研或是创业。在研究方向上也不拘泥于给定的选题,支持学生提出自己的想法,并付诸于实践。
在袁粒看来人工智能领域之所以能在短短几年内得到突飞猛进的发展,很重要的就是开源,数据和模型开源让大家一起推动这个领域的发展。AI 发展是个资源密集型行业,当企业认为发展路径过长,就不会投入资源,那只能靠学术界去推动,这也正是学术界存在的意义。基于此袁粒和田永鸿教授带领团队发起了一项Sora复现计划——Open Sora,致力于开发一个开源版本的Sora,以最宽松的开源社区协议,面向更广泛的学者与技术人员,鼓励学术界基础科学的发展,正如袁粒所说“学术界是保留火种的地方,需要以更底层的创新导向,长期主义地向前发展。”
三、埋下火种:从Chat Excel到Open Sora
在技术快速升级迭代的过程中,AI行业的共识也从对泛用大模型的追求,到对更具落地能力的行业模型,而这也是袁粒一直坚信的“只有被应用到实际生活里,科学技术才能产生价值。”“端一杯咖啡打开电脑,告诉Excel表格需求,表格便开始实时更新并完成工作……”ChatExcel正是诞生在这样一个许多人不断重复的一个日常场景中。同样,做普通人也能用的法律大模型 ——ChatLaw应运而生。作为国内首个法律场景下的落地大语言模型产品,ChatLaw 可以辅助专业律师大幅减轻工作负担。袁粒以其亲身经历的“噪音扰民”及其学生“试驾剐蹭赔偿”两个案例,说明ChatLaw工具是能够应用在解决现实问题中的,并期待当算力和资源充足时能够面向C端用户开放。Open Sora项目在视频压缩方面也取得了一定突破。能在一张GPU显存中处理多个压缩后的视频片段,从而增强了模型的时空建模能力,有限算力训练的模型生成的初步视频效果,尽管存在一些问题,但已经验证了框架的可行性。未来团队也计划继续优化模型以生成更长更清晰的视频,并期待开源社区的支持。
在沙龙互动交流环节,同学们都踊跃举手与袁粒老师互动,争相提问、踊跃发言,此次青年与未来交流沙龙活动为同学们提供了难得的机会,去了解深度视觉神经网络如何与多模态技术相交织,两个领域的重叠又将带领人工智能去往何方,其应用会在哪些领域影响我们的日常生活。有的同学带着对于该领域技术发展现状的疑惑而来,有的同学则带着对学术研究路径以及自身发展的困惑而来。袁粒老师都一一耐心解答了同学们的问题,并分享了自己的经验和见解。将沙龙交流在热切的师生互动中推向高潮。
此次沙龙活动为参与问答互动的同学精心准备袁粒老师的推荐书目,并安排了现场签字寄语环节。大合影环节结束后,在工作人员引导下,同学们按耐下激动的心情有序排队签字,并与袁粒老师热切地交流。
良师诤友,畅所欲言。本次青年与未来交流沙龙第六期活动“《对话袁粒:迸发于热爱中的科技火种》”在同学们热切的交流中顺利落下帷幕。“燕园情,千千结,问少年心事”,参与活动的师生们也在本次交流中产生心灵共鸣、碰撞出思维火花。