南燕新闻

首页 > 南燕新闻 > 正文

领军学者聚首南燕 共探智能媒体前沿——2025智能媒体计算技术论坛在北京大学深圳研究生院成功举办

2025-12-26信息工程学院

责编:王琳


2025年12月20日至21日,2025智能媒体计算技术论坛在北京大学深圳研究生院成功举办。本次论坛由北京大学深圳研究生院信息工程学院与广东省超高清沉浸媒体技术重点实验室共同主办。

活动为期两天,采取开放报名、免费参与的形式,分为“学术前沿论坛”与“顶刊顶会论文分享”两大环节。【学术前沿论坛】邀请了来自中国科学院自动化研究所、上海交通大学、哈尔滨工业大学、中山大学、四川大学、清华大学、北京大学等高校科研机构,以及腾讯等企业的10位领域领军学者作主题报告,搭建了高水平的学术交流平台。【顶刊顶会论文分享】环节集中展示了北京大学信息工程学院计算机科学与技术专业学生在2025年度发表于CVPR、NeurIPS、ICCV、IJCV、TIP等国际顶级会议期刊的高水平研究成果,助力青年学者分享成果、交流思想。活动共吸引来自大湾区高校、科研院所及企业的师生与科研人员共270余人报名参加。

图1:北京大学深圳研究生院副院长田永鸿教授致欢迎辞

12月20日上午9时,论坛开幕式由北京大学信息工程学院院长助理、长聘副教授张健主持。北京大学深圳研究生院副院长田永鸿教授以欢迎辞拉开论坛序幕,他系统阐述了深研院的发展定位与建设成效,向与会专家、学者及行业代表表达了热烈欢迎与衷心感谢。紧接着,广东省超高清沉浸媒体技术重点实验室主任、北京大学教授王荣刚详细介绍了实验室的组织架构设计、核心建设方向,以及在超高清沉浸媒体领域取得的阶段性成果与突破。

图2:广东省超高清沉浸媒体技术重点实验室主任、北京大学教授王荣刚对实验室进行介绍

学术前沿论坛主题报告部分分别由实验室副主任、北京大学教授刘宏、实验室副主任、北京大学教授李革、实验室主任、北京大学教授王荣刚担任主持。

图3:刘宏教授、李革教授、王荣刚教授依次主持学术前沿论坛环节

中科院自动化所徐常胜研究员作了题为“开放世界的多模态大模型研究与应用”的报告。他指出多模态大模型因能跨模态学习共性知识,通用性更强、更贴近人类认知,是AI发展关键。当前其虽在跨模态检索等任务中表现优异,但在开放世界应用中仍存挑战。报告聚焦多模态数据关联建模、模型泛化性保持两大问题,分析理想视觉系统要素,提出Libra模型及多项跨域与小样本迁移方法。

上海交通大学熊红凯教授的报告题为“欲辨真义:科研的动机—表示、理解、生成”。报告从信息表示切入,阐释深度神经网络与大模型的数学原理及技术思想;结合统计视角,介绍生成、扩散等多种学习方式与大模型微调技术;基于信号处理角度,解析多尺度及大模型量化压缩编码进展,并对相关研究及交叉方向作出展望。

清华大学季向阳教授围绕“机器视觉空间计算技术及应用”展开报告。该技术作为AI核心发展方向,兼具战略与国防意义,可实现目标精确感知与理解。报告回顾其历史沿革与前沿动态,介绍视觉位姿估计等创新技术如何提升计算精度与泛化性,探讨场景空间交互重建与理解技术,并展望其在工业、航空航天等领域的应用前景。

北京大学马思伟教授以“AVS智能视频编码技术进展”为题进行分享。基于AI的图像、视频编码技术已发展约10年,在编码模块提升、端到端编码等方面成果显著。AVS早于该领域布局,推出ModAI、EEM等平台,主导制定IEEE 1857.11 NIC标准。报告详细阐述其近期技术突破,并展望未来发展趋势。

北京航空航天大学徐迈教授作了题为“面向人类与机器视觉语义的混合压缩方法”的报告,聚焦视频数据压缩难题。大数据时代网络视频数据激增,传统压缩技术受限于香农率-失真性能难以突破。报告介绍现有语义压缩及性能改进方法,提出面向机器视觉语义的混合编码模型,通过特定熵编码模块实现语义信息高效压缩,为数据存储传输难题提供新思路。

图4:主题报告上半场的分享嘉宾依次为:中科院自动化所徐常胜研究员、上海交通大学熊红凯教授、清华大学季向阳教授、北京大学马思伟教授和北京航空航天大学徐迈教授

腾讯首席科学家张正友博士以“人的智能与智能的机器”为题作报告。报告从脑科学知识切入,阐述其对人工智能的启发,介绍腾讯Robotics X实验室以机器人为载体的类人智能探索,发布Tairos具身智能开放平台,通过模块化设计助力行业提升机器人智能水平。此外,他还分享"WTO"工匠精神,强调深耕与终身学习的重要性。

中山大学赖剑煌教授作了题为“行人重识别新进展——从个体行人到小股人群、从地面到空地一体”的报告,聚焦行人重识别技术。该技术在公共安全等领域意义重大,如今正向小股人群识别、空地一体化协同感知拓展。报告剖析其科学难题与挑战,分享团队在无人机行人重识别、跨视域不确定性建模等方面的研究成果,展现相关技术创新与实践进展。

哈尔滨工业大学王耀威教授分享了题为“数字视网膜智能感知关键技术及应用实践”的报告。针对海量视频图像智能感知处理难题,其团队基于数字视网膜智算架构,研发“鹏城・大圣”低功耗模型,突破特征交互计算关键技术,构建智能感知网解决方案。该成果已应用于低空经济、智慧城市等领域,破解大规模视频实时处理瓶颈,助力行业智能化升级。

北京大学彭宇新教授的报告题目为“基于多模态大模型的视觉内容理解与生成”。报告指出多模态大模型在视觉内容理解与生成协同进化中潜力巨大,但面临真实世界细粒度特性、生成内容真实性等挑战。报告介绍其团队在细粒度多模态大模型、AIGC 领域的研究成果,为突破技术瓶颈、推动模型赋能视觉内容理解与生成提供新思路。

四川大学彭玺教授以“基于文本空间的视觉表示学习”为题,分享了关于模态空间映照的创新研究。不同于DeepSeek-OCR将文本映照到视觉空间的路径,报告提出将视觉信号投影到文本空间的反向思路,以削弱视觉多义性。通过准则驱动构建文本表示空间、图像概念抽象转化检索模式两项工作,分别提升图像处理与跨模态检索性能,为视觉表示学习提供新视角。

图5:主题报告下半场的分享嘉宾依次为:腾讯首席科学家张正友博士、中山大学赖剑煌教授、哈尔滨工业大学王耀威教授、北京大学彭宇新教授和四川大学彭玺教授

12月21日上午9时,会议进入“顶刊顶会论文分享”环节,由北京大学信息工程学院助理教授刘梦源与长聘副教授张健共同主持。该环节集中展示了信息工程学院计算机科学与技术专业学生2025年取得的27篇高水平学术论文。

图6:口头报告与亮点论文进行论文展示环节

在展示形式上,10篇优秀论文被选为口头报告(Oral),每篇进行6分钟的深度阐述与2分钟的现场问答;其余17篇则以亮点论文(Spotlight)形式呈现,通过1分钟视频进行精要介绍。展示结束后,会议专门设置了海报(Poster)交流环节,所有作者与参会者围绕展板展开面对面交流。这种多层次、多形式的安排,不仅为参会者提供了深入探讨具体学术问题、交换研究心得的平台,也有力促进了青年科研人才的成长与前沿学术思想的传播。

图7:墙报交流环节

图8:顶刊顶会论文分享环节部分人员合影

此外,本次论坛还吸引了众多领域内知名专家学者齐聚一堂,共同交流。除报告嘉宾外,美国密苏里大学李竹教授、中国科学院大学吕科教授、中山大学操晓春教授、上海交通大学邹君妮教授、哈尔滨工业大学范晓鹏教授与张永兵教授、上海交通大学李成林教授与戴文睿教授、浙江大学李劭辉研究员等校外知名学者,以及北京大学邹月娴教授、朱跃生教授、陈杰副教授、高伟助理教授、罗桂波助理教授、袁粒助理教授等校内骨干学者均受邀出席。

2025智能媒体计算技术论坛的成功举办,不仅搭建了智能媒体计算领域高水平的学术交流与创新合作桥梁,为青年学者提供了展示成果、拓展视野的优质平台,更向业界充分展现了北京大学信息工程学院在该领域的学术实力与学科影响力,有效提升了学院的行业知名度与认可度。未来,论坛所凝聚的学术共识与合作动能,将持续推动相关学科的前沿探索,助力智能媒体技术从实验室走向产业应用。

关闭