• EN
  • 搜索
首页
首页 > 学院新闻 > 正文

利兹学院本科生在三维视觉智能研究方面取得重要进展

2025-03-11
来源: 编辑:李崇寿

近日,国际人工智能和计算机视觉顶尖期刊International Journalof Computer Vision(IJCV,计算机视觉国际期刊)在线发表了利兹学院2020级本科生刘宇恒(排名第二,学生第一)、2021级本科生张裕宁(排名第四,学生第二)参与完成的三维视觉智能的最新研究成果“Deep Hierarchical Learning for 3D Semantic Segmentation” 。文章从人类认知和三维世界本身具有的多层次视角,首次提出了面向三维语义分割的深度层次学习模型和理论分析框架。论文第一作者为西南交通大学李崇寿副教授,通讯作者为香港城市大学李欣科研究助理教授,其他合作者包括:西南交通大学李天瑞教授和纽约州立大学布法罗分校袁俊松教授。 IJCV是中国计算机学会(CCF)推荐的人工智能领域的4个A类期刊之一,也是计算机视觉领域最被认可的两大期刊之一,2025年影响因子11.6,年发文量仅170篇左右。这也是学校首次在IJCV上发表科研论文。本项研究得到了国家自然科学基金青年基金、面上项目、四川省自然科学基金创新研究群体等资助。

论文链接:https://link.springer.com/article/10.1007/s11263-025-02387-6

基于此论文提出的多层次学习理论,刘宇恒在李崇寿老师的指导下,与来自香港城市大学、英伟达、加利福尼亚大学默塞德分校的合作者在ECCV (European Conference on Computer Vision) 2024发表了研究成果“Pyramid Diffusion for Fine 3D Large Scene Generation”,西南交通大学-利兹学院为第一作者单位,本科生刘宇恒为第一作者,论文入选口头报告论文(Oral Presentation),口头报告论文录用率仅为2%。此论文也被评为西南交通大学校级百篇优秀毕业论文。

针对3D场景数据的复杂度高、数据需求量大,以及缺乏高质量3D场景数据集等问题,本论文提出了一种基于分层扩散的三维场景生成方法,其核心模块为金字塔离散扩散模型(Pyramid Discrete Diffusion, PDD)。PDD模型分为三个主要层次:基础层建立场景的初步结构和范围;中间层增强更明确的地形特征和场景中较大的物体;细节层则通过优化小规模环境和对场景中的物体进行微调来丰富场景。这种从粗糙场景到细致的结构化渐进式框架优化了传统生成式架构的不足。

论文全文链接:https://link.springer.com/chapter/10.1007/978-3-031-72890-7_5

刘宇恒在ECCV 2024做全英文学术报告的视频链接:

https://www.bilibili.com/video/BV1jH2nYGE7P/?share_source=copy_web&vd_source=3815173bb1e60d5201bc8177bc980933

参与完成上述科研成果的2020级本科生刘宇恒收到来自包括加美国利福尼亚大学圣迭戈分校、马里兰大学等多所高校博士全额奖学金录取通知书,2021级本科生张裕宁目前已被中国科学与技术大学免试研究生录取。

分享到: