喜讯 | 理工学院共9篇研究论文被CVPR 2024收录(含2篇Highlight)
近日,CVPR 2024公布论文接收结果,理工学院共有9篇研究论文被收录,含2篇Highlight。
在被收录的论文中,参与作者*包括
- 14位理工学院博士生:胡健乔、李成宏、刘浩霖、刘垦坤、宁述亮、邱陵腾、石鲁越、吴毓双、许牧天、熊张洋、杨茜贺、袁之浩、张煜奇、朱睿
- 5位理工学院硕士生:何英钒、廖宏杰、王崇杰、叶崇杰、朱峻毅
- 1位理工学院本科生:王世杰
通讯作者/指导老师分别为理工学院崔曙光教授、韩晓光助理教授、李镇助理教授、孙正隆助理教授和陈冠英研究助理教授。这些成果不仅体现了理工学生的学术潜力与实力,也彰显了学院教师的学术能力和专业指导。
*按姓氏首字母排列
会议介绍
IEEE Conference on Computer Vision and Pattern Recognition (CVPR)是由美国电气及电子工程师学会(IEEE)组织的计算机视觉领域三大顶尖国际会议之一,本届CVPR大会将于2024年6月在美国西雅图召开。今年共提交11,532份有效论文,2,719篇被接受,录用率为23.6%;Highlight 324篇,入选率为2.8%。
论文介绍
论文 1
从单视角RGB-D图像中进行可泛化的三维物体重建是一个具有挑战性的任务,尤其是在处理真实世界的数据时。当前最先进的方法采用基于Transformer的隐式场学习,这依赖于一种密集查询的学习范式,需要在整个空间中均匀密集采样并监督。我们提出了一种名为IPoD的新颖的方法,将隐式场学习与点扩散相结合:将用于隐式场学习的查询点视为迭代去噪的噪声点云,从而允许其动态地适应目标物体的形状。这种自适应查询点利用扩散学习的能力进行粗糙形状恢复,并增强了隐式表达描绘细节的能力。此外,我们还设计了一种自条件机制,将隐式预测用作扩散学习的指导,从而构建了一个协作系统。在CO3D-v2数据集上进行的实验证实了IPoD的优越性,相比现有方法,在F-score上提高了7.8%,在Chamfer距离上降低了28.6%。IPoD的泛化性也在MVImgNet数据集上得到了证明。
该论文入选CVPR 2024 Highlight(入选率为2.8%)。第一作者是理工学院/未来智联网络研究院在读博士生吴毓双(导师为理工学院崔曙光教授和韩晓光教授)。其他参与作者还包括理工学院在读博士生石鲁越和邱陵腾(导师为韩晓光教授),以及来自香港科技大学、阿里巴巴通义实验室的合作者。通讯作者为韩晓光教授。
Project Page: https://yushuang-wu.github.io/IPoD
论文 2
由于缺乏几何先验以及自然图像中材料和光照的复杂纠缠,将2D扩散提升到3D生成是一个具有挑战性的问题。已有的方法首先通过应用于渲染表面法线的分数蒸馏采样(SDS)来创建几何形状,然后进行外观建模。然而,依靠二维RGB扩散模型来优化表面法线是次优的,因为自然图像和法线贴图的分布存在差异,导致优化不稳定。在本工作中,我们认识到法线和深度信息可以有效地描述场景几何,并且可以从图像中自动估计,我们提出了一种用于3D生成的可推广的法线和深度扩散模型。我们通过在大规模的LAION-2B-en数据集上通过已有的法线和深度先验模型来训练深度法线的扩散模型。此外为了减轻生成材料中的混合光照效应,我们引入了反照率扩散模型,对反照率分量施加数据驱动的约束。我们的实验表明,当集成到现有的文本到3D方法中,我们的模型显著提高了细节丰富度,达到了当前最好的结果。
该论文入选为CVPR 2024 Highlight(入选率为2.8%)。第一作者为理工学院/未来智联网络研究在读博士生邱陵腾和陈冠英教授,参与作者还包括在读博士生许牧天和吴毓双,其余合作者均来自阿里巴巴通义实验室。通讯作者为理工学院韩晓光教授。
Project Page: https://aigc3d.github.io/richdreamer/
论文 3
近年来,人工智能的指数级发展在很大程度上是由大量数据驱动的。例如在计算机视觉中,像SAM和稳定扩散这样的模型极大地受益于这些大量的数据,使零样本能够转移到下游任务。随后,Objaverse和MVImgNet通过大规模合成3D资产和真实世界的多视图捕获打破了3D数据收集的障碍,支持Zero123和LRM模型,实现了令人印象深刻的多视图或3D重建的泛化能力。然而,由于3D人体数据的规模有限,在以人为中心的任务上仍难以取得类似的进展。为了弥补数据上的不足,我们提出了MVHumanNet,这是一个包含4500个人类身份的多视图人类动作序列的数据集。我们工作的主要重点是使用多视图人体捕捉系统收集具有大量不同身份和日常服装的人体数据,这有助于轻松扩展数据收集。我们的数据集包含9000套日常服装、60000个运动序列和超过6.45亿帧图像,并且具有广泛的标准,包括人体掩膜、相机参数、2D和3D关键点、SMPL/SMPLX参数以及相应的文本描述。为了探索MVHumanNet在各种2D和3D视觉任务中的潜力,我们对基于视图一致性的动作识别、人体NeRF重建、文本驱动的视图无约束人体图像生成以及2D视图无约束人类图像和3D化身生成进行了探索性研究。大量实验证明了MVHumanNet提供的规模所带来的性能改进和有效应用。作为目前规模最大的3D人体数据集,我们希望MVHumanNet数据的发布和注释将促进3D人体中心任务领域的进一步创新。
论文共同第一作者为理工学院/未来智联网络研究院在读博士生熊张洋、李成宏和刘垦坤,由理工学院崔曙光教授和韩晓光教授共同指导完成。其他参与作者还包括理工学院/未来智联网络研究院在读博士生宁述亮、邱陵腾、胡健乔、硕士生廖宏杰、朱峻毅、王崇杰和本科生王世杰。通讯作者为韩晓光教授。
Project Page: https://github.com/GAP-LAB-CUHK-SZ/MVHumanNet
论文 4
真实室内场景物体实例重建是一项极富挑战性的任务,其核心在于从场景扫描中准确地重建出每个物体的三维模型。当前的数据驱动方法大多依赖于大量高质量场景和精确的物体CAD模型。这些方法通常在合成数据集或Scan2CAD数据集上进行训练,但前者在真实场景的泛化能力上存在限制,而后者虽提供真实场景CAD标注,但标注与实际场景的不对齐限制了重建的精度和保真度。
针对以上挑战,本研究提出了一个新的高质量场景物体数据集:LASA,包含了10,412个专业建模师手工标注的CAD模型,并且能够与真实世界场景高度对齐。基于LASA高质量数据的支持,我们进一步提出了一个基于扩散模型的重建方法,支持多模态输入,包括场景物体的扫描点云和RGB图片,实现真实场景物体的高精度重建。在真实场景重建任务上,该方法达到了当前的最佳性能(State-of-the-Art, SOTA)。此外,LASA数据集的高质量标注也为场景理解任务,如三维物体检测,提供了重要支持。通过同时预测物体的bounding box和形状occupancy,显著提高了场景三维检测的性能。
论文的第一作者为理工学院/未来智联网络研究院的在读博士生刘浩霖(导师为理工学院崔曙光教授和韩晓光教授)及在读硕士生叶崇杰(导师为韩晓光教授)。其他理工学院参与者还包括在读硕士生何英钒。通讯作者为韩晓光教授。
论文 5
在如今互联网购物与日俱增的时代,人们对虚拟试衣技术的需求也不断增长。然而现有的虚拟试衣技术受限于只能给模特穿上给定款式和纹理的衣服,而不能够实现灵活的搭配。为了解决这个问题,我们提出了一种能够灵活编辑衣服款式和纹理的新方法。为了实现衣服款式和纹理的解耦,我们将任务分成两个阶段来处理。在第一阶段,我们通过图像修复的方式来生成符合给定款式条件人体分割图(Parsing map)。同样地,在第二阶段,继续通过图像修复的方式,以第一阶段生成的parsing map作为mask,以提供的图片作为纹理参考,来生成完整的模特试衣图。另外我们还能够灵活地给生成的图片加上logo,图案等设计元素。实验显示我们的方法能够灵活的控制生成衣服的款式和纹理,并达到逼真的效果,这将给虚拟试衣带来一种全新的体验。
该论文由香港中文大学(深圳)和北京红棉小冰科技有限公司合作完成。第一作者为理工学院/未来智联网络研究院在读博士生宁述亮,导师为理工学院崔曙光教授和韩晓光教授。通讯作者为韩晓光教授。
论文 6
针对人体虚拟形象重建任务,现代技术通常需要获取昂贵的数据,并且在使用少量普通图片时很难获得令人满意的结果。当只使用少量无约束图片时,由于数据量有限和动态关节姿势,从这些数据源中重建人体虚拟形象具有挑战性。对此,我们提出了HaveFun框架来实现少量样本无约束图片下重建人体、渲染和驱动。具体的,为了处理动态数据,我们将蒙皮机制与深度Marching Tetrahedra (DMTet)相结合,形成可驱动的四面体表示,该表示通过DMTet生成任意网格拓扑来适应不受限制图像。同时,为了有效地从少样本数据中提取教导性信息,我们设计了一个两阶段优化方法,包括少样本参考和少样本指导。前者旨在将虚拟形象身份与参考图像对齐,而后者旨在为未见区域生成合理的外观。最后,我们进行了大量实验证明HaveFun在重建人体和手部方面表现出明显更优秀的性能。
本论文由北京红棉小冰科技和香港中文大学(深圳)联合完成。第一作者为理工学院在读博士生杨茜贺,导师为理工学院韩晓光教授。
论文 7
三维视觉定位(3DVG)旨在根据文本描述精确定位三维对象。传统的3DVG监督方法通常需要大量标注和预定义词汇,这限制了其在实际应用中的灵活性。为解决这一问题,我们提出了一种新颖的基于视觉编程的零样本开放词汇3DVG方法,充分利用了大型语言模型(LLMs)的能力。我们的方法从与LLMs的独特对话开始,以建立零样本3DVG的基本理解。在此基础上,我们设计了一个包含三种类型模块的视觉程序,这些模块专为3D场景设计,协同执行复杂的推理和推断。此外,我们还开发了一种创新的语言-对象相关模块,将现有的3D对象检测器的应用范围扩展到开放词汇场景。大量实验证明,我们的零样本方法可以胜过一些有监督基线,标志着迈向高效3DVG的重要一步。
论文作者包括理工学院在读三年级博士生袁之浩、香港中文大学(深圳)博士后任金科、新加坡A*Star研究员冯春梅、香港大学助理教授赵恒爽、香港中文大学(深圳)理工学院崔曙光教授和李镇教授。通讯作者为李镇教授。
论文 8
arxiv链接:https://arxiv.org/pdf/2403.17004v1.pdf
Sora使用的Diffusion Transformer(DiT)已成为生成模型中的一个研究热点。鉴于DiT在训练中收敛较慢,而引入自监督中的mask策略可以显著提升DiT的训练效率,并且带来了额外的intra-image contextual learning。尽管如此,mask策略存在两个固有的局限性:(1)训练-推理不一致。(2)mask重建任务与图像生成任务的模糊关系,导致了DiT的训练不够优化。我们提出了SD-DiT,通过利用判别式自监督学习范式来提升DiT的训练效率。
在技术上,我们通过teacher-student网络构建了SD-DiT框架。而teacher-student网络的输入正样本对建立在沿同一个PF-ODE的扩散噪声上。除此之外,我们解耦SD-DiT为DiT encoder和decoder,来分别完成自监督判别和图像生成的学习目标,而不是在DiT encoder 和decoder上都应用mask重建。具体来说,自监督判别损失函数的是用来完成特征空间中的inter-image alignment,而后在DiT decoder中进行图像生成的学习任务。
我们在ImageNet数据集上进行了大量实验,SD-DiT在训练效率和生成性能之间取得了很好的平衡。比起DiT,我们的SD-DiT带来了快5倍的收敛速度以及更好的生成性能。
论文作者包括理工学院计算机与信息工程博士五年级学生朱睿、理工学院助理教授孙正隆、理工学院客座教授梅涛(HiDream.ai创始人)、香港理工大学视觉计算讲座教授和香港中文大学(深圳)理工学院客座教授陈长汶。
论文 9
本文提出了一种神经辐射场方法,通过将不一致的二维标签提升到三维,对航空图像进行城市尺度的语义分割和建筑级别的实例分割。这是一个具有挑战性的问题,首先,城市航拍图像中不同语义的物体尺度变化大,例如建筑物、汽车、道路具有不同的大小,对精确的二维分割构成了重大挑战。其次,现有分割方法生成的二维标签存在多视图不一致的问题,特别是在航拍图像中,每张图像只捕获了整个场景的一小部分。为了克服这些限制,我们首先引入了一种尺度自适应语义标签融合策略,该策略利用NeRF的新视图合成能力,通过结合从不同高度预测的标签来增强对不同大小目标的分割。在此基础上,本文提出了一种基于三维场景表示的跨视图实例标签分组策略,以解决二维实例标签的多视图不一致问题。此外,我们利用多视点重建深度先验来改善重建辐射场的几何质量,从而提高分割效果。在多个现实世界城市规模数据集上的实验表明,我们的方法优于现有方法,突出了其有效性。
论文第一作者是理工学院/未来智联网络研究院在读博士生张煜奇,导师为崔曙光教授和陈冠英教授。
*内容由教授团队提供