喜讯 | 理工学院/未来智联网络研究院学生获2024年世界人工智能大会青年优秀论文提名奖
近日,由香港中文大学(深圳)理工学院/深圳市未来智联网络研究院的青年学生们合作完成的论文“MVImgNet——A Large Scale Dataset of Multi-View Images”获2024年世界人工智能大会青年优秀论文提名奖。
奖项介绍
世界人工智能大会是经国务院批准举办的人工智能领域的国际大会,迄今连续举办六届,产生了广泛的影响。国务院总理李强7月4日在上海出席2024世界人工智能大会暨人工智能全球治理高级别会议开幕式并致辞*。
“世界人工智能大会青年优秀论文奖”(以下简称WAICYOP青年论文奖)评选活动已成功举办四届,受到青年科学家的好评,成为人工智能领域青年学者展示才华的平台。2024WAICYOP青年论文奖评选由世界人工智能大会组委会主办,由中国科学技术协会作为指导单位,上海市科学技术协会、上海科技发展基金会、全球高校人工智能学术联盟作为承办单位,上海人工智能实验室、中国工程院信息与电子工程学部、微软亚洲研究院作为支持单位,相关学术团体协办,由著名人工智能专家组成评审委员会,面向全球高校、科研院所、企业开展人工智能领域青年优秀论文奖评选。
2024年3月,《关于推荐“2024世界人工智能大会青年优秀论文奖”参评论文的通知》发布。至征稿截止,共收到海内外75家知名单位院校的积极投稿,包括北京大学、清华大学、复旦大学、上海交通大学、浙江大学等9校联盟单位,香港大学、香港中文大学、香港科技大学等高校,以及斯坦福大学、加州大学伯克利分校、牛津大学、新加坡国立大学、南洋理工大学、日本东北大学等国外院校。经初评、复评、终评,专家评审委员会最终从159篇参评论文中评选出2024世界人工智能大会青年优秀论文奖10篇,提名奖10篇。
这20篇优秀论文涵盖了人工智能基础理论、人工智能数学基础、机器学习、计算机视觉与模式识别、自然语言处理、知识处理与挖掘、智能芯片与系统、数据分析与大数据系统、AI for Science、生成式人工智能、认知心理学和神经科学、大模型、智能机器人、人机交互与元宇宙、智能感知与分布式智能、人工智能应用等,获选论文均已被国际顶级期刊/会议(如Nature,ICML/ICLR/NeurIPS,CVPR/ICCV)收录,其中计算机视觉领域仅有两篇论文入选,MVImgNet为其中之一。
*源于:世界人工智能大会公众号《要闻 | 李强出席2024世界人工智能大会暨人工智能全球治理高级别会议开幕式并致辞》
论文介绍
2.1 背景知识
随着深度学习技术的快速发展,数据驱动的方法已成为计算机视觉领域的核心。在过去的十年里,随着ImageNet诞生之后,计算机视觉领域见证了“从数据中学习”的范式的兴盛。在ImageNet上预训练,通过迁移预训练的权重都能显著提升模型性能,并且已经成为二维图片领域的标准方式。然而,由于真实世界三维数据(通常以点云或者mesh的形式)的扫描和标注非常繁琐,现有的三维数据集要么是合成的,要么与ImageNet的规模相去甚远。因此,两个关键的问题是:(1)在3D视觉领域,尚无一个通用数据集,可以与2D领域的ImageNet相媲美。(2)这样一个数据集能给3D社区带来什么好处还不为人所知。
为了解决这些问题,来自香港中文大学(深圳)理工学院/深圳市未来智联网络研究院的研究者们提出了MVImgNet数据集。MVImgNet包含超过21万个视频的650万帧图像,涵盖了238个类别的真实世界物体,并提供了丰富的前景分割、前景分割、相机参数和三维点云的标注。
项目主页:https://gaplab.cuhk.edu.cn/projects/MVImgNet/
2.2 主要内容
MVImgNet包含由智能手机拍摄的219,188个真实物体视频。通过对每个视频进行物体分割、COLMAP SfM重建以及稠密重建,得到了物体掩码、相机参数和点云数据等标注。
图1. MVImgNet中的多视角图片示例
2.3 实验探索
下游任务一:三维重建
研究团队探索了MVImgNet对NeRF重建以及MVS的帮助:通过在MVImgNet上训练NeRF,提升了generalized NeRF的泛化能力;通过在MVImgNet上预训练自监督MVS方法,并将预训练模型迁移到DTU数据集上,获得了不错迁移性能。下表展示了直接在DTU数据集上训练的模型与用MVImgNet预训练模型微调的量化对比结果:
表1. 直接训练/MVImgNet预训练模型微调的数值结果
下游任务二:视角一致的图像理解
尽管人类能够从不同视角理解一个物体,但深度学习模型并不能鲁棒地做到这一点。为此,研究团队在图像分类、自监督对比学习以及显著性物体检测等任务上做了探索实验,验证了得益于数据的多视角特性,在MVImgNet上预训练的模型获得了很好的视角一致性。
表2. 把MVImgNet加入训练提升了分类模型的视角一致性
论文影响力
论文发表于国际计算机视觉顶级会议CVPR (IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023),接受率为25.78%。论文一经开源便引起广泛关注,截至目前,Github星标360余次,已被超过42个国家/地区的380个科研单位或高校下载与引用,包括斯坦福大学、MIT、CMU、清华大学、北京大学等高校,以及微软、Meta、Google、Adobe、华为、腾讯等企业,并受企业邀请于CVPR2023会场展示。论文曾于2023年8月获2023年度中国计算机学会优秀图形开源数据集奖,该奖项由CCF CAD&CG专委于2020年起设立,目的是为了表彰和奖励向公众提供计算机图形学相关的开源数据集及其详细说明的华人学者、企业同仁及学生。
论文催生出近期火热的三维生成领域新工作,使用MVImgNet训练三维生成大模型逐渐成为范式(如训练Adobe的全球首个三维生成大模型LRM、马尔奖获得者Luc Van Gool教授的三维自编码器3D VADER、谷歌团队的ReconFusion、明星企业Stability AI爆火的开源视频扩散模型SVD),推动了新一代三维与视频生成大模型的发展。
该论文成果对应的数据集通过向国际AI头部企业授权的形式,已经为大学获得了近百万成果转化收益。
图2. MVImgNet催生出的新工作
作者简介
本文共同第一作者为余湘港、许牧天、张一丹、刘浩霖、叶崇杰,香港中文大学(深圳)理工学院/深圳市未来智联网络研究院博士研究生。其中许牧天同学为该奖项申请者和论文部分负责人。
图片从左到右依次为余湘港、许牧天、张一丹、刘浩霖、叶崇杰
本文指导作者为韩晓光教授和崔曙光院士。
韩晓光教授现任香港中文大学(深圳)理工学院助理教授,深圳市未来智联网络研究院助理院长,校长青年学者。他于2017年获得香港大学计算机科学专业博士学位。其研究方向包括计算机视觉和计算机图形学等,在该方向著名国际期刊和会议发表论文100余篇,包括顶级会议和期刊SIGGRAPH、CVPR、ICCV、ECCV、ACM TOG、IEEE TPAMI等。他曾获得广东省杰出青年基金资助,吴文俊人工智能优秀青年奖,香港中文大学(深圳)青年科研奖。多次担任CVPR、ECCV以及NeurIPS领域主席。目前也担任IEEE TVCG以及Comuter&Graphics编委。他的工作曾获得CCF图形开源数据集奖(DeepFashion3D与MVImgNet),两次入选CVPR最佳论文列表。
崔曙光教授,加拿大皇家科学院院士、加拿大工程院院士,全球高被引学者,IEEE Fellow,深圳市杰出人才培养计划首批入选人,深圳市决策咨询委员会成员。崔教授于2005年在美国斯坦福大学获得博士学位,先后在UC Davis等多所美国大学任教至讲座教授。2018年加入香港中文大学(深圳),先后担任理工学院执行院长、校长学勤讲座教授、深圳市未来智联网络研究院院长、港中大(深圳)-京东集团人工智能联合实验室主任,广东省未来智联网络重点实验室主任。崔教授当前的科研成果主要集中在通信网络与AI技术的深度融合。他已在国际一流期刊和会议上发表了近400篇论文,曾担任多个IEEE国际会议的主席和程序委员会主席,IEEE旗舰期刊的指导委员会成员、主席,IEEE无线技术委员会的主席。他在2012年获得IEEE信号处理协会最佳论文奖,2013年当选IEEE Fellow,2014年入选IEEE通信协会杰出讲师、汤森路透全球高被引科学家名单、ScienceWatch全球最具影响力科学家名单。崔教授在2020至2022年还获得IEEE ICC最佳论文奖,IEEE ICIP最佳论文列表,IEEE GLOBECOM最佳论文奖,中国ICT创新应用奖,IEEE WCNC最佳论文奖,CCF Chinagraph首个图形开源数据集奖,中国电子学会自然科学一等奖,中国通信学会技术发明一等奖。在2023年,崔教授获得IEEE马可尼最佳论文奖,IEEE WTC无线技术成就奖,并当选新一届IEEE Transactions on Mobile Computing(CCF-A核心期刊)主编,是中国大陆工作的学者首次担任。在2024年,崔教授荣获2023年度国家自然科学二等奖。
供稿 | 韩晓光教授团队