喜讯 | 理工学院共3篇研究论文被ICLR 2024收录
近日,ICLR 2024公布论文接收结果,理工学院共有3篇研究论文被收录,含1篇Spotlight Paper。
在被收录的论文中,作者包括了4位理工学院博士生*:戴一珏、罗玥如、唐至威和颜文仲;指导老师/通讯作者分别为理工学院张纵辉副教授、李镇助理教授和尹峰助理教授。这些成果不仅体现了理工学生的学术潜力与实力,也彰显了学院教师的学术能力和专业指导。
ICLR(International Conference on Learning Representations),是机器学习领域全球最高级别的学术会议之一,关注有关深度学习各个方面的前沿研究。ICLR 2024共收到了7262篇提交论文,整体接收率约为31%,Spotlights 论文比例为5%。
*按姓氏首字母排列
论文介绍
论文1:ZEROTH-ORDER OPTIMIZATION MEETS HUMAN FEEDBACK: PROVABLE LEARNING VIA RANKING ORACLES
摘要:在这项研究中,我们深入探讨了一种新兴的黑盒数学优化问题——仅利用目标函数的排序反馈进行优化。此类问题在现实场景尤为常见,特别是当目标函数是由人类反馈定义时。近年来,基于人类排序反馈的优化问题显现得越发重要,一个显著的新技术是RLHF——基于人类反馈的强化学习,作为ChatGPT背后的核心技术,被广泛应用于通过人类引导提高大型语言模型(LLMs)的性能。本文介绍了一种创新的零阶优化算法——ZO-RankSGD,专门设计用于解决这个优化问题。ZO-RankSGD算法的核心是一种新颖的基于排序信息的随机。利用此梯度估计量,本文从理论上证明了ZO-RankSGD能收敛到一个稳定点。最后,本研究展示了ZO-RankSGD在一项重要应用中的有效性:通过人类排序反馈改善图像扩散生成模型Stable Diffusion生成的图像质量。如下图所示,利用ZO-RankSGD的优化是通过模型与人类的不断的反馈交互中完成。实验证明,ZO-RankSGD可以在仅经过少数几轮人类反馈的情况下显著提高生成图像的细节。总体而言,本工作解决了仅利用排序反馈的黑盒优化问题,一方面推动了零阶优化领域的发展,另一方面也为将人工智能(AI)与人类意图对齐提供了一种新而有效的方法。
该论文的第一作者为唐至威,理工学院在读博士生。指导老师为理工学院张纵辉教授。
论文2:DV-3DLane: End-to-end Multi-modal 3D Lane Detection with Dual-view Representation
摘要:在当前自动驾驶技术蓬勃发展的背景下,准确识别车道成为一项基础而关键的任务。这不仅确保车辆在行驶中能够准确遵循车道,同时也是实现高级辅助驾驶系统(ADAS)和全自动驾驶功能的关键,包括车道保持和轨迹规划等方面。目前,基于单目相机进行车道线检测的技术存在深度损失和对光照变化敏感的问题,这影响了准确的3D车道检测。相反,激光雷达点云提供了3D空间位置信息,能够实现较为精确的定位。为此,我们提出了DV-3DLane,一种新的端到端双视图多模态3D车道检测框架,充分发挥了图像和激光雷达点云信息互补的优势。我们在双视图空间中学习多模态特征,即透视视图(PV)和俯视图(BEV),有效地利用模态特定信息。为了实现这一目标,我们提出了以下三个设计:1. 我们采用了双向特征融合策略,将多模态特征集成到每个视图空间中,充分利用每个空间的独特优势。2. 提出了一种以车道线为中心的多模态统一查询生成方法,从两个视图中获取车道线感知特征。3. 引入了一种3D双视图可变形注意机制,将透视视图和俯视图中的特征聚合到用于3D车道检测的查询中。在公开基准OpenLane上进行的大量实验证明了DV-3DLane的有效性,取得了最优性能。F1分数显著提高了11.2%,定位误差减少了53.5%。
网络结构
该论文作者为罗玥如,理工学院/未来智联网络研究院在读2年级博士生,研究方向车道线检测、3D场景感知、自动驾驶。指导老师为理工学院李镇教授、崔曙光教授。
通讯作者为李镇教授,香港中文大学(深圳)理工学院助理教授,校长青年学者,2023年吴文俊人工智能优秀青年奖获得者。
论文3:Graphical Multioutput Gaussian Process with Attention
(Spotlight Paper)
摘要:在提高多输出回归模型预测性能的同时,整合信息、并且识别多源数据间的关联性是一个极具挑战性的问题。多输出高斯过程(MOGP)模型是上述问题的一种常见解决方案,且具有良好的模型可解释性与预测不确定性量化。然而,较高的时间复杂度和存储需求严重阻碍了MOGP的实际应用性能与项目落地。此外,对于现实生活中的复杂数据,特别是非高斯分布的数据,现有的MOGP模型存在较大的模型偏差。
本文率先提出了基于动态注意力机制的图高斯过程多输出模型(GMOGP),为传统多输出高斯过程模型的发展注入了新的活力。GMOGP在模型的可扩展性、可解释性和参数最优性等方面取得了显著的突破,为多输出模型领域带来了质的提升。本研究首次构建了基于高斯过程的分布式多输出关联学习框架,在预测准确性提高的同时,极大地降低了模型预测的空间/时间复杂度,并赋予多输出高斯过程模型处理复杂数据(非高斯分布)、建立关联图表征、以及求解Pareto最优核参数的能力。GMOGP在仿真和大量真实数据的实验中均表现出色,显著提高了预测性能和模型表征能力,其在多源关联大数据和表征学习等关键性应用中的卓越性能,进一步突显了该模型在未来复杂任务中的广泛应用前景。
多输出高斯过程模型(6个输出)的关联图表征示意图(黄色是当前的目标输出)
该论文的第一作者为戴一珏,现为理工学院在读博士生。她目前的主要研究方向为:贝叶斯机器学习与优化、高斯过程。
作者颜文仲,现为理工学院在读博士生。他目前的主要研究方向为:图学习模型、时空数据建模和应用。
通讯作者为尹峰教授,香港中文大学(深圳)理工学院助理教授,校长青年学者。
*部分内容由论文作者提供