近日,香港中文大学(深圳)理工学院计算机科学与技术专业四年级学生顾津锦同学与商汤研究院和港中文多媒体实验室团队的学术论文在2018欧洲计算机视觉大会(ECCV 2018)上发表。该论文提出了基于生成对抗网络的增强超分辨率方法(ESRGAN)。更令人欣喜的是,ESRGAN模型同时在ECCV2018的PIRM-SR比赛中获得了最好的感知评分,取得了第一名。
喜讯 || 香港中文大学(深圳)理工学院学生顾津锦在计算机顶级会议ECCV 2018上发表论文
论文介绍
发表会议:
2018欧洲计算机视觉大会(ECCV 2018)
会议简介:
ECCV,英文全称European Conference on Computer Vision,中文全称欧洲计算机视觉国际会议。ECCV每年的论文接受率为25-30%左右,每次会议在全球范围会收录论文300篇左右,收录论文的主要来源是来自于美国、欧洲等顶级实验室及研究所,中国大陆的收录论文数量在10-20篇之间。2018欧洲计算机视觉大会(ECCV 2018)在德国慕尼黑召开, ECCV两年举办一次,与CVPR、ICCV共称为计算机视觉领域三大顶级学术会议。
论文题目:
ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks
论文简介:
基于生成对抗网络的图像超分辨率模型SRGAN能够生成更多的纹理细节。然而,它恢复出来的纹理往往不够自然,也常伴随着一些噪声。为了进一步增强图像超分辨率的视觉效果,本文深入研究并改进了SRGAN的三个关键部分——网络结构、对抗损失函数和感知损失函数,提出了一个增强的ESRGAN模型。具体地,本文引入了一个新网络结构单元RRDB (Residual-in-Resudal Dense Block);借鉴了相对生成对抗网络(relativistic GAN)让判别器预测相对的真实度而不是绝对的值;还使用了激活前的具有更强监督信息的特征表达来约束感知损失函数。得益于以上的改进,本文提出的ESRGAN模型能够恢复更加真实自然的纹理,取得比之前的SRGAN模型更好的视觉效果。ESRGAN模型同时在ECCV2018的PIRM-SR比赛中获得了最好的感知评分,取得了第一名。
作者档案
顾津锦
学院:理工学院
书院:逸夫书院
专业:计算机科学与技术
高中:天津市滨海新区塘沽一中
个人主页:http://www.jasongt.com/
顾津锦是香港中文大学(深圳)理工学院本科四年级学生。他是 CUHK-Shenzhen能源互联网实验室的研究助理,也是商汤集团研究院的研究实习生。他同时也是香港中文大学(深圳)计算机协会的创始人之一。在此之前,他曾是上海交通大学图像通信与网络工程研究所的研究助理。他的研究兴趣主要在于机器学习的理论和应用,包括表征学习,流形学习和信息几何在机器学习中的应用。 他也对机器学习方法在计算机视觉和工业领域的应用感兴趣,包括基于学习的图像和视频处理,图像和3D分割以及工业系统的控制和感知问题。
顾津锦在ECCV 2018大会手持获奖证书
对 话
Q1: 能大概介绍一下你在这篇论文当中所做的贡献吗?
A1: 我的论文名称是《ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks》,文章的主题是关于感知图像超分辨率重建的。我们在文章中系统的分析了将生成式对抗网络应用在图像超分辨中的几个组成部件,包括网络结构、对抗损失函数和感知损失函数,并相应提出了改进方法,提出了增强型的 SRGAN。我们团队已经在图像超分辨领域的前沿研究和落地研究中努力了很长时间,这篇文章其实相当于是很长时间积累起来的工程能力的一个简要的汇报。最终方法的性能我想是与每个人长期的工程实践分不开的。
Q2: 能介绍一下你的同伴们在一起做研究的时候对你的积极影响吗?
A2: 商汤和香港中文多媒体实验室的同事给我最大的影响就是告诉我,做研究要稳得住气,要把研究踏踏实实的做完整。刚入行做研究的两年可能会过于关注很 fancy 的想法,现在整个 CV 领域和人工智能领域都在风口上,刚入行的年轻人可能会不自觉的被这股风气带得浮躁。而加入商汤,真正的接触最前沿的应用研究非常的磨练人,在商业化产品化的要求下,你的研究 fancy 是一点用都没有的,最基本的要求是 work,但是这个要求也是很多已经发表的文章都达不到的。商汤教会我比较重要的一点就是,研究是为了解决问题而做的,不是为了写漂亮的论文。在这个过程中,商汤科技和香港中文大学多媒体实验室还有深圳先进院多媒体实验室的同事和老师都对我有很大的帮助。
Q3: 商汤研究院目前正在做一些哪些比较exciting的项目,是否可以介绍一下?
A3: 我属于商汤研究院,人机物智能融合部门。我的研究小组在推动前沿的人工智能影像处理算法的研究和产品化,包括图像去噪、超分辨率重建、图像去模糊、图像生成等。国内不少知名品牌手机(具体是哪些就先不说了)的 AI 智能摄像算法就是出自我们研究组。我在组内主要负责学术研究,是某研究项目的负责人,重点解决产品中亟待解决的学术问题,然后把创新的解决方案写成论文提供给全世界的同行交流。我们还有许多其他的组,他们都在与视觉相关的各个研究方向推动算法的前沿研究和产品化。商汤实验室的研究覆盖面是很广的,在视觉研究的各个方面都有研究组,这段时间也不断地有非常先进的前沿技术落地到手机上,这点我们都是非常自豪的。
Q4: 之后还有哪些学术上的目标?
A4: 我个人的研究主要分为两个大的方面:一个是图像处理方面的研究,包括研究更加先进且智能的感知图像超分辨研究,还有先进算法落地方面的研究;第二个是将先进的生成式模型应用在工业领域。这次发表的论文其实是感知图像超分辨的一个阶段性成果,接下来在这个方向我还会做一些更加 fancy 的工作。在图像处理算法落地方面,我的研究主要关注实际问题中的盲问题,例如处理真实环境中复杂的未知噪音等。我们已经解决了一些非常重要的实际问题并将算法应用在了手机产品上,接下来一年的时间我的目标主要是将现有的技术突破总结成完整的学术工作并发表。我另一个非常自豪的研究就是工业传感器数据的超分辨率感知。这个工作是在学校能源互联网实验室进行的,我们主要聚焦利用前沿的人工智能算法赋能工业系统,在无需大量升级现有工业传感器的情况下进一步实现工业信息化。现在这个方面的第一篇文章的预印本已经预发表在了 arxiv 上,欢迎大家去关注一下这个研究,我们接下来还会进行一系列的后续研究。论文名称《Super-Resolution Perception of Industrial Sensor Data》
Q5: 在学校三年了,在理工学院感受最大的帮助是什么?
A5: 作为理工学院的学生,我非常感谢科研上给我带来非常多帮助的赵俊华教授。我开始做研究的第一个老师就是理工学院的赵教授,在赵教授实验室里学到的最重要的并不是专业知识,而是如何做一个好的研究。正是因为赵老师在研究的方法和视野上对我前瞻性的指导,我才能在商汤进行独立研究,所以我是非常感谢赵俊华教授的。
Q6: 能不能给想做科研的学弟学妹的一点建议呢?
A6: 第一点是要足够的主动,做研究要保持非常旺盛的好奇心和思维的发散能力,要花大量的时间在文献阅读和实验上。在研究的过程中不会有人持续地 push 你,但是要有自我的 push,而且经过长时间的坚持,才能够做出一定的成果。
第二点是不要太过于功利,尤其是 AI 或 CV 这样的领域。这些领域对论文非常看重,而且每年也有非常多的 fancy 的文章被写出来,很多同学可能非常急于想写出自己的论文来申请学校或者找工作。但是工作的好坏是跟心态非常相关的,如果你一心只想不择手段把论文发出去,那工作的质量只能是很差的,甚至会错过发表的时间导致无法发表。然而如果你是真心要解决某一个问题,在经过长时间的研究提炼之后,你能把问题解决了,这样的工作才是真正值得骄傲的工作。有很多同学会觉得一个人发表了几篇 ECCV CVPR 很厉害,但是在真正做研究的人只会关注你真正解决了什么问题,如果没有解决问题纯靠 cook 和 trick 发表工作,那我们只能说,灌水是可耻的。
最后一点是不要心急,我见到有很多想做 AI 做 CV 的同学,但是大多数可能都是看到身边的同学都在做,心里慌了觉得自己也要做研究发论文才行。但是我觉得不要跟风,尤其是低年级的同学,要早早对以后所从事的方向进行评估和尝试,但是不要随波逐流看到别人在做什么就想上去做。即便是人工智能方向,也不止有 CV,NLP 这些方向,还有大量的有价值的研究领域值得去关注,要有自己独特的眼界去选择自己要做的事情。