近期,中国海洋大学信息科学与工程学部智能信息感知与处理实验室(http://ouc.ai)在人工智能研究领域取得系列原创性成果,陆续被国际人工智能领域顶级期刊IEEE Transactions on Pattern Analysis and Machine Intelligence(TPAMI)、International Journal of Computer Vision(IJCV)和顶级会议CVPR、ICCV、ECCV、ACM MM等录用发表,标志着学校在信息学科人工智能研究领域的影响力逐步提升。TPAMI和IJCV是人工智能、模式识别、图像处理和计算机视觉领域公认最顶级国际期刊,其中TPAMI学术影响力常年位列计算机科学、电子工程及人工智能等领域所有相关期刊之首;CVPR在谷歌学术指标排名“工程和计算机科学”领域连年第一、总榜第四(前三分别为Nature、The New England Journal of Medicine、Science)。相关工作全部由学校师生独立完成,得到了国家自然科学基金项目资助。
图像到图像的转换问题,一直以来广泛存在于计算机视觉、计算机图形学以及多媒体等人工智能诸多领域,因其应用场景丰富,逐渐成为影响力极高且极具挑战性的研究热点及难点。研究团队针对图像到图像转换的高质量合成难题,创新性地提出了基于块的判别区域候选机制,并构建了生成对抗网络框架提升合成图像质量,能够得到更高分辨率、更具真实细节且更少伪影的高质量图像,分别在有监督和无监督的通用转换任务中取得了当时最好性能,该研究成果被计算机视觉国际顶级期刊IJCV(2020)录用发表。针对图像的内补和外推等图像到图像转换任务,研究团队以人脑补全过程为动机,提出了螺旋式生成对抗网络模型,改善修补内容的真实性;进而,充分考虑人脑的学习并补全机制,提出了可视区域引导的对抗学习生成模型,深度挖掘已知区域信息和大规模数据知识;此外,结合真实世界问题中待补全位置未知的情况,提出了自注意变换网络—卷积神经网络混合自编码器,对两种网络结构取长补短、优势互补;相关研究均取得了当时最佳性能,并分别被计算机视觉和多媒体国际顶级会议ECCV(2020)、ICCV(2021)、ACM MM(2022)录用。
近年来,合成图像的视觉不真实问题普遍存在于图像合成、图像拼接、图像编辑和场景补全等计算机视觉与图形学领域诸多应用中,视觉逼真的合成图像也是人类日常生活和工作的重要需求,如娱乐、广告和影片制作等。由于人眼对合成图像的判识非常敏感,能够察觉合成区域之间细微的外观差异,因而高质量的合成图像通常需要资深专家长时间精心调整。如何智能地调整合成图像外观使其真实逼真,即图像和谐化,就成为当前重要且极具挑战的研究热点。研究团队从问题产生的本质入手,分析已有图像处理或深度学习方法直接硬处理导致和谐效果不够真实的原因,创新性地提出本征图像和谐化的思路与方法,保持合成图像语义结构信息不变的同时调整图像光照信息,进而生成整体感知一致的合成图像,取得了当时和谐化任务的最佳性能,该研究成果被计算机视觉国际顶级会议CVPR(2021)录用发表。
近日,研究团队深度探索了如何高效利用自注意变换网络Transformer远程上下文建模能力来解决类似图像和谐化等图像到图像转换的视觉及图形学问题。具体来说,首先,设计并构建了两种视觉Transformer框架,即“编码-重建Transformer”和“解耦Transformer”;其次,对两种框架在图像和谐化任务上进行了研究与分析,并从图像编码和重建方式、令牌数量和位置、注意力头数和层数以及Transformer编码器和解码器等方面开展深入探究,为视觉Transformer的设计及应用提供了重要参考;再次,基于两种框架分别提出了非解耦和解耦两种图像和谐化方法,全面的对比分析与消融实验证明两种方法均取得明显优于全部现有方法的性能;此外,在图像增强、图像补全、白平衡编辑和肖像重照明四类经典视觉和图形学任务上验证了两种视觉Transformer框架的有效性、灵活性和通用性。该研究是人工智能前沿技术在图像到图像转换问题通用解决方案上的重要探索,所取得的成果将有利于促进通用人工智能发展。
国际人工智能顶级期刊TPAMI在9月15日以“Transformer for Image Harmonization and Beyond”(自注意变换图像和谐化方法及其应用)为题对上述成果进行了在线报道。成果由信息科学与工程学部博士生郭宗辉(第一作者)、高级实验师顾肇瑞以及郑冰教授、董军宇教授、郑海永教授(通讯作者)共同完成,系学校首次以第一或通讯单位在TPAMI上发表学术论文。
通讯员:郑海永
相关论文链接:
TPAMI 2022: https://doi.org/10.1109/TPAMI.2022.3207091
CVPR 2021: https://doi.org/10.1109/CVPR46437.2021.01610
ACM MM 2022: https://doi.org/10.1145/3503161.3547848
ICCV 2021: https://doi.org/10.1109/ICCV48922.2021.01451
ECCV 2020: https://doi.org/10.1007/978-3-030-58529-7_41
IJCV 2020: https://doi.org/10.1007/s11263-019-01273-2