论文导读
2021年论文导读第二十三期(总第三十九期)
目 录
1 | Neural-Network-Based Cross-Channel Intra Prediction |
2 | Adaptive Compression for Online Computer Vision: An Edge Reinforcement Learning Approach |
3 | A Fast View Synthesis Implementation Method for Light Field Applications |
4 | Multi-stage Degradation Homogenization for Super-Resolution of Face Images with Extreme Degradations |
5 | Single-shot Semantic Matching Network for Moment Localization in Videos |
6 | Detecting Non-Aligned Double JPEG Compression Based on Amplitude-Angle Feature |
7 | Unsupervised Domain Expansion for Visual Categorization |
01
Neural-Network-Based Cross-Channel Intra Prediction
基于神经网络的跨通道帧内预测
作者:李跃1,易焱1,刘东1, 李礼1, 李竹2, 李厚强1
单位:1中国科学技术大学, 2密苏里大学堪萨斯分校
邮箱:
lytt@mail.ustc.edu.cn;
yy140177@mail.ustc.edu.cn;
dongeliu@ustc.edu.cn;
lil1@ustc.edu.cn;
zhu.li@ieee.org;
lihq@ustc.edu.cn;
论文:
https://dl.acm.org/doi/pdf/10.1145/3434250
摘要
图像压缩算法通常采用线性模型减少不同颜色通道之间的冗余,例如在YUV视频格式里,可以根据线性模型,从Y分量对U分量(或者V分量)进行预测,然而该模型难以处理复杂的图像内容。本文提出了一种基于神经网络的跨通道预测方法以用于图像压缩,该方法通过从全通道的相邻重构样本和部分通道的当前重构样本中提取双重线索,以进行更准确的跨通道预测。在设计网络架构时,本文试图在压缩性能和计算效率之间取得良好的平衡。此外,本文提出用变换域损失函数来训练神经网络,以获得更紧凑的残差表示,从而提高压缩效率。实验结果表明,本文所提出的方法在集成到HEVC/H.265 和 VVC/H.266的参考软件后可以带来显著的性能提升。
网络结构
本文使用的网络结构如图1所示,网络的输入包括当前位置的亮度重建X和周边位置的亮度以及色度重建S,网络的目标是预测当前位置的原始色度Y(如图2所示)。考虑到X和S在空间位置以及通道数量上的非对称,本文分别使用卷积分支和全连接分支从X和S中提取特征,这两部分特征在之后经过融合操作,变成一组特征。图3给出了融合操作的具体过程,全连接分支的每个特征在扩展成2维通道后,会和卷积层特征在通道方向级联,然后经过一个卷积层得到融合特征。接下来,本文使用卷积主干将融合特征映射到输出。为了确定网络的具体配置,本文进行了若干组对比实验。实验结果表明,增加卷积主干的深度比增加卷积分支的深度更重要,增加全连接分支的宽度比增加其深度更重要。综上,在本文使用的网络架构中,全连接分支包含2个全连接层,节点数均为128;卷积分支和卷积主干的深度分别为1和3,宽度(特征图数量)均为64。此外,消融实验表明,本文的网络结构比纯基于卷积层或者全连接层的网络更有效。
图1 用于跨通道预测的神经网络结构
图2 神经网络的输入S,X和目标Y
图3 将全连接分支和卷积分支的特征进行融合的操作
损失函数
为了提升压缩效率,本文将损失函数定义为DCT变换域的平均绝对误差,即如图4所示。定义这个损失函数的出发点包括以下两点:
1. 大部分现代编码器通过对预测残差进行DCT变换以达到能量集中的目的,而平均绝对误差约束通常导向稀疏解,从而使得变换域出现更多0值高频系数,有利于能量集中。
2. 一般认为,残差在变换域服从拉普拉斯分布。在这个假设下,最小化平均绝对误差和最大化似然概率是等价的,这意味着本文采用了最大似然估计来得到网络参数。
图4 变换域损失函数
实验结果
本文提出的算法在HEVC/H.265的参考软件以及VVC/H.266的参考软件中分别进行了集成测试,测试条件为通测条件。实验结果表明,本文提出的算法相比于HEVC anchor,可以在Y,U,V三个通道分别带来1.3%,5.4% 3.8%的BD-rate节省;相比于VVC anchor,可以在Y,U,V三个通道分别带来0.5%, 1.7%, 1.3%的BD-rate节省。注意,VVC中引入了一些跨通道预测工具(例如CCLM,CCALF),因此本文算法在VVC上的测试性能低于HEVC上的测试性能。
02
Adaptive Compression for Online Computer Vision: An Edge Reinforcement Learning Approach
作者:何召亮,李洪珊,王智,夏树涛,朱文武
单位:清华大学,鹏城实验室
邮箱:
hezl19@mails.tsinghua.edu.cn;
lhs17@mails.tsinghua.edu.cn;
wangzhi@sz.tsinghua.edu.cn;
xiast@sz.tsinghua.edu.cn;
wwzhu@tsinghua.edu.cn
论文:
https://dl.acm.org/doi/full/10.1145/3447878
在当今的基于计算机视觉的在线应用程序中,用户通常需要将输入的图像上传到中央云服务商,导致了大量的上传流量消耗。为了减少上传流量,上传之前应该先压缩图片。如图1所示,深度学习模型的预测与输入图像的压缩质量水平并不完全相关,因此很难对所有图像使用固定的压缩质量。对于图1a、1b和图2a、2b,虽然视觉上相似,但细微的变化会导致不同的预测;对于图3a和图3b,尽管它们看起来非常不同,基于云服务的模型仍然对压缩的图像输出正确的标签。其中Q为图片质量水平。
图1 深度学习模型的预测与输入图像的质量水平的关系
为了解决上述挑战,如图2,与固定图像压缩质量水平的传统方案不同,我们提出了一种基于深度强化学习的解决方案,称为AdaCompress,以在线方式自适应为用于云端计算机视觉模型推理的图像选择适当的压缩质量水平,在保持推理准确率的前提下,降低上传的图像带宽。
图2 固定压缩质量水平的传统方案和更新压缩策略的自适应方案
如图3,我们设计了一个交互式的训练环境,建立了一个基于深度强化学习的框架来训练智能体,使用一个基于深度学习网络的智能体来评估和预测不同压缩质量水平的图像在机器识别中的性能。在上述环境中,综合考虑推理准确性和图像大小设计合适的奖励,智能体在与环境迭代交互后,不断得到奖励进行反馈,在通过不断学习之后,最终可以为输入图像选择一个适当的压缩质量水平。
图3 AdaCompress自适应压缩方案的框架图
我们在具有代表性的基于云端的深度学习服务上评估我们的框架,包括Amazon Rekognition、Face++和Baidu Vision。如图4,我们表明,我们的方案可以减少超过一半的上传流量,同时保持相当的整体推理准确率。并且与另一优越方案DeepN-JPEG相比,当它们保持相似的上传图像带宽时,AdaCompress的平均推理准确率高出8%。
图4 不同图像识别云服务的图像上传带宽和推理准确率
03
A Fast View Synthesis Implementation Method for Light Field Applications
作者:高伟,周琳洁,陶履方
单位:北京大学深圳研究生院信息工程学院,鹏城实验室
邮箱:
gaowei262@pku.edu.cn;
ljzhou@pku.edu.cn;
ltao@pku.edu.cn
论文:
https://dl.acm.org/doi/10.1145/3459098?sid=SCITRUS
由于传感器分辨率的限制,现有的光场相机难以获得高角度分辨率。使用视点合成技术可以从稀疏的光场视点生成更密集的视点,获得更好的视觉体验。然而基于深度学习的光场视点合成算法普遍存在计算量较大、处理速度较慢等问题,很难应用于实时系统中。因此,设计一种高效快速的光场视点合成方法以改善三维沉浸式体验和实时处理性能是很有价值的。
本文提出了一种光场视点合成的加速框架,使用轻量级策略,采用压缩分辨率模块降低视点合成数据的运算量,并提出使用各模块加权损失函数进行模型训练。另外,本文提出在复合目标函数指导下,通过在高维解空间进行搜索,自动调整神经网络模型中各层稀疏度的方法,可以实现视点合成加速。
模型结构。整体视点合成框架由压缩分辨率网络、视点合成网络和超分辨率网络三部分组成,并实现了神经网络压缩,如图1所示。压缩分辨率网络和超分辨率网络分别用于调整视点合成前后的图像分辨率。通过集成三个网络的损失函数,模型进行端到端的联合训练。压缩分辨率通过保存更多结构信息和高频信息,可以获取更有效的特征,得到较低的计算量。最后,超分辨率网络将低分辨率合成视点复原为高分辨率视点。通过使用这种策略,视点合成网络中特征图的尺寸大大减少,因此可以显著降低视点合成的运算时间。
图1 光场视点合成加速框架
各层稀疏度自动优化。本文提出一种体现模型复杂度-图像质量权衡关系的网络层稀疏度优化目标函数设计方法,即将优化目标函数定义为在模型稀疏度配置方案下,输出质量指标、模型复杂度指标的复合函数,如图2所示。序贯模型优化器每步均会生成一个稀疏度配置向量,该向量的每一维度对应神经网络模型其中一层的目标稀疏度。随后,实验单元在相应配置方案下对神经网络模型进行剪枝优化,并通过重训练等方式尽可能恢复预测性能。之后,实验单元测出此次尝试在模型复杂度及输出质量两个维度的量化评价指标,并通过设计好的优化目标函数转化为标量效用值。此时,该实验组的配置向量与标量效用值的观察结果,将被序贯模型优化器记录为观测历史,用于优化器内部的概率模型拟合。每轮拟合得到的新模型将在下一轮优化开始阶段,用于生成新的稀疏度配置向量。
图2 基于序贯模型优化(SMBO)各层稀疏度自动优化方法示意框图
实验结果。本文将该框架实现在两种光场视点合成方法上,与未加速方法(基线1)和使用Bicubic进行图像分辨率放缩的加速方法(基线2)进行比较,结果如表1和表2所示。从实验结果可以看出,基于压缩分辨率特征的光场角度超分辨率方法具有显著的加速效果,且能够保持较好的图像质量。
表1 本方法与基线1运行时间对比(单位:秒)
表2 本方法与基线2重建的图像质量对比
另外,通过上述方法对原始光场视点合成方案与使用分辨率缩放技术加速后的光场视点合成方案分别进行神经网络模型轻量化,效果如表3和表4所示。该方法在不损失峰值信噪比的前提下,有效降低视点合成网络模型的参数量、计算量、与推理耗时,且与对相应模型进行均匀剪枝相比,效果明显提升。对使用分辨率缩放技术加速后的光场视点合成方案进行稀疏度自动优化后,同样能够在峰值信噪比不显著降低的前提下,有效减少预训练模型的参数量与计算量。
表3 基线1和使用均匀稀疏性和层稀疏性搜索的压缩模型对比
表4 未剪枝模型与使用层稀疏搜索压缩的模型对比
从实验结果可以看出,基于分辨率缩放和自动模型压缩的视点合成方法具有显著的加速效果。
04
Multi-stage Degradation Homogenization for Super-Resolution of Face Images with Extreme Degradations
作者:陈亮1,潘金山2,江俊君3,张佳维4,韩镇5,暴林超6
单位:1福建师范大学,2南京理工大学,3哈尔滨工业大学,4商汤科技,5武汉大学,6腾讯AI lab
邮箱:
cl_0827@126.com;
sdluran@gmail.com;
linchaobao@gmail.com
论文:
https://ieeexplore.ieee.org/document/9451563
通常超分辨率算法中的低质量训练样本是由实验环境下的高清图像通过简单人工降质处理获得(如图1左下图所示)。而真实低质量环境(如低光照监控环境)中的人脸图像常具有与训练图像极不一致的降质过程(如图1中左上图所示)。由于真实降质过程与实验降质过程的异质性,导致现有算法在处理真实低质量人脸时受到异质降质因素(如噪声、严重模糊等)干扰,难以获得令人满意的处理效果。
图1 当测试图像的降质与实验降质接近时,容易获得理想的结果。图中,我们分别对真实环境截取的人脸低分辨图像(上图)和严格模拟训练降质过程获得人脸低分辨图像(下图),采用同样的参数设置、同一超分处理方法处理。从图中可以看到,和训练降质过程更接近的方法更容易获得理想的超分辨结果。
针对上述问题,我们提出基于多阶段的超分辨率方法,通过对异质的降质因素进行同质化处理,获得与训练样本更接近的图像降质。与传统算法只有低分辨空间到高分辨率空间的单个投影不同(图2第一行),我们提出在超分辨率过程开始和结束增加两个编解码过程(图2第三行)处理降质鸿沟。通过对待测低质量图像进行简单的编解码重表达,过滤掉其中的异质降质因子,在投影中保证待测图像的降质逼近训练图像,达到降质过程同质化的目的,进而增强超分辨率算法处理极端降质图像的鲁棒性。
图2 传统方法和我们的方法图像质量流对比。第一行是传统方法,其中蓝色箭头代表图像数据质量变化。第三行是我们的方法,紫色箭头代表投影过程。和传统单个投影的方法不同,我们的方法提出三个投影过程作为同质化策略,以最小化非同源数据间的降质差异。
此外,为增强编解码过程的鲁棒性,我们提出鲁棒近邻源作为丰富表达的策略。通过在高分辨率和低分辨率空间分别学习人脸位置的相似性分布规律,并对二者求取交集作为鲁棒近邻源,丰富用来重表达的邻域池,为首尾两端的编解码策略提供更加有针对性的近邻块。
实验结果表明,与经典的人脸算法和前沿的深度学习算法相比,我们的算法具备较强的鲁棒性,在图像质量恢复(表1)和后续人脸认证(图3)任务中均能够获得优势明显的结果。
表1 和前沿算法的超分辨率PSNR和SSIM值对比。星号代表用本文训练数据训练后的模型
图3 人脸认证实验结果
05
Single-shot Semantic Matching Network for Moment Localization in Videos
作者:刘新放1,聂秀山2*,滕隽雅1,连莉1,尹义龙1*
单位:1山东大学,2山东建筑大学
邮箱:
xinfangliu@qq.com;
niexsh@hotmail.com;
799859083@qq.com;
Lianli@sdu.edu.cn;
ylyin@sdu.edu.cn
论文:
https://dl.acm.org/doi/abs/10.1145/3441577
代码:
https://github.com/xinfangliu/SSMN
*通讯作者
图1 基于自然语言的视频事件定位任务示意图
如图1所示,使用自然语言在视频中进行片段定位是指在给定的自然语言查询中,从视频中找到最相关的片段。给出一个自然语言查询,现有的大多数方法都需要视频的候选片段来进一步判断是否与语言查询相匹配,这导致了额外的计算成本。实际上,单一的帧画面也可以一定程度上反映视频语义是否与查询语句相关。本文提出的单目语义匹配网络(SSMN),就是先把视频采样到固定帧数,然后预测每一帧画面与查询语句的相似度,然后在相似度基础上预测事件的起止时间。SSMN中的位置预测器模块把相似度序列当作一个整体输入,无需采用常规的滑动窗口操作,避免了传统方法中基于特征的冗余计算。
图2 SSMN模型结构图
SSMN的主要思路如图2所示,SSMN首先将视频特征均匀地采样到一个固定的长度,而查询语句则通过LSTM编码为一个整体特征。由于一句话中不同单词的重要程度是不同的,采用现有的注意力机制可以为不同单词分配不同的权重。同样的,视频特征的重要程度也是不同的,虽然可以采用注意力机制为视频特征分配权重,但传统的注意力机制由于相互抑制会使很大一部分视频特征信息丢失,为解决这一问题,论文设计了一个强化的跨模态注意力模块为视频特征在有限范围内赋予不同权重。随后,使用一个双向LSTM来挖掘多模态交互信息和时序变化信息,在每一时刻预测一个相似度分数。这些相似度分数通过一个MLP来产生最终预测的起止时间。
论文的主要亮点在于其边界预测器的输入是相关度分数,而非传统的特征,减少了计算量,使得一次性处理长视频成为可能。论文在两个基准数据集上评估了所提出的方法。在ActivityNet和Charades-STA数据集上的实验结果表明SSMN在精度(表1和表2)和效率(表3)上都优于当时最先进的方法。另外,论文在消融实验(表4)中指出使用双向的时序信息对于语义匹配的学习很有帮助,使用的注意力机制也能一定程度上提高实验性能。
表1 模型在ActivityNet 数据集上的准确率
表2 模型在Charades-STA 数据集上的准确率
表3 模型在Charades-STA数据集上的效率
表4 模型在Charades-STA数据集上的消融实验
在论文最后,作者分享了一些预测效果的示例,如图3所示。从实验结果来看,论文初步判断所提出的模型更关注于视频中的行为而非物体,这可能与所使用的视频特征有关。
图3 正确的预测更关注视频中的动作
06
Detecting Non-Aligned Double JPEG Compression Based on Amplitude-Angle Feature
作者:王金伟,黄炜,罗向阳
单位:南京信息工程大学,南京信息工程大学,中国人民解放军战略支援部队信息工程大学
邮箱:
wjwei_2004@163.com,
vip1274763302@163.com,
xiangyangluo@126.com
论文:
https://dl.acm.org/doi/10.1145/3464388
本文提出了一种检测彩色图像非对齐JPEG重压缩的新方法。在彩色图像非对齐JPEG重压缩的情况下,JPEG所造成的块效应有着很好的取证性能。基于这种思想,我们利用球坐标映射来构造新的观察窗口对原本的块效应进行观察,以期获取更好的特征表述形式。
图1 不同观察窗口下的块效应
可以看到通过改变观察窗口,在幅值-幅角的观察窗口下,块效应有着更好的表征特点。但是,考虑到在图像纹理区域时,图像纹理的像素差异可能远远大于由JPEG压缩引起的像素差异。为此需要对块效应的公式进行变形。
通过变形公式得到的块效应如图2所示。
图2 改进的幅值块效应
我们可以看到通过构建新的块效应求取方式能够更好地表征块效应,它排除了由于图像纹理变化的影响,更好地表征了更好的块效应。
表1 实验结果
对于QF 1 >QF2的情况,幅值一幅角方法的表现要优于Cnoise (现有的最佳方法),尤其是在QF1=90时。例如:当(QF1, QF2)=(90,70)和(QF1, QF2)=(90,90)时,Cnoise的检测精度分别为70.48%和91.41%。而幅值一幅角方法的精度分别为74.56%和95.62%,这比Cnoise的精度高出约4%。这是由于球坐标系中的幅值和两个幅角充分利用了图像信息,其中包括能量信息、颜色信息和三个通道之间的相关信息。此外,当初次JPEG压缩后留下的块效应受到二次压缩的严重干扰时,方位角和天顶角的颜色信息在揭示初次JPEG压缩留下的块效应上起着很大的作用。因此,块效应可以被更精准地表征从而检测出非对齐JPEG重压缩的存在。
对于QF1<QF2的情况,幅值一幅角方法仍然优于Cnoise。当QF2-QF1>0时,幅值一幅角方法的检测精度在大多数情况下都高于95%。尽管在某些情况下,幅值一幅角方法的精度略低于Cnoise,但只低约0.01%-O.1%,这表明幅值一幅角方法是有效的。
07
Unsupervised Domain Expansion for Visual Categorization
作者:王杰*1,田凯彬*1,丁大勇2,杨刚3,李锡荣†1,2,3
单位:1中国人民大学数据工程与知识工程教育部重点实验室,2北京致远慧图科技有限公司,3中国人民大学信息学院
邮箱:
guox@buaa.edu.cn;
zhaoyf@buaa.edu.cn;
jiali@buaa.edu.cn
论文:
https://dl.acm.org/doi/10.1145/3448108
代码:
https://github.com/li-xirong/ude
王杰和田凯彬为共同作者。通讯作者:李锡荣xirong@ruc.edu.cn
如何提升分类模型的泛化能力是多媒体智能的一个重要研究课题。当前一个主要技术路线是无监督域适应(Unsupervised Domain Adaptation), 简称UDA。UDA旨在通过联合使用有标注的源域(source domain)数据和无标注的目标域(target domain)数据进行训练,改善模型在目标域上的性能。本文通过在Office-Home和DomainNet这两个基准数据集上的实验表明,现有UDA方法(如DDC, DANN, DAAN, CDAN等)在目标域上性能的提升是以其在源域性能的明显损失为代价。这意味着,一方面,为了兼顾不同域的性能,需要同时上线两个模型,增大了部署成本;另一方面,待分类样本的域别信息往往是不可知的,如何实现模型间无缝切换并非易事。这就使得UDA的实用性受到较大挑战。为了应对这一挑战,本文提出一个新任务,无监督域扩张(Unsupervised Domain Expansion), 简称UDE。该任务要求模型在适应目标域的同时能尽量保持其在源域上的性能。为此,本文提出了一种通用的基于知识蒸馏技术的域扩张方法(Knowledge Distillation Domain Expansion),简称 KDDE。基于知识蒸馏的学习机制使得KDDE能够直接使用现有的UDA算法,使得方法具有较好的通用性。在Office-Home和DomainNet上的实验表明,KDDE方法在经典的UDA任务和新的UDE任务上均超过了之前工作。
KDDE是一个两阶段方法,参见图1。在第一阶段,分别针对源域和目标域进行训练,获得相应模型𝐺𝑠和𝐺𝑠→𝑡。由于源域带有标注信息,因此采用标准监督学习训练𝐺𝑠,而𝐺𝑠→𝑡 则经一个特定UDA算法获得。本文尝试了DDC和CDAN这两个代表性算法。在第二阶段,我们以𝐺𝑠和𝐺𝑠→𝑡为指导,通过知识蒸馏学习机制,将二者关于源域任务和目标域任务的暗知识注入到一个新模型𝐺𝑠+𝑡中。由于上述过程在概念上类似于一个学生分别在两位教师指导下进行学习。因此,我们称𝐺𝑠和𝐺𝑠→𝑡为教师模型,称𝐺𝑠+𝑡为学生模型。一旦训练完成,我们仅用𝐺𝑠+𝑡进行预测。因此,在实际部署时仅需上线一个模型就可以同时处理来自源域和目标域的样本。
图 1 本文提出的KDDE方法工作示意图
主要实验结果如表1所示。各方法均以ResNet-50为其分类网络。较基线方法,KDDE在提升目标域性能的同时减少了源域性能损失,严重了该方法对于UDA和 UDE任务的有效性。此外,本文以光学相干断层扫描(OCT)图像异常检测为例,进行了跨设备医学图像分类实验。KDDE在该项实验中也表现出了更好的分类性能。
表1 在Office-Home和DomainNet上的多分类实验结果
表2 基于OCT图像的跨设备医学图像二分类实验结果
综上,本文针对UDA在算法落地过程中的挑战,提出了UDE任务,并提出了KDDE方法,其优越性在自然场景图像分类和医学图像分类实验上得到了有效验证。
编辑人:桑基韬、聂礼强
专委会责任副主任:徐常胜
微信扫一扫
关注该公众号