图像质量评价(Image Quality Assessment)是近年来多媒体行业的重点研究方向,CVPR 作为国际顶尖的计算机视觉会议,从 2021 年开始开设图像质量评价方向的比赛赛道。NTIRE 2022 年的图像质量评价赛道分为无参考(NR_IQA)和全参考(FR_IQA)两个,清华大学、新加坡国立大学、网易、字节、快手等知名高校、企业参与了这项赛事。字节跳动 VIDA 研发团队参与了无参考赛道的竞赛,并在该赛道取得亚军。
VIDA(Video Integrated Dimension Assessment)是字节跳动的多维度画质打分系统,包括几十个画质及美学的分析维度,并在多个业务领域获得了应用。VIDA 研发团队成员来自智能创作和多媒体评测实验室,在音视频的质量分析方向有着丰厚的经验积累。
图像质量评估(image quality assessment,IQA) 即对图片的主观感受质量进行评估。该主观质量是基于多个画质维度的综合感受,如模糊、噪声、压缩块效应等劣化因素的出现都会导致主观感受质量的下降。一种较为精确的 IQA 方法是采用多人主观打分的均值(Mean Opinion Score,MOS)来表征图像质量。然而,由于单张图片的标注人数通常需要数十到上百人,这种多轮次打分的方法往往耗时耗力,难以大规模应用。
客观打分算法通过建立一种通用的模型,来对图像的感知质量进行自动评估,并最大程度地拟合人类的主观判断。通过将模型的预测结果,与人的主观标注进行对比,可以对该类模型的性能进行评价。其按是否有参考图像可以分为三类,即全参考(full-reference)、半参考(reduced-reference)与无参考(no-reference)算法。
其中,全参考算法通过对比失真图像和原始图像的差异来对失真图像的画质进行评估。然而,对于某些实际任务来说,参考图往往难以获取。在参考图未知的情况下,需要使用无参考算法来进行画质评估。目前常用的无参考算法多用于一般图像的画质评估领域,而在本次竞赛中的数据集,包含了大量 GAN 网络生成的图像。这类图像所具有的劣化类型和传统图像的劣化类型有很大的差别,这也使得针对一般图像的无参考画质评估算法对于这类图像不太适用。
在比赛方案的设计中,我们借鉴了在其他视觉领域取得了巨大成功的 Swin Transformer 作为基础网络,并采用针对性的数据增强和损失函数来优化网络模型的训练,从而更好地对图像质量进行预测。
在网络模型中,我们使用来多尺度融合的 Swin Transformer 来对图片的深度特征进行提取。Swin Transformer 是一种具有层级结构和滑动窗口的 Transformer 网络。将其不同层级的特征分别取出进行融合,可以极大地增加预测特征中所包含的信息。此外,由于训练中使用了图像对来训练,本模型采用了孪生网络的形式。如下图所示,模型的两路分支之间具有完全相同的结构和共享的参数。
该模型的输入为预处理后的图片块,针对不同数据集,该图像块具有不同的尺寸;主干网络各层的处理结束后,将各层输出拼接在一起,再经过多层全连接层进行预测,输出图像质量的预测得分。如图所示,训练阶段网络预测结果将与图片的真值 MOS 进行比较,并使用设计的损失函数进行优化。
由于主观标注的 IQA 数据集往往比较小,我们在训练时使用了一定的增强策略来进行数据扩充。经过多次实验尝试,最终采用了下述增强方案。
训练阶段:
测试阶段:
在训练的损失函数方面,我们采用了 Regression 和 Rank 两个损失函数进行联合优化。其具有如下形式:
其中,loss_reg 计算每张图像预测得分和自身真值得分的欧氏距离,表征二者之间的质量差异:
loss_rank则用于衡量输入图像对的相对排序是否在一定程度上与真值相符。对于两张输入图像,计算二者预测得分的差值来表征二者质量的相对高低,并与二者真值得分的相对大小进行对比,具体为:
Rank 损失的应用,使得模型不仅能够对单张图像自身得分的绝对值进行回归学习,还可以对两张图像得分的相对关系进行学习,这极大的丰富了训练时所使用的信息量,使得模型具有更快收敛速度的同时,预测指标也更好。孪生网络的结构以图像对为输入,与 Rank 损失函数相适应。
如图所示,在 TID2013 数据集中,我们所提出的方案相比于传统算法更符合主观评价(MOS)趋势。
在 KonIQ-10k 和 TID2013 的数据集中上的相关性实验(80%train,20% validate)来看,提出的方案的相关系数 PLCC 及 SRCC 均达到 SOTA。
在 PIPAL 数据集上效果对比其他 Benchmark,印证了所提出的方案也具有更强的拟合能力。
NTIRE 2022 无参考质量评价赛道部分结果公示,VIDA 团队自研算法取得了第二名的成绩。
NTIRE 比赛中所使用的 PIPAL 数据集采用不同劣化方式生成,不仅包含传统的压缩、噪声、模糊失真,也包含了 GAN 增强算法所引入的失真。VIDA 团队通过自研的 MSTRIQ 模型,在对图像失真的质量评价能力上达到了行业领先的水平。
在字节跳动,每天都有庞大数量的图片、视频投稿,其中图像的类型繁杂,包含动画、3D、特效、文本等场景,失真类型也远远超出 PIPAL 数据集所囊括的种类。面对这些业务场景,VIDA 研发团队自研了多维度的画质分析系统,从清晰度、噪声、亮度、色彩、美学等子维度对画质进行分析,同时针对不同业务场景制作数据集。目前 VIDA 系统已应用在画质大盘监控、内容推荐、画质 badcase 分析、增算法评价等方向,未来会在 VR 视频分析、音视频多模态分析等领域持续发挥价值。