雷锋网 AI 科技评论按:在 CVPR 2019 CLIC 影象压缩挑战赛中,图鸭科技所提出的算法 TucodecSSIM 夺得了 MS-SSIM 和 MOS 两项指标的冠军,算法 TucodecPSNR 夺得了 PSNR 指标的冠军,算法 TucodecPSNR40dB 则夺得高码点影象压缩 Transparent Track 的冠军。以下为图鸭科技提供的技术解读。
摘要:
近年来随着人工智能技术的发展,基于深度学习的影象压缩技术已取得了飞速的发展。一个典型的基于深度学习的影象压缩框架包括:自编码网络结构设计、量化、位元速率估计和率-失真优化等几个模组。本文将主要介绍图鸭科技在 CVPR 2019 CLIC 影象压缩挑战赛上的相关技术方案,针对于比赛所设定的低码点和高码点压缩两个赛道,我们基于变分自编码网络设计了可进行端到端优化的影象压缩方案。该方案包括一个非线性编码网络、软量化模组、一个非线性解码网络和一个熵估计模组。我们技术方案的特色之处总结如下:
1. 提出了基于全域性特征分析的 non-lcao 注意力模组,并融合进编码网络和解码网络,以实现提升自适应码字分配效能的目的。
2. 设计了一种基于自适应聚类的软量化方法以降低量化损失。
3. 提出了能融合超先验子网络和基于 pixel cnn++的上下文模型的位元速率估计模组。
得益于优良的网络结构和算法设计,我们所提出的算法 TucodecSSIM 夺得了 MS-SSIM 和 MOS 两项指标的冠军,算法 TucodecPSNR 夺得了 PSNR 指标的冠军,算法 TucodecPSNR40dB 则夺得高码点影象压缩指标的冠军。接下来将具体介绍我们的算法方案:
方法介绍:
(1) 编码网络和解码网络
我们的主干压缩自编码网络使用了如图 1 所示的非对称结构,它包括卷积、非线性单元和残差 non-local 注意力卷积等模组。值得注意的是,通过使用残差 non-local 注意力模组来对特征的全域性关联性进行捕捉和建模,影象中的纹理、边界等复杂部分能得到更好的重建。在 kodak 标准资料集上的实验表明,通过在编码和解码网络结构中融合 non-local 注意力模组,能在 PSNR 指标熵带来 0.6db 的提升。
图 1 编码和解码网络结构示意图