标签:分析 探索 注意 锯齿 机制 外部 码率 tar tail
直播点播已经与日常生活息息相关,这个过程中大家最关注的是什么,是更低的播放成本?还是更高的画质?这就涉及到了窄带高清技术,对于视频窄带高清技术,智能视频编码是其中最基础也是最重要的一个部分。
程玲 | 网易云信资深音视频引擎开发工程师
窄带高清技术实际上是一套以人眼的主观感受最优为基准的视频编码技术,代表的是一种成本与体验最合理配置、最佳性价比的视频服务理念。窄带是指节省不必要的比特,高清是把比特分配到更能产生价值的地方,从而实现在同样带宽条件下收获更加清晰优质的画质。
在疫情的影响下,直播从传统秀场渗透到各个领域,全民直播时代到来,对窄带高清技术的需求也越来越大。本文将首先介绍下业界一些比较成熟的窄带高清方案,再分享网易云信在窄带高清技术上的探索实践,最后再分享其关键技术点 JND 感知编码技术。
业界已经有比较成熟的窄带高清技术的应用,下面将介绍一些典型的技术方案。
淘宝直播是采用 HEVC 编码实现了 720p/25fps,800kbps 的压缩,且 PSNR>43db/VMAF>90。其视频窄带高清技术主要应用有三个方面:
阿里的窄带高清方案是从人眼视觉模型出发,将编码器的优化目标从经典的“保真度最高”调整为“主观体验最好”。凭借独有算法,弱化人眼易忽视的区域,强化人眼关注的细节,修复人眼厌恶的内容,突破当代视频编码器的能力上限,在节省码率的同时,也能提供更加清晰的观看体验。
腾讯极速高清是采用视频智能类(视频分成游戏、秀场、体育、户外、动漫、美食、影视剧等十几个大类几十个小类场景)、智能编码参数(不同场景配置不同最优编码参数)、前置处理 (锐化、软模糊、去块、降噪)等技术尽可能解决转码失真、低分辨率模糊、镜头抖动、噪声大、低码率锯齿块等转码中存在的问题,应用在斗鱼、企鹅电竞、CCTV、新英体育等。
NE264 是网易云信自研的符合 H.264 标准的视频编码器,目前已在 RTC、直播点播中应用。针对直播点播,NE264 目标是在现有架构下实现更低的带宽、更高的画质,即 NE264 窄带高清。下面我们将简单介绍下视频编码技术和根据人眼视觉特性提出的视觉感知编码技术,在此基础上提出和实现了 NE264 窄带高清技术。
视频编码都是利用数据间的冗余来进行压缩。早期视频编码依靠优化空域冗余、时域冗余、频域冗余等带来压缩效率的提升。从 MPEG-1 发展到 MPEG-2,码率节省约 50%,编码效率翻倍,复杂度增长为 5% 左右。
2003年推出的 H.264 是视频压缩协议的经典,在 H.264 推出后,传统的编码方式优化效率越来越低。从 H.264(AVC) 到 H.265(HEVC),虽然编码效率提升了 40%,但其背后复杂度却增长了 5 倍,而从 H.265 到最新的 H.266(VVC) 标准,编码效率不到 40%,但复杂度增加了 10 倍以上。
随着编码标准的演进,收益越来越小。随着技术的发展,技术突破愈发困难,因此迫切需要一种编码压缩的新思路。
随着对人眼视觉系统(HVS)生理和心理研究的发展,我们发现,其实人脑处理视觉时有非常多的信息冗余,利用人眼视觉特性可以明显的改善视觉压缩效率,这就是人眼感知压缩的原理。
人眼视觉系统由眼球、神经系统及大脑视觉中枢三部分构成,当人眼注视视频场景时,入射光首先由瞳孔和水晶体调节、聚焦,使景物在视网膜上成像,然后由视网膜上的神经元将光信号转化为神经信号并发送到视皮层,经过视皮层以及脑部其他区域的进一步处理后形成对视频场景的感知。
近几年来,在视觉心理学、生理学的指导下,通过对人眼的某些视觉现象的观察和研究,人们发现了 HVS 的很多特性。目前在视觉感知编码中,一般应用到的 HVS 特性有视觉注意、视觉掩盖、视觉敏感、视觉统计学习机制等,HVS 的一些特性如下图:
视觉掩盖,人眼对单一视觉信号比较容易感知,当几个视觉信号同时存在时,HVS 会对其中一个或多个信号的感知能力下降甚至消失,感知阈值发生改变,包括:
视觉注意,即当人眼注意视频场景时,人眼会快速将注意力集中在感兴趣的视频内容或者对象上。包括两种模式:
视觉感知编码的目的是利用已知的 HVS 特性,最大限度消除人眼无法感知的信息,用更少的比特资源提供视觉感知质量更理想的视频图像。为此,研究人员提出了大量的视觉感知编码方法。根据编码方法所利用的 HVS 特性不同,研究和应用比较多的是基于视觉掩盖的编码方法和基于视觉注意的编码方法。
关于视觉掩盖的编码方法,人眼多通道模型的特点,一个激励的存在将导致另一个激励探测阈值的改变,致使人眼对其中一种或多种激励的感知能力下降或消失,这就为消除视觉冗余提供了可能。目前,基于视觉掩盖的编码方法主要有:基于JND模型的编码方法和基于SSIM,VMAF等主观评价机制的编码方法。其中 JND 模型的编码方法是人眼视觉编码目前广泛使用的技术,也是我们重点研究的技术。
关于视觉注意的编码方法,根据是否考虑 HVS 的中央凹特性,基于视觉注意的编码方法可以分为两类,基于感兴趣区域的编码方法和基于人眼显著性检测的编码方法。
目前业界窄带高清技术已相对比较成熟,结合 NE264 编码特性以及想要达成的目标,我们的窄带高清技术主要分为三大部分:
具体的流程我们可以结合下图看一下:对于输入视频,我们可以通过机器学习分析视频内容特性,然后进行视频增强前处理,以提升画质,再进行显著性检测区分显著性和非显著性区域,传递给 NE264 编码器,NE264 编码计算 JND 系数,再结合显著性检测结果,作用于编码,最终输出显示。
下图为增强前处理的对比效果图,其中左图为原图,右图为增强处理后的效果,可以发现经过视频增强处理后的图像主观得到明显提升。
视频增强效果
下图为显著性检测效果图,其中上面彩色图为原图,下面黑白图为显著性检测效果图,为 0-255 的值,越亮说明越是显著性区域。
显著性检测效果
下面我们就来看看上面提到的关键技术:JND 感知编码技术。
JND(Just Noticeable Distortion)为最小可觉察误差,用来度量人眼对图像中不同区域失真的敏感性,多用于基于视觉特性的图像/视频编码、数字水印、图像质量评价。目前已有多个 JND 模型被提出,主要分为两类,基于像素域的 JND 模型和基于 DCT 域的 JND 模型。
基于 NE264 的 JND 感知编码如下:对于输入的 YUV 图像,我们首先计算亮度敏感度、纹理敏感度和对比敏感度,从而得到 JND 系数,然后作用于 DCT 域,改变原有的 DCT系数,然后进行编码,输出码流。
本文主要介绍了 NE264 窄带高清技术和 JND 感知编码技术,对于直播点播应用而言,如何在保证高清画质的基础上尽可能的减少带宽始终是追求的目标,视频编码是其中至关重要的环节,不管是传统编码技术,还是结合智能编码技术,我们都将持续努力,带来更低时延、更高画质的优质视频体验。
以上就是本次分享的全部内容,点击【这里】即可查看本次分享的视频回顾。
程玲,网易云信资深音视频算法工程师,目前在网易云信主要从事视频编码算法研究相关的工作,对视频质量优化、码率控制算法有比较丰富的经验
标签:分析 探索 注意 锯齿 机制 外部 码率 tar tail
原文地址:https://www.cnblogs.com/wangyiyunxin/p/14814281.html