混合场景屏幕内容的编码码率控制方法的改进

论文价格:免费 论文用途:其他 编辑:lgg 点击次数:69
论文字数:36254 论文编号:sb2015072812350013761 日期:2015-07-28 来源:硕博论文网

第一章 绪论


1.1 图像与视频编解码
图像编码的目的是减少表示图像所需的数据,通常的做法是尽量减少图像的冗余。这些需要去除的冗余可以是相邻宏块间的空间冗余,可以是相邻帧间的时间冗余,还可以是不同频谱或不同彩色平面间的频谱冗余等等。我们把这些冗余总结为三类:像素间冗余、编码冗余、心理视觉冗余[1]。像素间冗余源于图像中的对象之间存在的在结构上的或几何上的关系。我们知道,在图像中单一宏块像素值往往与其相邻宏块的像素值或者相邻帧同一位置的宏块的像素值有关。也就是说,像素间在空间和时间上是有相关性的。在同一帧中往往表现为相邻像素间的空间相关性,即空间冗余。而在相邻帧中一般表现为相邻帧之间的时间相关性,即时间冗余。编码冗余出现在对像素进行二进制编码时。一般的编码方案偏向于使用等长的二进制编码。但是这样的编码方式在很多图像中的编码效率不高,因为在绝大多数图像中,不同像素值的出现频率都不等。最有效率的表示形式应该是用尽量短的码长去编码出现频率高的像素值。据此,有人提出了可变长编码(Variable Length Coding VLC),其中最具代表性的便是哈夫曼编码(Huffman Code)[2]。心理视觉冗余主要依据是人眼无法定量获取每个图像中的像素数据。人眼只能局限于对像素的定性分析,所以如果去除图像中一些人眼不敏感的像素,对于图像的主观质量不会有太大影响。因此,如果能利用心理视觉冗余,我们可以做到在不影响图像主观质量的情况下大幅度提高图像的压缩比。典型的静态图像压缩算法 JPEG[3]正是利用了上述三种冗余。JPEG 提出的非均匀量化能够很好的解决自然图像的压缩,但是若用于压缩计算机生成的图像则不能带来令人满意的效果。因为计算机生成图像的高频部分经常包含了文字图形的边缘信息,JPEG 的非均匀量化策略往往导致文字图像边缘非常模糊,严重影响图像的主观视觉体验。
…………


1.2 混合场景屏幕内容的编码及其相关研究
混合场景屏幕图像序列是指在屏幕中同时或交替出现文字图形和视频的图像序列。不同于一般场景的编码,混合场景编码需要同时考虑到文字图形的清晰度和视频的流畅度。目前在屏幕编码领域的研究大部分集中于将通用视频编码器进行优化提高其在屏幕场景的率失真表现。Wang 和 Lin[6]提出对于屏幕内容,在帧内编码时采用 Gzip 无损编码和 H.264 有损编码相结合的混合编码方式,即结合 Gzip 对文字图形编码和 H.264 对视频编码的优势。他们选择两种编码方式中代价更小的一种来对当前宏块进行编码。随后他们又对该实验进行了改进,在原有实验的基础上加入了一种新的编码模式[7],它基于 PNG 滤波器和游程编码。实验表明,这种新的编码方式利用了屏幕图像的空间相关性,有效地减少了编码后产生的码率。Zaghetto 和 Queiroz[8]在 H.264 基 础 上 提 出 一 种 基 于 分 段(segmentation-driven)思想的策略,先执行一个分段操作将块划分为文字边缘、文字内部和背景三个部分,然后根据人体视觉系统对于不同内容的敏感程度不同分别使用不同的量化步长以保持主观视觉效果。此外,针对屏幕编码的码率控制,Han,Wu 和 Zhang[9]提出了一种自适应量化和码率控制算法,通过 MD5 校验和来计算相邻帧的变化区域,而后根据变化区域信息来选取量化步长以达到码率控制的目的,从实验结果上看算法有效地降低了峰值码率。Lin 和 Xie[10]将屏幕场景分为快速运动场景和慢速运动场景,对不同的场景采用了不同的码率控制方法。对慢速运动场景采用了 FRACQP 的码率控制方法,FRACQP 码率控制方法是对 x264 中固定量化参数(Constant Quantization Parameter, CQP)模式的改进,它通过降低帧率大大提高了屏幕中无视频内容时的视觉效果。
……….


第二章 H.264 标准


2.1 H.264 概述
2003 年初,国际电信联盟远程通信标准化组织颁布了 H.264 视频编码标准。此后,H.264 作为国际通用的视频编码标准因其优秀的压缩效率和良好的网络亲和性被广泛应用于实时视频通讯领域。H.264 标准的颁布成倍地提高了编码效率并且扩展了应用领域,在数字电视广播和实时通信等领域都发挥了极其重要的作用[10]。具体来说,H.264 可应用于三个档次:基本档次、扩展档次和主要档次。后来又提出了高级档次以取代主要档次,高级档次又被分为四种[11]。对于编码器的具体实现,H.264 并没有具体规定,H.264 仅仅规定了编码后码流的格式以及解码方法。这有利于 H.264 编码器的推广。H.264 编解码器的具体框架如图 2-1 和图 2-2:

………


2.2 帧内预测帧内预测
根据已编码宏块和当前宏块得到预测块的预测值。对于亮度信号来说 4x4 有 9 种预测模式[12]。图 2-1 显示了其中四种预测模式,分别为垂直方向预测、水平方向预测、左下对角线预测和又下对角线预测。另外 5 种预测方式仅仅预测角度不相同。16x16 只有 4 种预测模式。色度信号也只有 4 种预测模式,这与 16x16 的预测模式类似。编码器会计算每一预测模式中预测值与实际值的差异,会取差异最小的一种预测模式为最终预测模式。一般情况下,对于细节区域,则选择 4x4 预测模式编码,而对于平坦区域而言,16x16 预测模式编码比较合适。H.264 另外一种预测模式是 I_PCM,该模式下,编码器不对当前宏块作处理,而是直接传输图像的像素值。对于亮度信号来说,在帧间预测中,宏块的分割方式如图 2-4 所示。在图中,我们可以看到帧间预测宏块的分割与帧内有所不同,这样的分割很大程度提升了各宏块间的关联性。如帧内预测一样,分割越细越有利于保存细节,反之则有利于编码较为平坦的图像。宏块色度和亮度采用同样的分割方式,只是色度宏块的尺寸减半。例如 16x8 亮度成分对应的色度成分的分割方式为 8x4。H.264 帧间模式选择与帧内模式原理相似,在这里不再详述。
………


第三章 x264 及其码率控制方法.........22
3.1 x264 的外部接口....22
3.2 x264 的内部实现....22
3.3 x264 的码率控制方法........27
3.4 x264 的码率控制方法应用于混合场景....29
3.5 本章小结....30
第四章 混合场景屏幕内容中场景识别算法的优化........31
4.1 整体框架....31
4.2 场景识别....32
4.3 场景识别的改进....33
4.4 本章小结....36
第五章 针对混合场景的码率控制方法的优化....37
5.1 基于 Mirror Driver 的视频位置识别........37
5.2 基于 VBV+CRF 的码率控制方法......38
5.3 改进后算法的评测......43
5.4 本章小结....46


第六章 新的码率控制算法及其应用


6.1 PPClass
PPClass 是上海交通大学现代远程教育研究发展中心开发的用于在线教育的平台。经第三方测试,支持直播与点播的用户数并发量可达到 1 万以上,在电信网络运营商的业务中已形成应用示范。它结合了屏幕编码和自然视频编码的优势,克服了屏幕中静态图形界面和自然视频内容在时间和空间上出现相互交错难以进行有效编码的问题。PPClass 实现了对混合运动图像序列进行高质量、高效率、高压缩比的视频编码,并成功应用到实时课堂直播、点播模块。随着移动终端的迅速普及以及生活节奏的加快,人们对学习的可移动性的要求越来越高,而这一趋势对网络连接的不间断性具有非常高的要求。传统的基于稳定网络的流媒体协议已经不在适用于这样的要求,因为用户在移动过程中容易因网络的切换和信号的不稳定出现失去连接的状态。所以我们需要引进一种新的技术来解决这个问题。HTTP-Streaming 技术可以满足移动学习的网络需求。在服务器端,它将移动课程的音频信息、视频信息、屏幕视频信息按照一定的时间段将文件分片并保存;在客户端,只需采用 HTTP 协议即可获取数据。
……….


总结


信息技术与教育技术的飞速发展使得在线课堂、移动课堂等远程教育形式普及开来,这给现代远程教育带来了前所未有的机遇。而这样的教育形式往往需要实时传输电脑屏幕内容。且因为屏幕内容往往同时包含文字,图片和视频,所以不能把屏幕图像序列简单地等同为一般视频序列。选择什么编码方式编码这些电脑桌面内容并如何高效地在将它们传输到终端成为了研究者们关注的难题。因此屏幕编解码作为一种新兴的视频编解码技术越来越被研究者们所重视。屏幕编解码是针对屏幕内容特征的一种视频编解码技术,与传统的视频编码技术相比,它需要能同时兼顾到屏幕内容中的视频部分和文字图片部分。本文针对 Lin 和 Xie 的研究,提出了以下两点不足:一是在场景切换时会因为场景判断算法的滞后性而引起主观质量的严重下降。二是在快速运动场景下,针对混合场景屏幕内容的编码具有一定的局限性,往往会因为分配给关键帧的目标比特数不足而引起关键帧画面模糊。针对场景判断算法的滞后性问题,本文在编码开始前预存并分析若干帧,从而准确获取到场景切换时的第一帧,以减少画面质量的损失。针对先前研究在编码混合场景屏幕内容时的不足,本文利用人眼对屏幕中不同内容的敏感度不同这一特性,提出了一种新的码率控制方法。我们还实现了一个视频区域识别算法,根据这个识别算法,我们可以将屏幕内容划分为视频区域和非视频区域。新的码率控制方法在 x264 已实现的 CRF(固定质量因子)搭配 VBV(视频缓存检验器)模式下分别在帧层和宏块层采用如下方法实现了优化:对于帧层,若当前帧为 P 帧且在 I 帧周围一定范围内,则该帧采用 P_SKIP 模式降低非视频区域的帧率用以补偿 I 帧的整体质量,提高屏幕视频序列的整体视觉效果。对于宏块层,则根据当前宏块所处区域(视频区域或非视频区域)来对宏块量化参数 QP 及其波动范围作一定的调整以达到提高整帧的主观质量的目的。实验表明,新的码率控制方法获得主观评价的评分要高于x264 原本的 VBV+CRF 模式 40%。
…………
参考文献(略)


QQ 1429724474 电话 18964107217