上海博亚体育网是一家老字号代写网站,专业提供代写硕士毕业博亚体育服务。

面向视频压缩域的实时目标识别技术之计算机研究

发布时间:2019-09-08 10:25 博亚体育编辑:vicky 价格: 所属栏目:计算机博亚体育 关键词: 计算机博亚体育视频压缩深度学习运动矢量

本文是一篇计算机博亚体育,本文提出了一种基于图像形态学的视频运动矢量图构建方法,以实现视频数据的实时处理。通过对视频压缩过程的分析,提取出视频压缩域中宏块的运动矢量数据,再利

本文是一篇计算机博亚体育,本文在实现视频运动矢量图实时提取的基础上,提出了一种面向视频压缩域的目标识别方法。该方法能够在不解压缩视频的前提下,实现目标的有效识别,为智能交通、自动驾驶和视频异常检测等领域提供了新的技术。

1 绪论

1.1 背景和意义
近几年物联网技术的快速发展和互联网技术的日趋完善,社会信息化已经成为当今国家和社会发展的大趋势。视频、图像、音频和文本等多媒体信息已经逐渐成为人们获取最新国内外资讯的重要途径。互联网覆盖范围的增大、网络速度的快速提升以及移动端 4G 和 5G 网络的出现,使得我国进入了大数据时代的黄金时期。据国家关于移动互联网流量数据的报告显示,2018 年 1 月到 6 月的数据流量为 266 亿 GB,文中所述如图 1.1 所示。随着爱奇艺、优酷视频和腾讯视频等网络视频平台的推广和普及,抖音短视频、西瓜短视频和火山小视频等可以上传视频分享生活的手机应用出现,以及网络用户和移动端用户的快速增长,使得移动端视频的数据量规模呈指数型增长。

根据第 42 次《中国互联网络发展状况统计报告》:如图 1.2 所示,截止至2018 年 6 月,网络视频用户规模达 6.09 亿,较去年末增长 3014 万,占网民总体的 76.0%。手机网络视频用户规模达到 5.78 亿,较去年末增加 2929 万,占手机网民的 73.4%。各个短视频应用的用户规模达 5.94 亿,合并短视频应用的网络视频用户使用率高达 88.7%[1]。在用户规模和网络视频规模快速扩大和增长的同时,国家也会对网络视频平台的内容出台相关规章制度和定期的内容审查,但是对于网络上个人发布短视频大部分都是由每种应用软件独自对其进行审查,而现有的技术对网络视频审核速度无法匹配用户发布网络视频的速度,同时也需要耗费人工进行操作,这样会使得网络上的视频内容变得无法控制,大部分庸俗、无趣和虚假的网络视频流入到网络上,对整个视频网络的生态环境产生了非常恶劣的影响。因此,针对短视频的问题,国家相关管理部门颁布了一系列的措施和对部分不正规的应用软件进行监督等办法来对这些违规的视频进行监控和整治,但同时也需要相应的手机应用在技术上提高对视频内容的审核技术。对于技术方面的提升,可以在视频上传的终端位置来进行判断,当视频在压缩上传的过程中,针对压缩信息做相应技术上的处理来进行判断视频内容是否符合现有的审查规定来决定当前视频是否应该上传。
.............................

1.2 国内外研究现状
在全世界内,随着视频监控系统的大范围布署,视频监控相关的领域近年来也逐渐受到了广泛的研究。从视频监控系统中获取信息变得越来越重要,尤其是在一些特定的环境下视频监控系统对内容信息的获取[6]。视频监控中运动物体识别是计算机视觉的一个重要研究领域,也是实现智能化监控的技术的热点问题之一[7]。视频中运动物体识别对于智能化视频监控技术中的目标分类、目标跟踪和行为理解等后续研究起着关键的作用。目前视频中运动物体识别方法大约分为以下几类,背景差分法、帧差法、光流法和使用深度学习技术的识别法。
(1)背景差分法
背景差分法是常用的运动物体识别方法之一,它的基本思想是通过计算当前帧与背景模型之间的差异来对运动区域进行提取,因此背景建模是实现背景减法的关键[8]。目前为止基于背景差分法已经设计了很多改进算法,常见的背景建模方法有:阈值法、码本法、混合高斯模型、和均值模型等。其中,由 Stauffer和 Friedman 等人提出的高斯混合模型可以模拟场景中周期运动的存在,例如叶子摇摆,旗帜飘动,显示闪烁,是最广泛使用的背景模型之一[9]。陈凤东等人[10]设置动态阈值的方法来解决复杂环境下光照变化对背景建模的影响,通过计算相邻图像中整体图像光照变换的平均值作为更新背景模型的阈值,减少复杂环境下光照变换带来的影响。R Zhang 等人[11]使用中值滤波器来实现视频背景模型的构建,使用自适应背景差分法来检测物体。Zang X 等人[12]使用高斯混合模型自适应地学习差异阈值来区分前景和背景,这样可以使得建立的背景模型减少环境因素和运动物体轻微抖动所带来的影响。
(2)帧差法
帧差法是另一种常用的视频目标检测方法,该算法的原理并不复杂,首先是在视频序列中选择前后相邻的视频帧,然后将相邻的视频帧进行像素级别的减法操作,最终出现像素变换大的区域就是运动物体的区域。帧差法对光线等场景变化不敏感,适应各种环境和场景。但是这种方法会在运动物体内部存在很多无法连接的空洞现象,也就是会出现无法连接空白区域。为了解决这个问题,IntanKartika 等人[13]引入了基于自适应阈值和阴影检测处理技术来消除出现的空洞现象,Zhao M 等人[14]基于视频帧中相邻三帧差值和背景差分法的混合方法。WHuang 等人[15]通过求得的背景平均值和当前帧之间的数值差来补偿空洞问题。虽然优化空洞现象的算法在逐渐完善,但是其所带来的后果是改进的帧差法的计算量越来越大,运行速度也是越来越慢。
................................

2 深度学习与视频压缩

2.1 深度学习相关理论
2006 年加拿大多伦多大学的 Geofrey Hinton 教授在神经网络方面提出深度学习模型训练方法的改进模型,极大的提高了基于 BP 反馈神经网络的训练速度和训练的最优问题[30],使得深度学习模型再次回归到科研领域的视野中,此后开始了深度学习的崛起浪潮,目前深度学习已经应用于大部分领域中,本小结主要是对深度学习的发展历史和当前深度学习的常用的网络结构做理论分析。
2.1.1 深度学习
深度学习是机器学习模型之一,机器学习通过训练样本是否有对应的标签数据可以分为监督学习和无监督学习两大类[31]。在监督学习中,输入到模型中的一组样本,其对应输出的结果是在何种范围之内或者输入和输出需要保持某种特定的逻辑关系,都可以通过标签给出准确的答案,监督学习根据其输出是离散值还是连续值可分为分类问题模型和回归问题模型[32]。无监督学习算法有聚类算法、主成分分析方法、局部线性嵌入方法和拉普拉斯特征映射方法等。其中聚类算法是无监督学习中最经典的算法,一般是将样本数据集中每个样本之间定义相似性度量,然后根据定义的相似性度量将距离相近的样本组合到一起形成一个簇,一个不错的聚类算法是可以在其分的每个簇族之内具有高类内相似性,簇与簇之间具有低类间相似性。聚类算法大致可分为 7 类算法:分层聚类算法、基于密度的聚类算法、分区聚类算法、基于图的聚类算法、基于网格的算法、基于模型的聚类算法和组合聚类算法[33],将聚类算法分成七大类是根据算法各自的基本思想,
研究人员根据不同应用的背景使用上述的聚类算法来获得最优的结果。
近年来随着人工智能技术的快速发展,深度学习逐渐回归到人们的视野里,深度学习是指三层以上的人工神经网络(Artificial Neural Network),看似一个突然出现的全新领域,其实在 19 世纪 50 年代就已经出现了,只是这个技术的名称随着时间的发展变换了很多次。深度学习的历史发展进程与其名称的变换有着相同的步伐。19 世纪 50 年代到 20 世纪 60 年代初,是人工智能发展的起点同时也是深度学习技术雏形的出现,这个时候深度学习叫做控制论;20 世纪 60 年代到20世纪90 年代人工智能技术从实验室中的理论探讨开始逐步走向现实世界的应用中,包括在工业,农业和医疗等领域都取得了巨大的成功,此时的深度学习技术被叫做联结主义;从 21 世纪初到现在,人工智能技术迎来了爆发式的发展阶段,深度学习技术也迎来了蓬勃的发展并以深度学习的名字出现在人们的视线当中[34]。无论是爆发式的发展还是蓬勃的发展,其背后是得益于大数据和物联网等当今主流技术的发展所带来的大容量的数据规模,同时图形图像处理器等硬件技术的提升也将深度学习技术的训练时间缩短至人们可以接受的范围之内。深度学习是属于机器学习技术领域的神经网络中的一个分支。
.............................

2.2 视频压缩技术
2.2.1 视频压缩原理
视频压缩域技术广泛的应用于不同的领域中,如视频传输,广播数字视频,高清晰度电视业务等。视频压缩技术的目的是减少视频图像的数据量,视频编码是降低视频比特率来减少资源的消耗进行传输和存储,同时对解码后的视频有良好的恢复保证。视频图像压缩是以频繁的间隔采样运动图像,通常为每秒 25 帧,作为帧序列存储。当前主流的视频压缩标准是 H.264/AVC,其框架是一种分层结构,按照功能共分为两层,视频编码层(Video Coding Layer,VCL)和网络提取层(Network Abstarction Layer,NAL),视频编码层主要是对视频图像数据进行有序的编解码,网络提取层将经过视频编码层处理过的视频数据进行封装起来,封装之后的数据可以高效的通过网络进行传输和在存储硬件中进行存储。