大学代写论文网专业提供代写毕业论文、代写本科论文服务
您现在的位置:首页 > 计算机论文 > 软件工程论文 >
学习视频运动目标相关工作
发布时间:2019-10-15

  本篇文章目录导航:

  【题目】研究深度学习的目标检测与搜索算法??
  【第一章】基于深度学习的视频运动目标绪论
  【第二章】学习视频运动目标相关工作
  【第三章】基于卷积神经网络的视频目标定位检测
  【第四章】基于时空双流的视频人物动作检测
  【第五章】基于循环神经网络的视频目标自然语言搜索
  【第六章】目标检测与搜索算法的结论与参考文献

第二章 相关工作

  第一章概述了课题研究的背景与意义、研究思路与创新点和论文的结构,通过视频深度学习算法来完成视频中的目标的检测与搜索。接下来本章将从结构、原理及相应领域应用方面,阐述与本论文课题研究相关的视频图像目标检测和视频图像目标搜索算法,其中主要涉及视频的预处理、图像识别、候选区域提取等算法。

  2.1 视频的预处理

  2.1.1 镜头分割

  镜头分割是视频图像问题处理的第一步,现如今比较成熟的镜头分割方法有边缘比较法与块匹配法。

  (1)边缘比较算法边缘比较算法[28]

  是利用视频图像的边缘特征作为视频镜头之间差异的比较依据,当视频镜头发生切换时,视频图像的边缘特征也会随之发生改变。

  设定一个阈值为T,检测第i+1视频帧的边缘在第i视频帧边缘基于上减少了的像素百分比dout,检测第i+1视频帧的边缘在第i视频帧边缘基于上增加了的像素百分比din,第i帧与第i+1帧之间的帧间差diff计算公式如下:

  公式(2.1)中,如果帧间差diff的值大于设定的阈值T时,则认为此时视频的镜头发生了切换。

  (2)块匹配算法块匹配算法[29]

  是一种将视频帧图像分割成若干块,然后将连续帧之间对应的块进行比较相似程度,获得镜头的边界。

  将视频帧图像分成m个方块,设置小块之间的相似度比较阈值为T1,设置视频帧之间相似小块的数量阈值为T2,第i帧和第i+1帧第k个小块之间的相似度kl的计算公式如下:

  公式(2.2)中,k,im和k,i1m+分别是第i视频帧图像与第i+1视频帧图像中的第k个小块的像素加权平均值,k,is和k,i1s+分别表示第i视频帧图像与第i+1视频帧图像中的第k个小块的像素标准差。如果对应的两块之间的相似度kl大于阈值T1,认为这两块不同。

  统计视频帧图像之间不同小块的个数n,若n大于阈值T2,则表示视频镜头发生了切换。

  2.1.2 关键帧提取

  关键帧提取是视频图像预处理的第二步。关键帧,即视频镜头中最能够体现视频镜头内容的视频帧图像,是将视频问题转化为图像问题的基础工作。

  M.M. Yeung等人根据视频帧之间的变化动态的获取视频的关键帧[30].首先,选取视频镜头的首帧作为第一帧,计算后续视频帧与该关键帧的距离,若某一视频帧与该视频帧的距离超过某一阈值,则此帧为新的视频帧,重复之间的工作,直至视频镜头的结尾。

  关键帧提取的具体的算法的步骤如下:

  ①初始化,将镜头的首帧为参考关键帧,用符号k=1来表示;②计算后续视频帧和当前参考视频帧的距离,赋值k=k+1;③判断视频帧与当前参考关键帧的距离distance是否超过阈值,是则转步骤④,否则循环执行步骤②;④选择第k帧为关键帧,并设为当前参考帧;⑤判断是否有后续帧,若有,则循环执行步骤②,否则结束。

  2.1.3 RGB 颜色通道提取

  视频关键帧图像的RGB颜色通道提取是视频预处理的最后一步,图像的颜色通道是指在图像的像素在相应通道上的颜色信息。

  RGB颜色通道表示视频关键帧图像中的像素在红色、绿色和蓝色这三种颜色上单独的颜色值。本文将使用Open CV完成视频帧图像RGB颜色通道图像的提取[31].

  2.2 CNN 在视频图像识别中的应用

  卷积神经网络(Convolutional Neural Networks,CNN)是一种反向传播神经网络,能够通过传统的梯度下降法进行学习,训练完成的神经网络能够有效的提取图像的特征,完成视频图像的识别[32].该神经网络与传统的神经网络不同,逐层的进行训练并且每一层的特征都是由上一层的特征和局部区域共享权值卷积核计算得到。因这一特点神经网络中的权值参数的数量大大减少,避免了传统BP神经网络中过拟合、局部最优和梯度扩散等问题[33].并且卷积神经网络对于图片的缩放、扭曲等变形不敏感,具有极高的鲁棒性。

  2.2.1 CNN 的网络结构

  卷积神经网络模型的结构是一个多层次的结构,模型的每一层次都是由多个二维的特征面(Feature Map)构成,每个二维的特正面由多个神经元组成。一种典型的卷积神经网络结构Le Net-5如图2.1所示,主要包括输入层、卷积层、采样层、全连接层以及输出层,将图片在输入层输入,在卷积神经网络的输出层图像类别的概率。

  卷积神经网络模型的运算通常包括卷积运算、下采样运算以及全连接,输入的原始图片相当于一个矩阵,该矩阵经过多个卷积核的运算产生了特征层C1,再对特征层C1进行加权与偏置运算得到采样层S2,之后用同样的方法得到特征层C3、采样层S4和特征层C5,最后将特征层C6光栅化得到全连接层FC7,产生最终的输出。

  2.2.2 CNN 的算法原理

  上一节阐述了CNN的结构,这一节主要在卷积、下采样、以及损失函数这几个角度对CNN的算法原理进行详细的描述。

  卷积神经网络输入层输入的初始图像记map,将卷积神经网络的第i层特征图记为Fmapi,则最初的输入图像可用Fmap0表示。第i层特征图Fmapi生成过程可以通过公式(2.3)进行描述:

  2.3)中,Wi表示第i层卷积核的权值向量,使用符号?

  表示卷积核与第i-1 层特征图Fmapi-1的卷积运算,bi表示偏置向量,最终通过非线性的激活函数f(x)得到第i层的特征图Fmapi.为了对特图进行降维以及在一定程度上保持特征图尺度不变特性,通常在卷积计算后,需要对特征图进行下采样操作,如公式2.4所示:

  进过卷积神经网络中多个卷积层和采样层的循环运算,将最终得到的特征图输入到全连接层中,再对全连接层的特征进行分类得到基于输入原始图像的在各类别上的概率分布Y.

  对于初始的原始输入图片Fmap0,经过卷积神经网络多层次的运算得到的概率分布模型Y如公式(2.5)所示:

  公式(2.5)中,labeli表示图像的第i个类别标签。

  神经网络在训练的过程中,主要目标是要将神经网络的损失函数的值最小化,常用的损失函数有均方误差函数(Mean  Squared  Error,  MSE)函数和负对数似然函数(Negtive  LogLikelihood, NLL)函数等,如公式(2.6)和公式(2.7)所示:

  2.3 目标候选区域提取算法

  候选区域提取算法是用来提取视频图像中目标可能区域的算法,候选区域的提取是视频图像目标检测的基础工作。本节将分别介绍三种如今比较常用的目标候选区提取算法:

  SlidingWindow算法、Selective Search算法[34]和Edge Box算法[35].

  2.3.1 Sliding Window 算法

  滑动窗口法(Sliding Window)是目标候选区域最基础的生成算法,该算法通过遍历视频图像中的每个像素点,将像素点作为目标矩形的区域的起始点构造出大小不同的矩形窗口。

  因为该算法穷举出了视频图像中所有目标候选区域可能的位置,所以该方法虽然能够产生精确的目标位置,但是同时也会产生大量的冗余目标候选区域。

  2.3.2 Selective Search 算法

  选择性搜索(Selective Search)算法是一种目标区域推荐算法,该算法将视频图像划分为多个子区域,计算相邻子区域间的相似度并且将相似度最大的图像子区域进行合并,通过不断的合并子区域,最终获得数量较少但是召回率较高的目标候选区域。该方法中子区域间的相似度是通过多种特征的相似度融合而成,这些特征包括颜色、纹理和尺寸。具体的选择性搜索算法包括如下的四个步骤:

  ①将视频图像分割成若干的子区域,子区域集合为{ }1 2, , ,nR=r r r;②计算所有相邻的视频图像子区域间的相似度(,)m ns r r,相似度集合为{( )}, ,m nS=s r r;③将相似度集合S中最大的相似度 max(S)对于的两个相邻的视频图像子区域(,)m nr r进行合并成为一个新的子区域new m nr=r?r,将newr添加到子区域集合R中,并且在相似度集合S中,将原来与区域mr和区域nr有关的相似度删除,计算newr与其他区域的相似度添加入相似度集合S中。④重复步骤③的直至相似度集合S为空集,此时子区域集合R中的子集为视频图像中目标的分割区域,分割区域对应的外接矩形则是视频图像中候选目标区域对应的边界框。

  2.3.3 Edge Box 算法边缘框

  (Edge  Box)算法是根据视频图像的边缘信息确定目标区域的算法,首先获取视频图像的边缘信息,之后获取边缘轮廓分组并计算边缘分组之间的相似度,再使用边缘轮廓分组之间的相似度计算每个边缘轮廓的权值,通过权值判断边缘轮廓分组是否属于目标轮廓内的一部分,确定目标区域。具体的算法流程如下:

  ①计算输入图像的边缘信息得到边缘图像,使用非极大值抑制法(Non  MaximumSuppression, NMS)去除边缘图像中过多紧密的边缘;②在边缘图上不间断的寻找连通的边缘点直到边缘点两两之间的方向角度的差值的和大于p2,获得边缘点分组{ }1 2, , ,nS S S;③计算边缘点分组之间的相似度a(i, j)得到相似度集合{( )}a i, j,;④通过相似度集合计算每个分组的权重(|)iW S a,权重为1表示该边缘点分组在目标区域轮廓内,权重为0表示该边缘点分组是目标区域的轮廓上或者轮廓外,通过每个边缘点分组最终获得目标区域的位置边框。

  2.4 RNN在基于文本的目标搜索中的应用

  卷积神经网络对于图像的处理能够有比较好的效果,但是不适用于文本的处理。循环卷积神经网络(Recurrent Neural Networks, RNN)是一种用于处理的序列数据的神经网络[36],本文将用于处理目标的自然语言搜索。下面将分别描述RNN的网络结构、RNN的工作原理以及RNN的一种特殊类型GRU网络[37].

  2.4.1 RNN 的网络结构循环神经网络的结构图
 

  如图2.2所示,等号的左边展示了传统循环神经网络的结构,等号的右边表示循环神经网络在时间序列上的展开。循环神经网络的结构包含三个部分输入层、隐藏层和输出层,其中隐藏层包含的神经元具有反馈机制,能够将输出信息循环输入到下一个模块当中,实现了上下文信息的传递,这是循环神经网络能够处理文本序列的原因。

  2.4.2 RNN 的算法原理

  循环神经网络常用来处理文本,这一节将阐述在处理文本{ }1 2, , ,nw w w时,循环神经网络在t时刻时的工作原理。如图2.3所示,整个网络的输入为tx,输出为ty,隐藏层的状态使用th表示。输入层的输入向量tx由两个部分构成,分别是词向量tw和上一层的隐藏状态t1h-,其输入层输入向量tx的计算公式如(2.8)所示:

  循环神经网络的隐藏层用来处理输入向量tx,输出层用来输出t时刻对应的输出结果ty,隐藏层产生的t时刻的隐藏状态th和输出层的输出ty的计算公式如(2.9)和(2.10)



  2.4.3 GRU 神经网络

  GRU(Gated  Recurrent  Unit)网络是RNN神经网络的一种,GRU神经网络类似于长短周期记忆网络(Long Short-Term Memory, LSTM),都使用门循环单元来控制隐藏节点的输出,能够有效的建模在时间序列上的变化,但是GRU网络相对于LSTM网络更加的简便和易于实现,仅仅包含两个门结构:更新门和重置门。本文将使用GRU网络处理视频图像目标的自然语言搜索问题。

  GRU单元在t时刻的具体结构如图2.4所示,其中tx表示当前时刻的输入,虚线表示上一时刻输出的隐藏状态t1h-,实现表示这条线上的运算过程包含权重,th表示当前时刻GRU隐藏层输出的状态,?th表示当前时刻隐藏层隐藏状态的候选值,tr表示GRU单元的重置门(Reset),tz表示GRU单元的更新门。GRU单元的工作过程可用如下公式进行表示:

  其中,s表示sigmoid函数,f表示tanh函数, 表示Hadamard乘积,W和U表示GRU单元需要训练的权重参数矩阵。当重置门tr接近于0时,则忽略之前隐藏层的信息,只将当前时刻的输入作为输入,这使得GRU单元能够弃置掉自然语言搜索语句中无关紧要的信息;更新门tz用来表示之前时刻的隐藏状态被带入到当前隐藏状态th的量。每个GRU单元都能够学习到不同时间范围内的,当重置门tr较为活跃时,GRU单元能够学习短时间距离内的依赖关系,当更新门tz较为活跃时能够学习到长时间距离内的依赖关系。

  2.5 本章小结

  本章主要概述了本学位论文研究视频目标检测与搜索中所涉及到的几种挖掘算法,主要包括视频场景预处理算法、卷积神经网路在图像识别中的应用、目标候选区域提取算法与循环神经网络。本章首先对视频进行关键帧提取,把视频问题转化为图像问题,接着分析CNN的结构原理,使用CNN作为图像特征提取模型,为了检测分析出视频帧图像中目标的位置,分析了三种视频目标候选区域算法,最后考虑CNN不适用与文本处理,引出循环神经网络结构与原理,使用循环神经网络处理自然语言搜索语句。以上工作都为本文后续三个研究点的深入展开研究做好铺垫。

学习视频运动目标相关工作
对应分类:
版权所有:大学论文网专业权威的论文代写、论文发表的网站,秉承信誉至上、用户为首的服务理念,服务好每一位客户
本站部分论文收集于网络,如有不慎侵犯您的权益,请您及时致电或写信告知,我们将第一时间处理,邮箱:82274534@qq.com