基于mesonet和lstm的面部视频篡改检测方法
技术领域
1.本发明涉及deepfake面部视频篡改技术领域,特别涉及一种基于mesonet和lstm的面部视频篡改检测方法。
背景技术:2.面部视频篡改在互联网时代下,对多媒体信息的传播产生了重大冲击,尤其是以deepfake为代表的基于深度学习的自动化视频篡改技术,极大降低了篡改视频的生成难度,扩大了该技术的受众群体。大众难以鉴别真伪的视频信息往往会被不法分子篡改,用以达到传播假新闻、制造金融诈骗的手段。另外,现代人的面部生物信息往往是其智能设备解锁、公民身份认证、移动在线支付的重要方式。所以,在计算机视觉以及多媒体取证领域,对面部视频的篡改取证的研究是一个非常具有社会价值的课题。
3.目前基于deepfake的面部视频篡改研究工作,一般都是从对视频的帧图像的取证研究作为出发点,通过大量帧图像的真伪衡量视频的真伪。而对于视频来说,如果仅从帧图像的角度对其进行鉴别,就要很好的处理帧图像与视频的关系。目前比较主流的做法是,通过对视频中包含人脸的图像进行部分保存和裁剪,通过卷积神经网络或者其他机器学习模型进行特征提取与分类,然后平均化一个视频中所用到的所有帧图像在视频鉴别时所占的权重,实际上这种做法对鉴别视频来说是一种极为不公平的评估方法。一方面,视频中会存在比较模糊的面部图像,一般对比较模糊的图像的篡改检测很容易会有误差;另一方面,如果一个视频中出现多个人物面部,或者一张帧画面中存在多个人物面部信息,然而其中仅有部分面部信息是被篡改的,基于随机或间隔原则挑选的画面,使用平均权重的方法不能很好的评估一个视频的真伪。
技术实现要素:4.本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出种基于mesonet和lstm的面部视频篡改检测方法,能够提高对目标视频篡改检测精度以及可靠性。
5.本发明的第一方面,提供了一种基于mesonet和lstm的面部视频篡改检测方法,包括如下步骤:
6.从目标视频中筛选出多张包含人脸面部区域的帧图像;
7.构建改进的mesonet网络,所述改进的mesonet网络包括依次连接的前三层子网络和两个并列设置的第四层子网络,两个所述第四层子网络均包括依次连接的卷积层、标准化层以及池化层,其中一个所述第四层子网络的池化层的核大小为2*2,另一个所述第四层子网络的池化层的核大小为4*4;将所述帧图像输入至所述改进的mesonet网络,得到所述改进的mesonet网络输出所述帧图像的特征向量以及分类结果;
8.根据预设的自适应权重、所述帧图像的特征向量和分类结果计算得到所述帧图像的重组向量;
9.将所有所述帧图像的所述重组向量输入至lstm网络,得到所述lstm网络输出所述
目标视频的篡改检测结果。
10.根据本发明的实施例,至少具有如下技术效果:
11.1)本方法使用改进的mesonet网络和lstm网络的组合网络,首先,通过改进的mesonet网络提取帧图像的特征并进行检测分类;然后,将提取的帧图像级别的特征向量、分类结果与预设的权重参数组合成新参数,将目标视频的所有帧图像的新参数输入lstm网络,通过lstm网络在学习时序特征的同时,对帧图像自适应加权,合理的处理目标视频中不同质量帧图像对目标视频的检测影响(即自动学习帧图像之间的时域特征,并自动调整可靠性更高的帧图像所占权重,平衡不同质量和类别的帧图像对目标视频检测影响),提高对目标视频篡改检测精度的可靠性;
12.2)本方法使用改进的mesonet网络和lstm网络的组合网络,将帧图像级别的篡改检测与视频级别的篡改检测分开评估,改进的mesonet网络加强了时域特征在视频取证检测中的作用,同时避免了参数后传过程对帧图像级的lstm网络参数影响;
13.3)本方法使用改进的mesonet网络是基于mesonet网络进行改进,相较于现有使用的cnn或gan检测网络,本网络具有比较少的网络层数和参数,可提高对帧图像的特征学习速度;而且相较于从微观和宏观的层面提取面部特征的不足,使用改进的mesonet网络通过提取介观层面图像特征增强其面部特征表述能力;
14.4)本方法考虑帧图像分类结果在参与视频检测时的复杂情况,使用自适应调整单个帧图像的权重参数,代替传统平均化权重给视频篡改检测带来可能误差影响。
15.根据本发明的一些实施例,所述改进的mesonet网络中的第一层子网络至第三层子网络均包括依次连接的卷积层、标准化层以及池化层,其中所述第一层子网络的卷积核为3*3,池化层的核大小为2*2;所述第二层子网络的卷积核为3*3,池化层的核大小为2*2;所述第三层子网络的卷积核为5*5,池化层的核大小为2*2;两个所述第四层子网络的卷积核均为5*5。
16.根据本发明的一些实施例,所述根据预设的自适应权重、所述帧图像的特征向量和分类结果计算得到所述帧图像的重组向量包括:
17.xi=wi+li+vi18.其中,所述xi表示第i张帧图像的重组向量,所述wi表示预设的第i张帧图像的自适应权重,所述vi表示第i张帧图像的特征向量,所述li表示第i张帧图像的分类结果。
19.根据本发明的一些实施例,所述wi初始值使用随机参数生成。
20.根据本发明的一些实施例,所述lstm网络包括三层双向叠加循环网络和一层维度大小为512的单向隐藏层。
21.根据本发明的一些实施例,所述lstm网络通过sigmoid函数得到所述目标视频的篡改检测结果,所述sigmoid函数包括:
22.根据本发明的一些实施例,所述从目标视频中筛选出多张包含人脸面部区域的帧图像,包括:
23.通过openface逐帧检测所述目标视频中的人脸面部区域,并每隔十帧保留一张包含人脸面部区域的帧图像,对保留的所述帧图像进行裁剪。
24.本发明的第二方面,提供了一种基于mesonet和lstm的面部视频篡改检测系统,包
括:
25.帧图像获取模块,用于从目标视频中筛选出多张包含人脸面部区域的帧图像;
26.帧图像特征提取和分类模块,用于构建改进的mesonet网络,所述改进的mesonet网络包括依次连接的前三层子网络和两个并列设置的第四层子网络,两个所述第四层子网络均包括依次连接的卷积层、标准化层以及池化层,其中一个所述第四层子网络的池化层的核大小为2*2,另一个所述第四层子网络的池化层的核大小为4*4;将所述帧图像输入至所述改进的mesonet网络,得到所述改进的mesonet网络输出所述帧图像的特征向量以及分类结果;
27.向量重组模块,用于根据预设的自适应权重、所述帧图像的特征向量和分类结果计算得到所述帧图像的重组向量;
28.视频篡改检测模块,用于将所有所述帧图像的所述重组向量输入至lstm网络,得到所述lstm网络输出所述目标视频的篡改检测结果。
29.根据本发明的实施例,至少具有如下技术效果:
30.1)本系统使用改进的mesonet网络和lstm网络的组合网络,首先,通过改进的mesonet网络提取帧图像的特征并进行检测分类;然后,将提取的帧图像级别的特征向量、分类结果与预设的权重参数组合成新参数,将目标视频的所有帧图像的新参数输入lstm网络,通过lstm网络在学习时序特征的同时,对帧图像自适应加权,合理的处理目标视频中不同质量帧图像对目标视频的检测影响(即自动学习帧图像之间的时域特征,并自动调整可靠性更高的帧图像所占权重,平衡不同质量和类别的帧图像对目标视频检测影响),提高对目标视频篡改检测精度的可靠性;
31.2)本系统使用改进的mesonet网络和lstm网络的组合网络,将帧图像级别的篡改检测与视频级别的篡改检测分开评估,改进的mesonet网络加强了时域特征在视频取证检测中的作用,同时避免了参数后传过程对帧图像级的lstm网络参数影响;
32.3)本系统使用改进的mesonet网络是基于mesonet网络进行改进,相较于现有使用的cnn或gan检测网络,本网络具有比较少的网络层数和参数,可提高对帧图像的特征学习速度;而且相较于从微观和宏观的层面提取面部特征的不足,使用改进的mesonet网络通过提取介观层面图像特征增强其面部特征表述能力;
33.4)本系统考虑帧图像分类结果在参与视频检测时的复杂情况,使用自适应调整单个帧图像的权重参数,代替传统平均化权重给视频篡改检测带来可能误差影响。
34.本发明的第三方面,提供了一种基于mesonet和lstm的面部视频篡改检测设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上述的基于mesonet和lstm的面部视频篡改检测方法。
35.本发明的第四方面,一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述的基于mesonet和lstm的面部视频篡改检测方法。
36.需要注意的是,本发明的第三方面至第四方面与现有技术之间的有益效果与上述的基于mesonet和lstm的面部视频篡改检测方法与现有技术之间的有益效果相同,此处不
再细述。
37.本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
38.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
39.图1是本发明一个实施例提供的基于mesonet和lstm的面部视频篡改检测系统的结构示意图;
40.图2是本发明一个实施例提供的基于mesonet和lstm的面部视频篡改检测方法的流程示意图;
41.图3是mesonet网络的结构示意图;
42.图4是本发明另一个实施例提供的基于mesonet和lstm的面部视频篡改检测方法的流程示意图;
43.图5是本发明另一个实施例提供的基于mesonet和lstm的面部视频篡改检测方法的流程示意图;
44.图6是本发明一个实施例提供的改进的mesonet网络的结构示意图;
45.图7是本发明一个实施例提供的lstm网络的结构示意图。
具体实施方式
46.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
47.目前基于deepfake的面部视频篡改检测(也称真伪鉴别、真伪分类、真伪决策等)工作,一般都是从对视频的帧图像的取证研究作为出发点,通过大量帧图像的真伪衡量视频的真伪。而对于视频来说,如果仅从帧图像的角度对其进行鉴别,就要很好的处理帧图像与视频的关系。目前比较主流的做法是,通过对视频中包含人脸的图像进行部分保存和裁剪,通过卷积神经网络或者其他机器学习模型进行特征提取与分类,然后平均化一个视频中所用到的所有帧图像在视频鉴别时所占的权重,实际上这种做法对鉴别视频来说是一种极为不公平的评估方法。一方面,视频中会存在比较模糊的面部图像,一般对比较模糊的图像的篡改检测很容易会有误差;另一方面,如果一个视频中出现多个人物面部,或者一张帧画面中存在多个人物面部信息,然而其中仅有部分面部信息是被篡改的,基于随机或间隔原则挑选的画面,使用平均权重的方法不能很好的评估一个视频的真伪。
48.为了解决上述技术缺陷,参照图1至图2,本发明的一个实施例,提供了一种基于mesonet和lstm(long short term memory)的面部视频篡改检测系统,系统包括:帧图像获取模块100、帧图像特征提取和分类模块200、向量重组模块300以及视频篡改检测模块400。本系统用于执行一种基于mesonet和lstm的面部视频篡改检测方法,包括如下步骤:
49.步骤s101、从目标视频中筛选出多张包含人脸面部区域的帧图像。本步骤由帧图像获取模块100执行,在一些实施例中,帧图像获取模块100使用openface对目标视频中的
面部帧图像进行检测和裁剪。需要注意的是,在本文中,通过面部帧图像表示包含人脸面部区域的帧图像。
50.步骤s102、构建改进的mesonet网络,改进的mesonet网络包括级联的前三层子网络和两个并列设置的第四层子网络,两个第四层子网络均包括依次连接的卷积层、标准化层以及池化层,其中一个第四层子网络的池化层大小为2*2,另一个第四层子网络池化层大小为4*4;将帧图像输入至改进的mesonet网络中,得到改进的mesonet网络输出的帧图像的特征向量以及分类结果。本步骤由帧图像特征提取和分类模块200执行。如图3所示,原mesonet网络为基于cnn(卷积神经网络)的变体网络。如图6所示,本方法在原mesonet网络的基础上进行改进,在mesonet网络的第三层子网络后新增加一个分支网络,即形成两个并列设置的第四层子网络,两个第四层子网络均包括依次连接的卷积层、标准化层以及池化层,新增的第四层子网络的池化层大小为2*2,以使新增的第四层子网络用于输出帧图像的特征向量;原有的第四层子网络的池化层不变,大小为4*4,用于输出帧图像的分类结果。
51.在一具体示例中,改进的mesonet网络中的第一层子网络至第三层子网络均包括依次连接的卷积层、标准化层以及池化层,其中第一层子网络的卷积核为3*3,池化层的核大小为2*2;第二层子网络的卷积核为3*3,池化层的核大小为2*2;第三层子网络的卷积核为5*5,池化层的核大小为2*2;两个第四层子网络的卷积核均为5*5。在本实施例中,在原mesonet网络基础上,更改第二层子网络的卷积核的大小为3*3,这样能够防止在初始阶段丢失特征信息。
52.步骤s103、根据预设的自适应权重、帧图像的特征向量以及分类结果计算得到帧图像的重组向量。本步骤由向量重组模块300执行。在一些实施例中,重组向量通过如下公式进行表示:
53.xi=wi+li+vi54.其中,xi表示第i张帧图像的重组向量,wi表示预设的第i张帧图像的自适应权重,vi表示第i张帧图像的特征向量,li表示第i张帧图像的分类结果;wi初始值使用随机参数生成。在上述公式中,将预设的自适应权重、帧图像的特征向量以及分类结果相加得到重组向量,在改进的mesonet网络输出帧图像的分类结果li的基础上,增加帧图像的特征向量vi和一个用于表示帧图像在评估目标视频篡改检测分类时所占权重大小的自适应权重wi。通过重组向量能使lstm网络对面部帧图像自适应加权,合理的处理目标视频中不同质量帧图像对视频的检测影响。
55.步骤s104、将所有帧图像的重组向量输入至lstm网络,得到lstm网络输出的目标视频的分类结果。本步骤由视频篡改检测模块400执行。lstm网络是基于rnn(循环神经网络)的一种变体网络。在一些实施例中,参照图7,lstm网络包括三层双向叠加循环网络和一层维度大小为512的单向隐藏层。lstm网络通过sigmoid函数得到所述目标视频的篡改检测结果:r表示目标视频的检测评估分数,介于0到1之间,0代表视频为假,1代表为真;σ(
·
)表示sigmoid函数。
56.本方法相比现有技术,具有以下优点:
57.本方法首先基于mesonet网络进行改进,在mesonet网络的第三层子网络后增设一个第四层子网络,使得其中一个第四层子网络输出图像的特征向量,另一个第四层子网络
与mesonet网络一致,输出图像的分类结果;然后为每一张帧图像预设一个对应自适应权重,用于调整后续lstm网络对目标视频的篡改检测影响,将自适应权重与帧图像的特征向量以及分类结果进行重组,得到每一张帧图像对应重组向量;最后将所有帧图像的重组向量作为特征共同输入至lstm网络,通过lstm网络实现特征融合和权重自适应调整,直至完成目标视频的篡改检测。
58.1)本方法使用改进的mesonet网络和lstm网络的组合网络,首先,通过改进的mesonet网络提取面部帧图像的特征并进行检测分类;然后,将提取的帧图像级别的特征向量、分类结果与预设的权重参数组合成新参数,将目标视频的所有帧图像的新参数输入lstm网络,通过lstm网络在学习时序特征的同时,对面部帧图像自适应加权,合理的处理目标视频中不同质量帧图像对目标视频的检测影响(即自动学习帧图像之间的时域特征,并自动调整可靠性更高的帧图像所占权重,平衡不同质量和类别的帧图像对目标视频检测影响),提高对目标视频篡改检测精度的可靠性。
59.2)本方法使用改进的mesonet网络和lstm网络的组合网络,将帧图像级别的篡改检测与视频级别的篡改检测分开评估,lstm网络加强了时域特征在视频取证检测中的作用,同时避免了参数后传过程对帧图像级的改进的mesonet网络参数影响。
60.3)本方法使用改进的mesonet网络是基于mesonet网络进行改进,相较于现有使用的cnn或gan检测网络,本网络具有比较少的网络层数和参数,可提高对帧图像的特征学习速度;而且相较于从微观和宏观的层面提取面部特征的不足,使用改进的mesonet网络通过提取介观层面图像特征增强其面部特征表述能力。
61.4)本方法考虑面部帧图像分类结果在参与视频检测时的复杂情况,使用自适应调整单个帧图像的权重参数,代替传统平均化权重给视频篡改检测带来可能误差影响。
62.5)本方法使用了改进的mesonet网络,还将第二层子网络的卷积核的大小设置为3*3,以防止在初始阶段丢失特征信息。
63.参照图4至图7,本发明的一个实施例,提供了一种基于mesonet和lstm的面部视频篡改检测方法,包括如下步骤:
64.步骤s201、从视频序列中获取训练和测试的数据集;数据集包含人脸面部区域的帧图像,即面部帧图像。
65.步骤s202、对数据集进行预处理;使用openface对视频中的面部帧图像进行检测和裁剪,对裁剪得到的面部帧图像标签化处理。
66.步骤s203、搭建改进的mesonet网络;参照图4和图6,对原mesonet网络进行了两处改进:一方面,更改第二层子网络的卷积核的大小为3*3,防止在初始阶段丢失特征信息;另一方面,在原mesonet网络的第三层子网络后增加一个新的分支网络,改变第四层的池化层大小为2*2,该分支网络将输出一个特征向量vi,用于后续目标视频的分类学习特征,原mesonet网络作为对面部帧图像的分类模型继续输出对输入的面部帧图像的是否篡改的分类结果li。改进的mesonet网络的两个分支,一个输出图像的特征向量,一个输出图像的分类检测结果。
67.步骤s204、对特征向量进行重组;在特征向量vi的基础上增加li、wi两个参数,分别代表面部帧图像的分类结果(fake/real)、该面部帧图像在评估目标视频篡改检测时所占权重大小。
68.步骤s205、将重组向量作为特征输入基于rnn的lstm网络;参照图4,经训练后,lstm网络对来自改进的mesonet网络生成的面部帧图像特征,进一步学习参数vi自适应调整,最后对视频进行真伪检测。
69.本方法相比现有技术,具有以下优点:
70.1)本方法使用改进的mesonet网络和lstm网络的组合网络,首先,通过改进的mesonet网络提取面部帧图像的特征并进行检测分类;然后,将提取的帧图像级别的特征向量、分类结果与预设的权重参数组合成新参数,将目标视频的所有帧图像的新参数输入lstm网络,通过lstm网络在学习时序特征的同时,对面部帧图像自适应加权,合理的处理目标视频中不同质量帧图像对目标视频的检测影响(即自动学习帧图像之间的时域特征,并自动调整可靠性更高的帧图像所占权重,平衡不同质量和类别的帧图像对目标视频检测影响),提高对目标视频篡改检测精度的可靠性。
71.2)本方法使用改进的mesonet网络和lstm网络的组合网络,将帧图像级别的篡改检测与视频级别的篡改检测分开评估,lstm网络加强了时域特征在视频取证检测中的作用,同时避免了参数后传过程对帧图像级的改进的mesonet网络参数影响。
72.3)本方法使用改进的mesonet网络是基于mesonet网络进行改进,相较于现有使用的cnn或gan检测网络,本网络具有比较少的网络层数和参数,可提高对帧图像的特征学习速度;而且相较于从微观和宏观的层面提取面部特征的不足,使用改进的mesonet网络通过提取介观层面图像特征增强其面部特征表述能力。
73.4)本方法考虑面部帧图像分类结果在参与视频检测时的复杂情况,使用自适应调整单个帧图像的权重参数,代替传统平均化权重给视频篡改检测带来可能误差影响。
74.5)本方法使用了改进的mesonet网络,还将第二层子网络的卷积核的大小设置为3*3,以防止在初始阶段丢失特征信息。
75.参照图4至图7,本发明的一个实施例,提供一种基于mesonet和lstm的面部视频篡改检测方法,包括:
76.对视频中的帧画面进行人脸检测,openface将输入的视频,逐帧检测人脸画面,并每隔十帧保留一张面部帧图像,并将该帧的面部及周围的小范围区域裁剪保存。
77.搭建改进的mesonet网络,对其经改进后,实现两个功能,一是对每一个输入的面部帧图像fi输出一个面部特征表示向量vi,二是输出该面部帧图像的分类结果li。
78.为每一面部帧图像,通过随机参数生成自适应权重ωi,将自适应权重ωi、特征向量vi以及分类结果li组合成重组向量。
79.搭建lstm网络,该网络通过重组向量,进行特征循环学习,最终对视频做出真伪决策。
80.以下为详细说明:
81.将大小为256*256*3的面部帧图像输入网络,进行面部特征提取;
82.改进的mesonet网络的第三层子网络的池化层核大小为2*2;第四层子网络包括两个分支网络t-1和t-2;
83.分支网络t-1保持原mesonet网络的参数结构不变,其输出一个帧级的分类结果li;
84.分支网络t-2的池化层核大小为2*2,其输出维度大小为2048的特征向量vi;
85.vi和li对应同一面部帧图像的特征向量和分类结果。
86.经过改进的mesonet网络对面部帧图像进行特征提取和鉴别分类之后,需要通过面部帧图像的特征检测视频的真伪,在理想情况下,只有尽可能多的融合所有帧图像的特征,才能对视频进行更可靠的检测。
87.考虑到平均化帧图像对视频真伪的检测影响,很可能得到可信性度不高的检测结果,本实施例使用自适应权重的方式,为来自改进的mesonet网络的每一帧图像的特征向量增加权重参数wi,用来调整其对视频检测的影响;
88.设重组向量xi=wi+li+vi,其中wi维度大小为1,li维度大小为1,vi维度大小为2048,i代表视频中的第i张帧图像;
89.lstm网络包括三层双向叠加循环网络和一层维度大小为512的单向隐藏层。
90.来自同一视频的所有面部帧图像重组向量xi,(其中i=0,1,
···
n),作为特征输入到具有特征融合和权重自适应调整功能的lstm网络中;
91.因为wi、li、vi之间有非常强的关联性,lstm网络将会自动提取有用特征,最终用于视频的篡改检测中;
92.wi使用随机参数初始化,通过端到端的训练方式,lstm网络将会给每一个参与特征融合的wi自适应调整其大小;最终通过sigmoid函数得到对视频的篡改检测结果:
93.本发明还提供一种计算机设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现:
94.如上述的基于mesonet和lstm的面部视频篡改检测方法。
95.处理器和存储器可以通过总线或者其他方式连接。
96.存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
97.实现上述实施例的基于mesonet和lstm的面部视频篡改检测方法所需的非暂态软件程序以及指令存储在存储器中,当被处理器执行时,执行上述实施例中的基于mesonet和lstm的面部视频篡改检测方法。
98.本技术还提供一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行:
99.如上述的基于mesonet和lstm的面部视频篡改检测方法。
100.该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个处理器或控制器执行,例如,被上述电子设备实施例中的一个处理器执行,可使得上述处理器执行上述实施例中的基于mesonet和lstm的面部视频篡改检测方法。
101.本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为
由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储数据(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的数据并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何数据递送介质。
102.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
103.尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
技术特征:1.一种基于mesonet和lstm的面部视频篡改检测方法,其特征在于,包括如下步骤:从目标视频中筛选出多张包含人脸面部区域的帧图像;构建改进的mesonet网络,所述改进的mesonet网络包括依次连接的前三层子网络和两个并列设置的第四层子网络,两个所述第四层子网络均包括依次连接的卷积层、标准化层以及池化层,其中一个所述第四层子网络的池化层的核大小为2*2,另一个所述第四层子网络的池化层的核大小为4*4;将所述帧图像输入至所述改进的mesonet网络,得到所述改进的mesonet网络输出所述帧图像的特征向量以及分类结果;根据预设的自适应权重、所述帧图像的特征向量和分类结果计算得到所述帧图像的重组向量;将所有所述帧图像的所述重组向量输入至lstm网络,得到所述lstm网络输出所述目标视频的篡改检测结果。2.根据权利要求1所述的基于mesonet和lstm的面部视频篡改检测方法,其特征在于,所述改进的mesonet网络中的第一层子网络至第三层子网络均包括依次连接的卷积层、标准化层以及池化层,其中所述第一层子网络的卷积核为3*3,池化层的核大小为2*2;所述第二层子网络的卷积核为3*3,池化层的核大小为2*2;所述第三层子网络的卷积核为5*5,池化层的核大小为2*2;两个所述第四层子网络的卷积核均为5*5。3.根据权利要求1所述的基于mesonet和lstm的面部视频篡改检测方法,其特征在于,所述根据预设的自适应权重、所述帧图像的特征向量和分类结果计算得到所述帧图像的重组向量包括:x
i
=w
i
+l
i
+v
i
其中,所述x
i
表示第i张帧图像的重组向量,所述w
i
表示预设的第i张帧图像的自适应权重,所述v
i
表示第i张帧图像的特征向量,所述l
i
表示第i张帧图像的分类结果。4.根据权利要求3所述的基于mesonet和lstm的面部视频篡改检测方法,其特征在于,所述w
i
初始值使用随机参数生成。5.根据权利要求3所述的基于mesonet和lstm的面部视频篡改检测方法,其特征在于,所述lstm网络包括三层双向叠加循环网络和一层维度大小为512的单向隐藏层。6.根据权利要求5所述的基于mesonet和lstm的面部视频篡改检测方法,其特征在于,所述lstm网络通过sigmoid函数得到所述目标视频的篡改检测结果,所述sigmoid函数包括:7.根据权利要求1至6任一项所述的基于mesonet和lstm的面部视频篡改检测方法,其特征在于,所述从目标视频中筛选出多张包含人脸面部区域的帧图像,包括:通过openface逐帧检测所述目标视频中的人脸面部区域,并每隔十帧保留一张包含人脸面部区域的帧图像,对保留的所述帧图像进行裁剪。8.一种基于mesonet和lstm的面部视频篡改检测系统,其特征在于,包括:帧图像获取模块,用于从目标视频中筛选出多张包含人脸面部区域的帧图像;帧图像特征提取和分类模块,用于构建改进的mesonet网络,所述改进的mesonet网络包括依次连接的前三层子网络和两个并列设置的第四层子网络,两个所述第四层子网络均包括依次连接的卷积层、标准化层以及池化层,其中一个所述第四层子网络的池化层的核
大小为2*2,另一个所述第四层子网络的池化层的核大小为4*4;将所述帧图像输入至所述改进的mesonet网络,得到所述改进的mesonet网络输出所述帧图像的特征向量以及分类结果;向量重组模块,用于根据预设的自适应权重、所述帧图像的特征向量和分类结果计算得到所述帧图像的重组向量;视频篡改检测模块,用于将所有所述帧图像的所述重组向量输入至lstm网络,得到所述lstm网络输出所述目标视频的篡改检测结果。9.一种基于mesonet和lstm的面部视频篡改检测设备,其特征在于,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的基于mesonet和lstm的面部视频篡改检测方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于mesonet和lstm的面部视频篡改检测方法。
技术总结本发明公开了一种基于MesoNet和LSTM的面部视频篡改检测方法,通过改进的MesoNet网络提取帧图像的特征并进行分类;将提取的特征、分类结果与预设权重组合成新参数,将所有帧图像的新参数输入LSTM网络,使LSTM网络对帧图像自适应加权,处理目标视频中不同质量帧图像对目标视频的检测影响,提高对目标视频篡改检测精度的可靠性;将帧图像级别的篡改检测与视频级别的篡改检测分开评估,LSTM网络加强了时域特征在视频取证检测中的作用,也避免了参数后传过程对帧图像级的改进的MesoNet网络参数影响;而且改进的MesoNet网络具有比较少的网络层数和参数,可提高特征学习速度,还能增强其面部特征表述能力。面部特征表述能力。面部特征表述能力。
技术研发人员:章登勇 吴鹏杰 李峰 彭建 蒲怀建
受保护的技术使用者:长沙理工大学
技术研发日:2022.03.31
技术公布日:2022/7/5