1.本发明属于计算机视觉与模式识别技术领域,涉及时序动作定位领域,特别涉及一种基于集合预测的时序动作定位方法、系统、设备及介质。
背景技术:2.伴随着视频数据的快速增长,视频内容理解技术日渐成熟,成为计算机视觉领域的一个活跃的研究方向;其中,时序动作定位旨在定位动作实例的时序位置以及识别它们的类别,具有越来越大的理论研究价值与实际应用价值。
3.目前大多数的时序动作定位方法均采用双阶段定位机制,即第一阶段生成类不可知的动作提案,一般利用预先定义的锚或匹配开始边界和结束边界来生成动作提案;第二阶段为动作提案分类和边界调整;随后利用非极大值抑制来移除重复冗余的检测结果。
4.基于上述陈述可知,尽管现有方法实现了卓越的性能,但它们仍然需要在第一阶段生成几乎穷举的动作提案列表来实现高召回率。需要强调的是,基于锚的动作提案生成方法需要在每个视频片段位置放置不同尺寸的锚来覆盖各种长度的动作,基于边界的动作提案生成方法也需要匹配所有可能的动作开始位置和动作结束位置生成动作提案。如此大量的动作提案会造成后续分类和边界调整的计算负担,且在推理阶段,非极大值抑制是必不可少的环节,但是由于非极大值抑制不参与网络的训练过程,这势必会造成与网络的不协调。
5.综上,亟需一种新的基于集合预测的时序动作定位方法、系统、设备及介质。
技术实现要素:6.本发明的目的在于提供一种基于集合预测的时序动作定位方法、系统、设备及介质,以解决上述存在的一个或多个技术问题。本发明提供的技术方案中,首次提出将定位动作实例问题视为动作关键视频片段检测问题,避免了大量类不可知的动作提案的生成,也不需要非极大值抑制操作,最终可提高推理速度同时实现优异的时序动作定位性能。
7.为达到上述目的,本发明采用以下技术方案:
8.本发明提供的一种基于集合预测的时序动作定位方法,包括以下步骤:
9.获取待时序动作定位的视频序列,分解为若干视频片段并分别编码,获取编码后的视频特征序列;
10.将编码后的视频特征序列的每个视频片段进行混合位置编码,获得混合位置编码后的视频特征序列;其中,所述混合位置编码用于将每个视频片段的时序位置信息编码至原始特征内;
11.将混合位置编码后的视频特征序列输入预训练好的transformer编码器,获得全局融合后的视频特征序列;其中,所述预训练好的transformer编码器用于将视频全局特征与每个视频片段特征融合;
12.将全局融合后的视频特征序列输入预训练好的分类网络,获得关键视频片段以及
每个视频片段的分类分数;将全局融合后的视频特征序列输入预训练好的动作定位网络,获得动作实例的开始和结束边界偏移量;将全局融合后的视频特征序列输入预训练好的背景定位网络,获得背景实例的两个边界的偏移量。
13.本发明的进一步改进在于,所述将编码后的视频特征序列的每个视频片段进行混合位置编码,获得混合位置编码后的视频特征序列的步骤具体包括:
14.将所述视频特征序列输入预训练好的卷积神经网络,预测获得每个视频片段的动作概率、开始概率和结束概率,获得预训练好的卷积神经网络优化后的视频特征序列;其中,所述动作概率用于表示视频片段属于动作的持续阶段的可能性,所述开始概率用于表示视频片段属于动作的开始阶段的可能性,所述结束概率用于表示视频片段属于动作的结束阶段的可能性。
15.本发明的进一步改进在于,所述混合位置编码的过程具体表示为:
16.p
t,4i
=sin((t-1)/10000
4i/d
),
17.p
t,4i+1
=cos((t-1)/10000
4i/d
),
18.p
t,4i+2
=sin((t-1)/t/10000
4i/d
),
19.p
t,4i+3
=cos((t-1)/t/10000
4i/d
),
20.式中,d为每个视频片段特征的维度,t和i分别表示视频片段的时序位置索引和特征维度索引,t表示视频序列长度,p为t时刻下的视频片段的混合位置编码信息。
21.本发明的进一步改进在于,所述预训练好的transformer编码器为标准的transformer编码器;所述标准的transformer编码器包含两个残差结构的线性映射层和一个自注意力模块。
22.本发明的进一步改进在于,所述将全局融合后的视频特征序列输入预训练好的分类网络,获得关键视频片段以及每个视频片段的分类分数的步骤具体包括:
23.采用由三层卷积神经网络组成的分类网络;训练分类网络的损失函数为匈牙利损失函数,以及focal loss和giou组成的匹配损失函数;
24.将全局融合后的视频特征序列输入预训练好的分类网络,获得每个视频片段的分类分数,并利用二部匹配法获得关键视频片段。
25.本发明的进一步改进在于,所述将全局融合后的视频特征序列输入预训练好的动作定位网络,获得动作实例的开始和结束边界偏移量的步骤具体包括:
26.采用由三层卷积神经网络组成的动作定位网络,训练动作定位网络的损失函数为匈牙利损失函数和一对多的回归损失函数;
27.将全局融合后的视频特征序列输入预训练好的动作定位网络,获得动作实例的开始边界和结束边界的偏移量。
28.本发明的进一步改进在于,所述将全局融合后的视频特征序列输入预训练好的背景定位网络,获得背景实例的两个边界的偏移量的步骤具体包括:
29.采用由三层卷积神经网络组成的背景定位网络,训练背景定位网络的损失函数为匈牙利损失函数和一对多的回归损失函数;
30.将全局融合后的视频特征序列输入预训练好的背景定位网络,获得背景实例的开始边界和结束边界的偏移量。
31.本发明提供的一种基于集合预测的时序动作定位系统,包括:
32.视频特征序列获取模块,用于获取待时序动作定位的视频序列,分解为若干视频片段并分别编码,获取编码后的视频特征序列;
33.混合位置编码模块,用于将编码后的视频特征序列的每个视频片段进行混合位置编码,获得混合位置编码后的视频特征序列;其中,所述混合位置编码用于将每个视频片段的时序位置信息编码至原始特征内;
34.融合模块,用于将混合位置编码后的视频特征序列输入预训练好的transformer编码器,获得全局融合后的视频特征序列;其中,所述预训练好的transformer编码器用于将视频全局特征与每个视频片段特征融合;
35.结果获取模块,用于将全局融合后的视频特征序列输入预训练好的分类网络,获得关键视频片段以及每个视频片段的分类分数;将全局融合后的视频特征序列输入预训练好的动作定位网络,获得动作实例的开始和结束边界偏移量;将全局融合后的视频特征序列输入预训练好的背景定位网络,获得背景实例的两个边界的偏移量。
36.本发明提供的一种电子设备,包括:处理器;存储器,用于存储计算机程序指令;所述计算机程序指令由所述处理器加载并运行时,所述处理器执行本发明任一项所述的基于集合预测的时序动作定位方法。
37.本发明提供的一种可读存储介质,所述可读存储介质存储有计算机程序指令,所述计算机程序指令被处理器加载并运行时,所述处理器执行本发明任一项所述的基于集合预测的时序动作定位方法。
38.与现有技术相比,本发明具有以下有益效果:
39.本发明具体解决一个在时序动作定位领域中相对未被探索的问题,即大量的动作提案的生成造成计算的低效性,进而导致在推理过程中必须采用没有参与训练的非极大值抑制操作处理冗余的动作提案,使得训练与推理过程的不协调,导致次优的时序动作定位性能。针对上述问题,本发明提供的技术方案中重新构造了时序动作定位框架,将其视为一个集合预测问题,即直接检测动作实例的关键视频片段,生成一个关键视频片段的集合作为时序动作定位的结果,而不需要生成过量的动作提案和非极大值抑制操作。本发明的基于集合预测的时序动作定位方法旨在检测动作实例的关键视频片段,其是一个包含动作最具鉴别性运动特征的小的时序窗口,同时为该关键视频片段预测其动作类别和边界偏移量,进而得到最终的时序动作定位结果,可提高推理速度同时实现优异的时序动作定位性能。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图做简单的介绍;显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来说,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本发明实施例的一种基于集合预测的时序动作定位方法的流程示意框图;
42.图2是本发明实施例的一种基于集合预测的时序动作定位系统的定位框架示意图;
43.图3是本发明实施例的一种基于集合预测的时序动作定位系统的网络结构示意
图;
44.图4是本发明实施例中,时序动作定位的检测结果定性结果示意图。
具体实施方式
45.为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
46.需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
47.下面结合附图对本发明做进一步详细描述:
48.请参阅图1,本发明实施例的一种基于集合预测的时序动作定位方法,包括以下步骤:
49.将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;
50.基于所述视频特征序列,对其进一步编码局部和全局信息。采用一个多层卷积神经网络进一步提取视频片段的高级语义信息。随后,利用混合位置编码模块将每个视频片段的绝对和相对位置信息融入每个视频片段特征,利用transformer编码器将视频的全局信息融入每个视频片段特征,获得新的视频特征序列;
51.基于所述新的视频特征序列,分类分支检测每个动作实例的关键视频片段,以及该视频片段的动作类别和边界偏移量,获得时序动作定位结果。
52.请参阅图2,本发明实施例中,所述将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列的步骤具体包括:将待时序动作定位的原始视频序列分解为若干个视频片段,每个视频片段包含原始视频序列固定长度的连续帧;利用一个预训练好的双流网络编码每个视频片段,获得编码后的视频特征序列;其中,所述编码后的视频特征序列包含每个视频片段的rgb信息和相邻片段之间的光流信息。本发明实施例中,所述局部与全局视频特征编码包括:多层卷积神经网络,其包含五层时序卷积层,卷积核大小为5,用于为每个视频片段编码局部上下文信息,三个不同的时序卷积层用于预测每个视频片段是动作,开始和结束的概率;混合位置编码模块用于编码每个视频片段的绝对位置和相对位置信息,以及transformer编码模块编码视频全局信息,这些信息作为新的特征与视频片段特征融合。
53.本发明实施例中,所述分类分支和定位分支,分类分支用于检测动作的关键视频片段,以及为每个视频片段预测其动作类别。定位分支包含一个动作定位分支和背景定位
分支,为每个视频片段产生动作实例的边界偏移量和背景实例的边界偏移量,进而获得最终的时序动作定位结果。所述背景定位分支,为实现精确动作边界定位而特别设计的背景实例学习策略。背景实例定义为两个连续且不重叠的动作实例之间的视频片段,其包含一个或若干个视频片段。背景实例的左边界即为前一个动作实例的结束边界,它的右边界即为后一个动作实例的开始边界。显式地预测背景实例的边界能够帮助分类分支和定位分支学习背景类和预测动作的边界。
54.综上,本发明实施例中,提出将动作实例检测问题视为动作的关键视频片段检测问题,每个动作实例只对应一个视频片段可能造成稀疏的训练信号,使得网络的参数难以充分学习,因此本发明引入一对多的回归损失函数,将动作实例内部所有的视频片段都参与网络学习,这将提供更完整的训练信号来提高整体的性能。本发明实施例具体提供了一种基于集合预测的时序动作定位方法,将一个动作实例表示为单个关键的视频片段,该视频片段包含动作实例最具鉴别性的特征,进而动作实例的类别和时序位置由该关键视频片段的特征决定。
55.请参阅图1,本发明实施例的一种基于集合预测的时序动作定位方法,包括以下步骤:
56.步骤1,已知一个未剪辑的视频序列,为降低计算量,将所述未剪辑的视频序列分解为若干个视频片段,每个视频片段包含固定长度的连续的视频帧。本发明实施例具体的,利用一个预训练好的双流网络作为特征提取器编码每个视频片段,进而得到一个编码后的视频特征序列,其包含视频的每个视频片段的rgb信息和相邻片段之间的光流信息。
57.步骤2,已知步骤1中得到的视频特征序列,对其进行局部与全局信息编码。多层卷积神经网络用于局部编码,使得每个视频片段包含局部上下文信息;混合位置编码模块用于编码每个视频片段的绝对位置信息和相对位置信息;transformer编码模块用于全局信息编码,使得每个视频片段包含视频全局信息。
58.步骤3:已知步骤2获得的局部与全局信息编码的视频特征序列,利用一个分类分支检测动作的关键视频片段和动作类别,动作定位分支和背景定位分支为每个视频片段预测其动作实例或背景实例的边界偏移量。
59.本发明实施例中,步骤1中利用双流网络编码视频序列的具体步骤包括:
60.步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为其中y
act,i
表示第i个动作实例,c
act,i
是动作的类别标签。表示第i个动作实例的开始时间、结束时间,n
act
表示动作实例的数量;
61.步骤1.2,收集背景实例扩充动作实例集合,使网络学习背景信息进一步准确地定位动作。背景实例定义为没有动作发生的连续的的视频片段,它的边界分别是前向动作实例的结束边界和后向动作实例的开始边界,因此背景实例和动作实例共享边界信息。背景实例的集合表示为n
bg
表示背景实例的数量,c
bg,i
定义为背景类。
62.步骤1.3,为了分别探索视频序列的外观和运动信息,对原始视频序列进行编码,以生成视频表示。具体地,本发明实施例将视频序列分解为t个互不重叠的片段,并利用现有技术i3d网络处理每个视频片段,得到其rgb特征向量和光流特征向量。
63.本发明实施例在步骤2中,已知原始的视频特征序列,采用本发明实施例提出局部与全局信息编码视频特征序列,其具体包括以下步骤:
64.步骤2.1,局部信息编码:i3d网络只能提取每个独立的视频片段的外观特征和运动特征,因而忽略了上下文信息。本发明采用一个多层卷积神经网络为每个视频片段编码局部上下文信息,该网络包含五层卷积核为5的时序卷积层。随后,三层不同的时序卷积层作为分类器,分别用于预测动作概率,动作开始概率和动作结束概率,作为辅助目标函数优化网络。训练三个分类器的目标函数表示为,式中,α和β为超参数,l
bl
为二分类逻辑回归损失函数。
65.步骤2.2,混合位置编码:由于transformer编码器具有序列不变性,本发明实施例将视频片段的位置信息编码到视频片段特征中输入至transformer编码器。因为数据集中不同的视频其时序长度有着巨大变化,所以混合位置编码是至关重要的,它编码每个视频片段的绝对位置信息和相对位置信息,进而可以推广至不可见的位置。对于每个视频片段,它的混合位置编码可表示为,
66.p
t,4i
=sin((t-1)/10000
4i/d
),
67.p
t,4i+1
=cos((t-1)/10000
4i/d
),
68.p
t,4i+2
=sin((t-1)/t/10000
4i/d
),
69.p
t,4i+3
=cos((t-1)/t/10000
4i/d
),
70.式中,d为每个视频片段特征的维度,t和i分别表示视频片段索引和维度索引,t表示视频序列长度。
71.步骤2.3,全局信息编码:本发明实施例采用标准的transformer编码器来编码视频全局特征,其包含两个残差结构的线性映射层和一个自注意力模块。
72.本发明实施例在步骤3中,本发明提出基于信息编码的视频特征序列分别滑动分类分支,动作定位分支和背景定位分支来获得最终的检测结果,具体包括以下步骤:
73.步骤3.1,分类分支用于检测动作的关键视频片段和预测每个视频片段的动作类别,动作定位分支和背景定位分支用于预测动作边界和背景边界的偏移量。
74.已知真实的动作实例和背景实例为对于第i个视频片段,两个定位分支预测的动作边界表示为和背景边界表示为由于每个视频片段只可能属于真实的动作实例或背景实例,因而与真实实例匹配的预测边界定义为
[0075][0076]
进而将用于与真实实例匹配的预测值表示为随后利用二部匹配法在t个预测值中搜寻最优的预测(即关键的视频片段)实现最低的匹配损失:
[0077][0078]
式中,表示第t个真实实例(动作实例或背景实例)与第σ(t)个预测值之间的匹配损失。最终,二部匹配能够获得关键视频片段的集合。
[0079]
步骤3.2,目标函数。二部匹配旨在为每个视频片段分配训练标签而避免重复的检测。其中匹配损失函数为分类损失函数和回归损失函数的线性组合:
[0080][0081]
其中λ
cls
为分类损失函数的权重。分类损失函数l
cls
为标准的focal loss,回归损失函数l
reg
为标准的giou损失函数与l1损失函数。
[0082]
本发明实施例进一步提出匈牙利损失函数和一对多的回归损失函数来监督网络训练。其中匈牙利损失函数用于分类和回归所有关键视频片段,其相似于匹配损失函数,表示为,
[0083][0084]
由于每个动作实例和背景实例只包含一个关键视频片段,从而导致稀疏的训练信号。为了缓解这个问题并促进网络学习,引入一对多回归损失:
[0085][0086]
最终集合预测损失函数表示为分类损失函数与一对多回归损失函数的加权和:
[0087]
l
set
=λ
cls
l
cls
+l
o2m
。
[0088]
本发明提出的基于集合预测的时序动作定位方法,将时序动作定位视为动作的关键视频片段学习。通过引入背景实例学习,能够使网络对动作边界更加敏感。此外一对多回归损失函数提供足够的训练信号使定位分支充分学习。
[0089]
综上,与其他方法相比较,本发明实施例公开的方法在时序动作定位任务的评价指标map@tiou上取得显著的性能提升,同时取得了更快的推理速度。
[0090]
请参阅图1,本发明实施例的一种基于集合预测的时序动作定位方法,包括以下步骤:
[0091]
步骤1,利用双流网络编码视频序列。具体建模步骤包括:
[0092]
步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为步骤1.1,已知一个未剪辑的视频序列,定义其包含的真实动作实例集合为其中y
act,i
表示第i个动作实例,c
act,i
是动作的类别标签。表示第i个动作实例的开始时间、结束时间,n
act
表示动作实例的数量。背景实例的集合表示为n
bg
表示背景实例的数量,c
bg,i
定义为背景类。
[0093]
步骤1.2,为了分别探索视频序列的外观和运动信息,对原始视频序列进行编码,以生成视频特征序列。具体地,本发明实施例将视频序列分解为t个互不重叠的片段,并利用现有技术i3d网络处理每个视频片段,得到其rgb特征向量和光流特征向量。
[0094]
步骤2,局部与全局信息编码视频特征序列。具体建模步骤包括:
[0095]
步骤2.1,局部信息编码采用一个多层卷积神经网络为每个视频片段编码局部上下文信息,该网络包含五层卷积核为5的时序卷积层。
[0096]
步骤2.2,混合位置编码。因为数据集中不同的视频其时序长度有着巨大变化,所以混合位置编码是至关重要的,它编码每个视频片段的绝对位置信息和相对位置信息,进而可以推广至不可见的位置。对于每个视频片段,它的混合位置编码可表示为
[0097]
p
t,4i
=sin((t-1)/10000
4i/d
)
[0098]
p
t,4i+1
=cos((t-1)/10000
4i/d
)
[0099]
p
t,4i+2
=sin((t-1)/t/10000
4i/d
)
[0100]
p
t,4i+3
=cos((t-1)/t/10000
4i/d
)
[0101]
其中d为每个视频片段特征的维度,t和i分别表示视频片段索引和维度索引,t表示视频序列长度。因此每个视频片段特征得到新的位置信息。
[0102]
步骤2.3,全局信息编码。本发明采用现有技术,即标准的transformer编码器来编码视频全局特征,其包含两个残差结构的线性映射层和一个自注意力模块。
[0103]
步骤3,分类分支与定位分支。具体包括以下步骤:
[0104]
步骤3.1,分类分支用于检测动作的关键视频片段和预测每个视频片段的动作类别,动作定位分支和背景定位分支用于预测动作边界和背景边界的偏移量。
[0105]
请参阅图3,本发明实施例的一种集合预测的时序动作定位系统,包括:
[0106]
视频特征序列编码模块,用于将待时序动作定位的原始视频序列分解为若干个视频片段并编码,获得编码后的视频特征序列;
[0107]
局部与全局信息编码模块,用于基于所述编码后的视频特征序列,为每个视频片段编码局部和全局上下文信息以及时序位置信息;
[0108]
动作关键视频片段检测模块,用于基于所述局部与全局信息编码的视频特征序列,执行分类分支检测动作的关键视频片段和其动作类别,定位分支生成该动作边界偏移量,获得最终的时序动作定位结果。
[0109]
本发明实施例使用平均精度(map)对提出的方法进行了评价。特别地,对于thumos14和activitynet v1.3,tiou阈值分别来自{0.3、0.4、0.5、0.5、0.6、0.7}和{0.5、0.75、0.95、0.95}。在activitynet v1.3上,本发明报告了10个不同的tiou阈值[0.5:0.05:0.95]的map。
[0110]
表1和表2是不同的方法在用于评价时序动作定位任务的公开数据集thumos14,activitynet v1.3以及charades上的实验结果,由表1和表2可以看出,本发明提出的基于集合预测的时序动作定位方法取得了具有竞争力的定位结果,且具有明显定位性能优势。此外本发明还比较了推理速度,明显地本发明提出的基于集合预测的时序动作定位方法能够显著地降低计算复杂度并提升网络的推理速度。
[0111]
表1.在thumos14数据集和activitynet v1.3数据集上与不同方法的对比结果
[0112][0113]
表2.在charades数据集上与不同方法的对比结果
[0114][0115]
请参阅图4,图4为时序动作定位的两个定性结果,分别为撑杆跳(上)和掷标枪(下)。图4展示了本发明检测到的动作实例(act)和背景实例(bg)以及它们的关键视频片段。定性结果表明本发明提出的方法能够准确地定位动作的关键视频片段和背景实例。
[0116]
综上所述,本发明公开了一种基于集合预测的时序动作定位方法、系统、设备及介质,属于计算机视觉与模式识别领域;所述方法包括以下步骤:基于编码后的视频特征序列,利用预训练好的多层卷积神经网络、混合位置编码模块和transformer编码模块对每个视频片段特征进行局部与全局的信息编码,其目的是使每个视频片段特征融合更多的局部与全局上下文信息以及该视频片段的绝对位置与相对位置信息;随后基于所述编码后的视频特征,采用分类分支检测动作的关键视频片段以及预测它的动作类别,动作定位分支基于每个视频片段特征预测其动作边界偏移量,最终获得精确的时序动作定位结果。本发明提出检测动作的时间视频片段,而不需要生成大量的动作提案和非极大值抑制操作,降低了网络的计算复杂度并提高了网络的推理速度;本发明基于丰富的视频片段特征来检测动作的关键视频片段位置、动作类别以及动作边界偏移,最终提高模型的时序动作定位性能和推理速度。
[0117]
下述为本发明的装置实施例,可以用于执行本发明方法实施例。对于装置实施例中未纰漏的细节,请参照本发明方法实施例。
[0118]
本发明再一实施例中,本发明实施例提供的一种基于集合预测的时序动作定位系统,包括:
[0119]
视频特征序列获取模块,用于获取待时序动作定位的视频序列,分解为若干视频片段并分别编码,获取编码后的视频特征序列;
[0120]
混合位置编码模块,用于将编码后的视频特征序列的每个视频片段进行混合位置编码,获得混合位置编码后的视频特征序列;其中,所述混合位置编码用于将每个视频片段的时序位置信息编码至原始特征内;
[0121]
融合模块,用于将混合位置编码后的视频特征序列输入预训练好的transformer编码器,获得全局融合后的视频特征序列;其中,所述预训练好的transformer编码器用于将视频全局特征与每个视频片段特征融合;
[0122]
结果获取模块,用于将全局融合后的视频特征序列输入预训练好的分类网络,获得关键视频片段以及每个视频片段的分类分数;将全局融合后的视频特征序列输入预训练好的动作定位网络,获得动作实例的开始和结束边界偏移量;将全局融合后的视频特征序列输入预训练好的背景定位网络,获得背景实例的两个边界的偏移量。
[0123]
本发明再一个实施例中,提供了一种计算机设备,该计算机设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于
执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行计算机存储介质内一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于基于集合预测的时序动作定位方法的操作。
[0124]
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(memory),所述计算机可读存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速ram存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关基于集合预测的时序动作定位方法的相应步骤。
[0125]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0126]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0127]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0128]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0129]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然
可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
技术特征:1.一种基于集合预测的时序动作定位方法,其特征在于,包括以下步骤:获取待时序动作定位的视频序列,分解为若干视频片段并分别编码,获取编码后的视频特征序列;将编码后的视频特征序列的每个视频片段进行混合位置编码,获得混合位置编码后的视频特征序列;其中,所述混合位置编码用于将每个视频片段的时序位置信息编码至原始特征内;将混合位置编码后的视频特征序列输入预训练好的transformer编码器,获得全局融合后的视频特征序列;其中,所述预训练好的transformer编码器用于将视频全局特征与每个视频片段特征融合;将全局融合后的视频特征序列输入预训练好的分类网络,获得关键视频片段以及每个视频片段的分类分数;将全局融合后的视频特征序列输入预训练好的动作定位网络,获得动作实例的开始和结束边界偏移量;将全局融合后的视频特征序列输入预训练好的背景定位网络,获得背景实例的两个边界的偏移量。2.根据权利要求1所述的一种基于集合预测的时序动作定位方法,其特征在于,所述将编码后的视频特征序列的每个视频片段进行混合位置编码,获得混合位置编码后的视频特征序列的步骤具体包括:将所述视频特征序列输入预训练好的卷积神经网络,预测获得每个视频片段的动作概率、开始概率和结束概率,获得预训练好的卷积神经网络优化后的视频特征序列;其中,所述动作概率用于表示视频片段属于动作的持续阶段的可能性,所述开始概率用于表示视频片段属于动作的开始阶段的可能性,所述结束概率用于表示视频片段属于动作的结束阶段的可能性。3.根据权利要求1或2所述的一种基于集合预测的时序动作定位方法,其特征在于,所述混合位置编码的过程具体表示为:p
t,4i
=sin((t-1)/10000
4i/d
),p
t,4i+1
=cod((t-1)/10000
4i/d
),p
t,4i+2
=sin((t-1)/t/10000
4i/d
),p
t,4i+3
=cod((t-1)/f/10000
4i/d
),式中,d为每个视频片段特征的维度,t和i分别表示视频片段的时序位置索引和特征维度索引,t表示视频序列长度,p为t时刻下的视频片段的混合位置编码信息。4.根据权利要求1所述的一种基于集合预测的时序动作定位方法,其特征在于,所述预训练好的transformer编码器为标准的transformer编码器;所述标准的transformer编码器包含两个残差结构的线性映射层和一个自注意力模块。5.根据权利要求1所述的一种基于集合预测的时序动作定位方法,其特征在于,所述将全局融合后的视频特征序列输入预训练好的分类网络,获得关键视频片段以及每个视频片段的分类分数的步骤具体包括:采用由三层卷积神经网络组成的分类网络;训练分类网络的损失函数为匈牙利损失函数,以及focalloss和giou组成的匹配损失函数;将全局融合后的视频特征序列输入预训练好的分类网络,获得每个视频片段的分类分数,并利用二部匹配法获得关键视频片段。
6.根据权利要求1所述的一种基于集合预测的时序动作定位方法,其特征在于,所述将全局融合后的视频特征序列输入预训练好的动作定位网络,获得动作实例的开始和结束边界偏移量的步骤具体包括:采用由三层卷积神经网络组成的动作定位网络,训练动作定位网络的损失函数为匈牙利损失函数和一对多的回归损失函数;将全局融合后的视频特征序列输入预训练好的动作定位网络,获得动作实例的开始边界和结束边界的偏移量。7.根据权利要求1所述的一种基于集合预测的时序动作定位方法,其特征在于,所述将全局融合后的视频特征序列输入预训练好的背景定位网络,获得背景实例的两个边界的偏移量的步骤具体包括:采用由三层卷积神经网络组成的背景定位网络,训练背景定位网络的损失函数为匈牙利损失函数和一对多的回归损失函数;将全局融合后的视频特征序列输入预训练好的背景定位网络,获得背景实例的开始边界和结束边界的偏移量。8.一种基于集合预测的时序动作定位系统,其特征在于,包括:视频特征序列获取模块,用于获取待时序动作定位的视频序列,分解为若干视频片段并分别编码,获取编码后的视频特征序列;混合位置编码模块,用于将编码后的视频特征序列的每个视频片段进行混合位置编码,获得混合位置编码后的视频特征序列;其中,所述混合位置编码用于将每个视频片段的时序位置信息编码至原始特征内;融合模块,用于将混合位置编码后的视频特征序列输入预训练好的transformer编码器,获得全局融合后的视频特征序列;其中,所述预训练好的transformer编码器用于将视频全局特征与每个视频片段特征融合;结果获取模块,用于将全局融合后的视频特征序列输入预训练好的分类网络,获得关键视频片段以及每个视频片段的分类分数;将全局融合后的视频特征序列输入预训练好的动作定位网络,获得动作实例的开始和结束边界偏移量;将全局融合后的视频特征序列输入预训练好的背景定位网络,获得背景实例的两个边界的偏移量。9.一种电子设备,包括:处理器;存储器,用于存储计算机程序指令;其特征在于,所述计算机程序指令由所述处理器加载并运行时,所述处理器执行权利要求1至7中任一项所述的基于集合预测的时序动作定位方法。10.一种可读存储介质,所述可读存储介质存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器加载并运行时,所述处理器执行权利要求1至7中任一项所述的基于集合预测的时序动作定位方法。
技术总结本发明公开了一种基于集合预测的时序动作定位方法、系统、设备及介质,所述方法包括以下步骤:获取编码后的视频特征序列;进行混合位置编码,获得混合位置编码后的视频特征序列;输入预训练好的Transformer编码器,获得全局融合后的视频特征序列;输入预训练好的分类网络,获得关键视频片段以及每个视频片段的分类分数;输入预训练好的动作定位网络,获得动作实例的开始和结束边界偏移量;输入预训练好的背景定位网络,获得背景实例的两个边界的偏移量。本发明能够避免大量类不可知的动作提案的生成,最终可提高推理速度同时实现优异的时序动作定位性能。序动作定位性能。序动作定位性能。
技术研发人员:王乐 翟元浩 周三平 陈仕韬 辛景民 郑南宁
受保护的技术使用者:宁波市舜安人工智能研究院
技术研发日:2022.01.27
技术公布日:2022/7/5