一种基于神经网络视频识别的连续手语识别方法及装置

allin2024-10-18  42



1.本发明涉及视频识别技术领域,尤其是涉及一种基于神经网络视频识别的连续手语识别方法及装置。


背景技术:

2.手语作为聋哑人之间以及聋哑人与健听人之间的重要沟通桥梁,因此手语是非常重要的肢体语言。但是,在一般情况下,健听人是不懂手语的,那么就存在聋哑人和健听人之间的沟通障碍。发展自动化手语识别技术不仅可以为聋哑人带来在日常生活中的帮助,为他们提供沟通和交流的便利,还可以为社会创造出更大的经济价值。手语识别产品可以应用到手语教学,车站导航,自助咨询台等场景,这些场景在未来将成为手语识别产品的巨大的应用市场。
3.随着深度学习的理论和计算机硬件的发展,利用深度神经网络完成手语识别任务成为可能。但是在现有的手语识别深度模型中,往往存在帧与相对应的注释对齐困难的问题,以及缺乏对每一帧的分类特征的忽略。


技术实现要素:

4.有鉴于此,本发明的目的在于提供一种基于神经网络视频识别的连续手语识别方法及装置,以缓解现有技术中对帧与相对应的注释对齐困难的技术问题,增强了对手语特征的描述,有效降低了错误识别的概率。
5.本发明提供了一种基于神经网络视频识别的连续手语识别方法,包括:
6.发送第一指令以获取原始视频,并将所述原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对所述第一视频增加注释标签以获取第二视频;
7.构建resnet18神经网络,发送第二指令以对所述第二视频进行特征提取,获取所述第二视频的分类特征以及时序特征;
8.构造全连接层和softmax层以获取所述第二视频的分类特征,构建transformer模型以获取所述第二视频的时序特征并将所述第二视频的分类特征以及时序特征进行融合;
9.发送第三指令以构建kl散度损失函数模型以及ctc损失函数模型,所述kl散度损失函数模型以及ctc损失函数模型均与所述softmax层相连,获取所述kl散度损失函数模型以及ctc损失函数模型的输出结果以对resnet18神经网络进行训练;
10.利用测试视频对训练完成的resnet18神经网络进行测试;
11.结合图3,其中ctc解码输出部分:使用beam search算法进行解码;然后是移除多余注释输出部分:即根据扩充注释的映射关系,找到最终的输出结果。比如某个注释的标签为1,扩展倍数m=3,那么1则扩充为1,2,3,那么将1,2,3都输出成1对应的注释即可;
12.优选的,采用如下公式表示训练视频:
13.14.采用如下公式表述减少帧的训练视频:
[0015][0016]
其中t中元素个数小于n,即元素为0表示不被选择,选择序列s表示:
[0017][0018]
rate表示设置的概率值。
[0019]
优选的,采用如下公式对所述第一视频增加注释标签以获取第二视频:
[0020]
原始注释序列如下:
[0021][0022]
扩展注释方法如下:
[0023]gi

{gi×
m-(m-1),gi×
m-(m-2),

,gi×
m};
[0024]
其中m为扩展倍数。
[0025]
优选的,所述resnet18神经网络包括依次相连的第一卷积层、池化层、第一残差块、第二残差块、第三残差块、第四残差块、第五残差块、第六残差块、第七残差块以及第八残差块;
[0026]
所述第一卷积层的用于向所述池化层进行过渡;
[0027]
所述第一卷积层卷积核数为64,所述卷积核大小为7*7;
[0028]
所述第一残差块用于实现所述第二残差块过渡;
[0029]
所述第一残差块包括两个卷积层,每个卷积层的卷积核数为64,卷积核大小为3*3;
[0030]
所述第二残差块用于实现所述第三残差块过渡;
[0031]
所述第二残差块包括两个卷积层,每个卷积层的卷积核数为64,卷积核大小为3*3;
[0032]
所述第三残差块用于实现所述第四残差块过渡;
[0033]
所述第三残差块包括两个卷积层,每个卷积层的卷积核数为128,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为128,卷积核大小为1*1的卷积层;
[0034]
所述第四残差块用于实现所述第五残差块过渡;
[0035]
所述第四残差块包括两个卷积层,每个卷积层的卷积核数为128,卷积核大小为3*3;
[0036]
所述第五残差块用于实现所述第六残差块过渡;
[0037]
所述第五残差块包括两个卷积层,每个卷积层的卷积核数为256,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为256,卷积核大小为1*1的卷积层;
[0038]
所述第六残差块用于实现所述第七残差块过渡;
[0039]
所述第六残差块包括两个卷积层,每个卷积层的卷积核数为256,卷积核大小为3*3;
[0040]
所述第七残差块用于实现所述第八残差块过渡;
[0041]
所述第七残差块包括两个卷积层,每个卷积层的卷积核数为512,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为512,卷积核大小为1*1的卷积层;
[0042]
所述第八残差块用于实现后续模块的过渡;
[0043]
所述第八残差块包括两个卷积层,每个卷积层的卷积核数为512,卷积核大小为3*3;
[0044]
优选的,采用如下公式构建ctc损失函数模型:
[0045]
记扩展后且添加一个空白标签的字典为w,因此有输出路径其中πi∈w;
[0046]
则某一对齐路径的概率如下:
[0047][0048]
定义一个多对一映射b,该映射可以移除在对齐中所有的空白标签和相邻重复的标签,则有如下公式:
[0049][0050]
其中d表示融合特征;
[0051]
最终的ctc损失函数如下:
[0052][0053]
优选的,采用如下公式构建所述kl散度损失函数模型:
[0054]
x为分类特征,y为融合特征,则kl散度损失函数如下:
[0055]
l(x,y)={l1,...,ln},ln=yn·
(log y
n-xn)。
[0056]
第二方面,本发明提供了一种基于神经网络视频识别的连续手语识别装置,包括:
[0057]
第一指令发送模块:用于发送第一指令以获取原始视频,并将所述原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对所述第一视频增加注释标签以获取第二视频;
[0058]
特征提取模块:用于构建resnet18神经网络,发送第二指令以对所述第二视频进行特征提取,获取所述第二视频的分类特征以及时序特征;
[0059]
特征融合模块:用于构造全连接层和softmax层以获取所述第二视频的分类特征,构建transformer模型以获取所述第二视频的时序特征并将所述第二视频的分类特征以及时序特征进行融合;
[0060]
训练模块:用于发送第三指令以构建全连接层、softmax层、kl散度损失函数模型以及ctc损失函数模型,所述kl散度损失函数模型以及ctc损失函数模型均与所述softmax层相连,获取所述kl散度损失函数模型以及ctc损失函数模型的输出结果以对resnet18神经网络进行训练;
[0061]
测试模块:用于利用测试视频对训练完成的resnet18神经网络进行测试。
[0062]
本发明实施例带来了以下有益效果:本发明提供了一种基于神经网络视频识别的连续手语识别方法及装置,包括:发送第一指令以获取原始视频,并将原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对第一视频增加注释标签以获取第二视频;构建resnet18神经网络,发送第二指令以对第二视频进行特征提取,获取第二视频的分类特征以及时序特征;构造全连接层和softmax层以获取第二视频的分类特征,构建transformer模型以获取第二视频的时序特征并将第二视频的分类特征以及时序特征进行融合;发送第三指令以构建kl散度损失函数模型以及ctc损失函数模型,所述kl散度损
失函数模型以及ctc损失函数模型均与所述softmax层相连,获取所述kl散度损失函数模型以及ctc损失函数模型的输出结果以对resnet18神经网络进行训练;利用测试视频对训练完成的resnet18神经网络进行测试。通过本发明提供装置及方法可以缓解现有技术中对帧与相对应的注释对齐困难的技术问题,增强了对手语特征的描述,有效降低了错误识别的概率。
[0063]
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
[0064]
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
[0065]
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0066]
图1为本发明实施例提供的一种基于神经网络视频识别的连续手语识别方法流程图;
[0067]
图2为本发明实施例提供的一种基于神经网络视频识别的连续手语识别方法训练神经结构图;
[0068]
图3为本发明实施例提供的一种基于神经网络视频识别的连续手语识别方法测试神经结构图;
[0069]
图4为本发明实施例提供的一种基于神经网络视频识别的连续手语识别方法特征提取器结构图。
具体实施方式
[0070]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0071]
目前,随着深度学习的理论和计算机硬件的发展,利用深度神经网络完成手语识别任务成为可能。但是在现有的手语识别深度模型中,往往存在帧与相对应的注释对齐困难的问题,以及缺乏对每一帧的分类特征的忽略,基于此,本发明实施例提供的一种基于神经网络视频识别的连续手语识别方法,可以缓解现有技术中对帧与相对应的注释对齐困难的技术问题,增强了对手语特征的描述,有效降低了错误识别的概率。
[0072]
为便于对本实施例进行理解,首先对本发明实施例所公开的一种基于神经网络视频识别的连续手语识别方法进行详细介绍。
[0073]
实施例一:
[0074]
结合图1、图2以及图3,本发明实施例一提供了一种基于神经网络视频识别的连续
手语识别方法,包括:
[0075]
发送第一指令以获取原始视频,并将所述原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对所述第一视频增加注释标签以获取第二视频;
[0076]
构建resnet18神经网络,发送第二指令以对所述第二视频进行特征提取,获取所述第二视频的分类特征以及时序特征;
[0077]
构造全连接层和softmax层以获取所述第二视频的分类特征,构建transformer模型以获取所述第二视频的时序特征并将所述第二视频的分类特征以及时序特征进行融合;
[0078]
需要说明的是,在本发明提供的实施例中,为了将所述分类特征以及时序特征进行提取与融合,将提取后的特征分为两个分支,所述第二视频的分类特征由全连接层和softmax层构成,所述第二视频的时序特征由去除decoder的transformer模型构成,所述第二视频的时序特征用来获取视频帧间的时序上下文信息;
[0079]
发送第三指令以构建kl散度损失函数模型以及ctc损失函数模型,所述kl散度损失函数模型以及ctc损失函数模型均与所述softmax层相连,获取所述kl散度损失函数模型以及ctc损失函数模型的输出结果以对resnet18神经网络进行训练;
[0080]
进一步的,所述kl散度损失函数的目的是使得融合特征的分布与分类特征保持一致,并强化训练卷积神经网络;
[0081]
利用测试视频对训练完成的resnet18神经网络进行测试。
[0082]
优选的,采用如下公式表示训练视频:
[0083][0084]
采用如下公式表述减少帧的训练视频:
[0085][0086]
其中t中元素个数小于n,即元素为0表示不被选择,选择序列s表示:
[0087][0088]
rate表示设置的概率值。
[0089]
优选的,采用如下公式对所述第一视频增加注释标签以获取第二视频:
[0090]
原始注释序列如下:
[0091][0092]
扩展注释方法如下:
[0093]gi

{gi×
m-(m-1),gi×
m-(m-2),...,gi×
m};
[0094]
其中m为扩展倍数。
[0095]
如图4所示,优选的,所述resnet18神经网络包括依次相连的第一卷积层、池化层、第一残差块、第二残差块、第三残差块、第四残差块、第五残差块,第六残差块,第七残差块以及第八残差块;
[0096]
所述第一卷积层的用于向所述池化层进行过渡;
[0097]
所述第一卷积层卷积核数为64,所述卷积核大小为7*7;
[0098]
所述第一残差块用于实现所述第二残差块过渡;
[0099]
所述第一残差块包括两个卷积层,每个卷积层的卷积核数为64,卷积核大小为3*3;
[0100]
所述第二残差块用于实现所述第三残差块过渡;
[0101]
所述第二残差块包括两个卷积层,每个卷积层的卷积核数为64,卷积核大小为3*3;
[0102]
所述第三残差块用于实现所述第四残差块过渡;
[0103]
所述第三残差块包括两个卷积层,每个卷积层的卷积核数为128,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为128,卷积核大小为1*1的卷积层;
[0104]
所述第四残差块用于实现所述第五残差块过渡;
[0105]
所述第四残差块包括两个卷积层,每个卷积层的卷积核数为128,卷积核大小为3*3;
[0106]
所述第五残差块用于实现所述第六残差块过渡;
[0107]
所述第五残差块包括两个卷积层,每个卷积层的卷积核数为256,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为256,卷积核大小为1*1的卷积层;
[0108]
所述第六残差块用于实现所述第七残差块过渡;
[0109]
所述第六残差块包括两个卷积层,每个卷积层的卷积核数为256,卷积核大小为3*3;
[0110]
所述第七残差块用于实现所述第八残差块过渡;
[0111]
所述第七残差块包括两个卷积层,每个卷积层的卷积核数为512,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为512,卷积核大小为1*1的卷积层;
[0112]
所述第八残差块用于实现后续模块的过渡;
[0113]
所述第八残差块包括两个卷积层,每个卷积层的卷积核数为512,卷积核大小为3*3;
[0114]
优选的,采用如下公式构建ctc损失函数模型:
[0115]
记扩展后且添加一个空白标签的字典为w,因此有输出路径其中πi∈w;
[0116]
则某一对齐路径的概率如下:
[0117][0118]
定义一个多对一映射b,该映射可以移除在对齐中所有的空白标签和相邻重复的标签,则有如下公式:
[0119][0120]
其中d表示融合特征;
[0121]
最终的ctc损失函数如下:
[0122][0123]
优选的,采用如下公式构建所述kl散度损失函数模型:
[0124]
x为分类特征,y为融合特征,则kl散度损失函数如下:
[0125]
l(x,y)={l1,...,ln},ln=yn·
(log y
n-xn)。
[0126]
实施例二:
[0127]
本发明实施例二提供了一种基于神经网络视频识别的连续手语识别装置,包括:
[0128]
第一指令发送模块:用于发送第一指令以获取原始视频,并将所述原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对所述第一视频增加注释标签以获取第二视频;
[0129]
特征提取模块:用于构建resnet18神经网络,发送第二指令以对所述第二视频进行特征提取,获取所述第二视频的分类特征以及时序特征;
[0130]
特征融合模块:用于构造全连接层和softmax层以获取所述第二视频的分类特征,构建transformer模型以获取所述第二视频的时序特征并将所述第二视频的分类特征以及时序特征进行融合;
[0131]
训练模块:用于发送第三指令以构建kl散度损失函数模型以及ctc损失函数模型,所述kl散度损失函数模型以及ctc损失函数模型均与所述softmax层相连,获取所述kl散度损失函数模型以及ctc损失函数模型的输出结果以对resnet18神经网络进行训练;
[0132]
测试模块:用于利用测试视频对训练完成的resnet18神经网络进行测试。
[0133]
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
[0134]
在这里示出和描述的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制,因此,示例性实施例的其他示例可以具有不同的值。
[0135]
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0136]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0137]
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0138]
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
[0139]
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

技术特征:
1.一种基于神经网络视频识别的连续手语识别方法,其特征在于,包括:发送第一指令以获取原始视频,并将所述原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对所述第一视频增加注释标签以获取第二视频;构建resnet18神经网络,发送第二指令以对所述第二视频进行特征提取,获取所述第二视频的分类特征以及时序特征;构造全连接层和softmax层以获取所述第二视频的分类特征,构建transformer模型以获取所述第二视频的时序特征并将所述第二视频的分类特征以及时序特征进行融合;发送第三指令以构建kl散度损失函数模型以及ctc损失函数模型,所述kl散度损失函数模型以及ctc损失函数模型均与所述softmax层相连,获取所述kl散度损失函数模型以及ctc损失函数模型的输出结果以对resnet18神经网络进行训练;利用测试视频对训练完成的resnet18神经网络进行测试。2.根据权利要求1所述的方法,其特征在于,采用如下公式表示训练视频:采用如下公式表述减少帧的训练视频:其中t中元素个数小于n,即元素为0表示不被选择,选择序列s表示:rate表示设置的概率值。3.根据权利要求1所述的方法,其特征在于,采用如下公式对所述第一视频增加注释标签以获取第二视频:原始注释序列如下:扩展注释方法如下:g
i

{g
i
×
m-(m-1),g
i
×
m-(m-2),

,g
i
×
m};其中m为扩展倍数。4.根据权利要求1所述的方法,其特征在于,所述resnet18神经网络包括依次相连的第一卷积层、池化层、第一残差块、第二残差块、第三残差块、第四残差块、第五残差块、第六残差块、第七残差块以及第八残差块;所述第一卷积层的用于向所述池化层进行过渡;所述第一卷积层卷积核数为64,所述卷积核大小为7*7;所述第一残差块用于实现所述第二残差块过渡;所述第一残差块包括两个卷积层,每个卷积层的卷积核数为64,卷积核大小为3*3;所述第二残差块用于实现所述第三残差块过渡;所述第二残差块包括两个卷积层,每个卷积层的卷积核数为64,卷积核大小为3*3;所述第三残差块用于实现所述第四残差块过渡;
所述第三残差块包括两个卷积层,每个卷积层的卷积核数为128,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为128,卷积核大小为1*1的卷积层;所述第四残差块用于实现所述第五残差块过渡;所述第四残差块包括两个卷积层,每个卷积层的卷积核数为128,卷积核大小为3*3;所述第五残差块用于实现所述第六残差块过渡;所述第五残差块包括两个卷积层,每个卷积层的卷积核数为256,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为256,卷积核大小为1*1的卷积层;所述第六残差块用于实现所述第七残差块过渡;所述第六残差块包括两个卷积层,每个卷积层的卷积核数为256,卷积核大小为3*3;所述第七残差块用于实现所述第八残差块过渡;所述第七残差块包括两个卷积层,每个卷积层的卷积核数为512,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为512,卷积核大小为1*1的卷积层;所述第八残差块用于实现后续模块的过渡;所述第八残差块包括两个卷积层,每个卷积层的卷积核数为512,卷积核大小为3*3。5.根据权利要求1所述的方法,其特征在于,采用如下公式构建ctc损失函数模型:记扩展后且添加一个空白标签的字典为w,因此有输出路径其中π
i
∈w;则某一对齐路径的概率如下:定义一个多对一映射b,该映射可以移除在对齐中所有的空白标签和相邻重复的标签,则有如下公式:其中d表示融合特征;最终的ctc损失函数如下:6.根据权利要求1所述的方法,其特征在于,采用如下公式构建所述kl散度损失函数模型:x为分类特征,y为融合特征,则kl散度损失函数如下:l(x,y)={l1,

,l
n
},l
n
=y
n
·
(logy
n-x
n
)。7.一种基于神经网络视频识别的连续手语识别装置,其特征在于,包括:第一指令发送模块:用于发送第一指令以获取原始视频,并将所述原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对所述第一视频增加注释标签以获取第二视频;特征提取模块:用于构建resnet18神经网络,发送第二指令以对所述第二视频进行特征提取,获取所述第二视频的分类特征以及时序特征;特征融合模块:用于构造全连接层和softmax层以获取所述第二视频的分类特征,构建transformer模型以获取所述第二视频的时序特征并将所述第二视频的分类特征以及时序特征进行融合;训练模块:用于发送第三指令以构建kl散度损失函数模型以及ctc损失函数模型,所述
kl散度损失函数模型以及ctc损失函数模型均与所述softmax层相连,获取所述kl散度损失函数模型以及ctc损失函数模型的输出结果以对resnet18神经网络进行训练;测试模块:用于利用测试视频对训练完成的resnet18神经网络进行测试。

技术总结
本发明提供了一种基于神经网络视频识别的连续手语识别方法及装置,涉及人工智能深度学习的技术领域,包括:获取原始视频,并将原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对第一视频增加注释标签以获取第二视频,发送第二指令以对第二视频进行特征提取,获取第二视频的分类特征以及时序特征;获取第二视频的分类特征,获取第二视频的时序特征并将第二视频的分类特征以及时序特征进行融合;构建与Softmax层相连KL散度损失函数模型以及CTC损失函数模型,并对Resnet18神经网络进行训练;利用测试视频对训练完成的Resnet18神经网络进行测试。通过本发明提供装置及方法可以缓解现有技术中对帧与相对应的注释对齐困难的技术问题。相对应的注释对齐困难的技术问题。相对应的注释对齐困难的技术问题。


技术研发人员:薛万利 杜宝增 袁甜甜 陈胜勇
受保护的技术使用者:天津理工大学
技术研发日:2022.03.15
技术公布日:2022/7/4
转载请注明原文地址: https://www.8miu.com/read-17142.html

最新回复(0)