神经网络模型的预训练数据处理、装置、存储介质、识别方法

allin2023-04-18 190

1.本发明涉及计算机视觉、机器学习、自监督学习及深度学习领域，具体涉及一种神经网络模型的预训练数据处理、装置、存储介质、识别方法。

背景技术：

2.机器学习中基本的学习方法有：监督学习、半监督学习和无监督学习。他们最大的区别就是模型在训练时需要人工标注的伪标签信息，监督学习利用大量的标注数据来训练模型，使模型最终学习到输入和输出标签之间的相关性；半监督学习利用少量有标签的数据和大量无标签的数据来训练网络；而无监督学习不依赖任何标签值，通过对数据内在特征的挖掘，找到样本间的关系，比如聚类。
3.使用监督学习时我们需要足够的标记数据。为了获得这些信息，需要手工标记数据(图像/文本)，这是一个既耗时又昂贵的过程。还有一些领域，比如医疗领域，获取足够的数据本身就是一个挑战。而在使用无监督学习的时候，例如自编码器，仅仅是做了维度的降低而已，并没有包含更多的语义特征，对下游任务并没有很大的帮助，其他的无监督学习方法目前效果也不尽人意。
4.因此本发明解决在不需要手工标记数据的情况下，训练过程仍然对任务本身有很大的帮助，可以包含更多的语义特征，自监督学习因此被提出。

技术实现要素：

5.针对现有技术中的上述不足，本发明提供的神经网络模型的预训练数据处理、装置、存储介质、识别方法解决了现有监督学习需要大规模标准数据标签存在工作量大的问题。
6.为了达到上述发明目的，本发明采用的技术方案为：
7.第一方面，提供一种基于自监督学习的神经网络模型的预训练数据处理方法，其包括：
8.s1、获取公开数据集，提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签；
9.s2、提取每个视频流的第一帧图像和最后一帧图像，并将同一视频流余下的帧图像分别与第一帧图像和最后一帧图像拼接形成拼接向量；
10.s3、采用余下的帧图像对应的伪标签作为对应拼接向量的伪标签向量，将公开数据集中所有视频流得到的拼接向量作为预训练神经网络的训练集。
11.进一步地，提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签的方法进一步包括：
12.s11、遍历公开数据集中的视频流，并将其第一帧图像存储至关键帧列表；
13.s12、选取下一帧图像作为当前帧图像，并计算当前帧图像与关键帧列表中每帧图像的相似度，之后对计算的相似度进行归一化操作；
14.s13、判断步骤s12中归一化后的所有相似度是否都大于预设阈值，若是，则将当前帧图像的伪标签标记为1，并存储至关键帧列表，否则将当前帧图像的伪标签标记为0；
15.s14、判断视频流中的每帧图像的伪标签是否均已更新，若是，进入步骤s15，否则返回步骤s12；
16.s15、判断公开数据集中的视频流是否均已遍历，若是，进入步骤s2，否则返回步骤s11。
17.进一步地，计算当前帧图像与关键帧列表中每帧图像的相似度的方法为欧几里得距离、余弦距离、曼哈顿距离、切比雪夫距离、马氏距离、闵可夫斯基距离或感知哈希方法。
18.进一步地，计算当前帧图像与关键帧列表中每帧图像的相似度的方法为感知哈希方法。
19.进一步地，公开数据集为行为识别数据集或者视频异常检测数据集。
20.进一步地，行为识别数据集为ucf101数据集。
21.第二方面，提供一种基于自监督学习的神经网络模型的预训练数据处理装置，其包括：
22.关键帧图像提取模块，用于获取公开数据集，提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签；
23.拼接向量生成模块，用于提取每个视频流的第一帧图像和最后一帧图像，并将同一视频流余下的帧图像分别与第一帧图像和最后一帧图像拼接形成拼接向量；
24.标记模块，用于采用余下的帧图像对应的伪标签作为对应拼接向量的伪标签向量，将公开数据集中所有视频流得到的拼接向量作为预训练神经网络的训练集。
25.进一步地，关键帧图像提取模块包括：
26.帧选取模块，用于遍历公开数据集中的视频流，并将其第一帧图像存储至关键帧列表；
27.相似度计算模块，用于选取下一帧图像作为当前帧图像，并计算当前帧图像与关键帧列表中每帧图像的相似度，之后对计算的相似度进行归一化操作；
28.第一判断模块，用于判断相似度计算模块归一化后的所有相似度是否都大于预设阈值，若是，则将当前帧图像的伪标签标记为1，并存储至关键帧列表，否则将当前帧图像的伪标签标记为0；
29.第二判断模块，用于判断视频流中的每帧图像的伪标签是否均已更新，若是，进入第三判断模块，否则返回相似度计算模块；
30.第三判断模块，用于判断公开数据集中的视频流是否均已遍历，若是，进入拼接向量生成模块，否则返回帧选取模块。
31.第三方面，提供一种计算机可读存储介质，存储有可执行指令，可执行指令被处理器执行时实现神经网络模型的训练数据处理方法。
32.第四方面，提供一种基于自监督进行视频目标的识别方法，其包括：
33.采用预训练数据处理方法获得的第一训练集对神经网络进行训练，得到预训练神经网络模型；
34.获取预设数量已标记的行为识别图像作为第二训练集对预训练神经网络模型进行训练，得到行为识别神经网络模型；
35.将待识别视频输入行为识别神经网络模型进行目标识别。
36.本发明的有益效果为：通过本方案的预训练数据处理方法能从大规模的没有经过人工标注的无监督数据中挖掘出自身的监督信息，形成伪标签，通过使用这种自动生成的伪标签对神经网络进行训练，从而可以使得神经网络学习到对下游任务有价值的表征。
37.本方法可以适用于任意具备物体识别能力的神经网络，使网络具有能提取出视频中每一帧的高级语义特征的能力，增强整个提取特征算法的鲁棒性和准确性。采用关键图像帧与拼接向量的结合使得神经网络能提取到每一帧画面的信息，具有了理解视频特征的能力，避免了昂贵的人工标注。
38.由于视频中存在着大量的冗余信息，每一帧对视频理解的作用不是完全相同的，采用本方案的关键帧图像提取方法可以仅保留视频流中的关键帧，从而学到对视频理解的目的。
39.使用拼接向量的方法能够更加有效的让神经网络学习到正确的提取特征的方法，并且此方法的实现与神经网络的类型并没有关联，具有很强的移植性，在后续迁移到不同神经网络时仍然适用。
附图说明
40.图1为基于自监督学习的神经网络模型的预训练数据处理方法的流程图。
41.图2为提取公开数据集中每个视频流的关键帧图像的方法的流程图。
42.图3为帧图像向量的拼接流程图。
具体实施方式
43.下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。
44.参考图1，图1示出了基于自监督学习的神经网络模型的预训练数据处理方法的流程图，如图1所示，该方法s包括步骤s1至步骤s3。
45.在步骤s1中，获取公开数据集，提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签；
46.参考图2，提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签的方法包括步骤s11至步骤s15。
47.s11、遍历公开数据集中的视频流，并将其第一帧图像存储至关键帧列表；
48.s12、选取下一帧图像作为当前帧图像，并计算当前帧图像与关键帧列表中每帧图像的相似度，之后对计算的相似度进行归一化操作；
49.s13、判断步骤s12中归一化后的所有相似度是否都大于预设阈值，若是，则将当前帧图像的伪标签标记为1，并存储至关键帧列表，否则将当前帧图像的伪标签标记为0；
50.s14、判断视频流中的每帧图像的伪标签是否均已更新，若是，进入步骤s15，否则返回步骤s12；
51.s15、判断公开数据集中的视频流是否均已遍历，若是，进入步骤s2，否则返回步骤
s11。
52.实施时，本方案优选计算当前帧图像与关键帧列表中每帧图像的相似度的方法为欧几里得距离、余弦距离、曼哈顿距离、切比雪夫距离、马氏距离、闵可夫斯基距离或感知哈希方法。
53.采取控制变量法，使用上面提及的相似度计算方法分别对同一个图片数据集进行相似度测试，由于欧几里得距离、余弦距离、曼哈顿距离、切比雪夫距离、马氏距离、闵可夫斯基距离只能比较向量之间的相似度，因此统一使用lenet-5对图片提取特征转化为向量后再使用这些距离方法对向量的相似性进行比较，通过实验结果可以发现感知哈希方法不仅能体现两张图片是否相似，并且最能拉大图片间的相似性距离与不相似性距离之间的差值，比较结果见表1。
54.表1 相似性度量方法试验结果对比图
[0055][0056]
对感知哈希方法进一步进行探究，由于最后使用的训练数据集可能是随机的视频集合，视频可能含有字幕、以及视频可能含有拼接(两段不同的视频拼接为同一段视频)，所以对感知哈希方法进行稳定性测试。
[0057]
通过使用控制变量法进行测试(同一段视频有字幕和无字幕，两个相同的视频采用不同的尺寸进行拼接)可以发现，感知哈希方法非常稳定，字幕与拼接视频尺寸大小对相似性哈希值的影响非常轻微，由此本方案最终优选计算当前帧图像与关键帧列表中每帧图像的相似度的方法为感知哈希方法。
[0058]
其中，公开数据集为行为识别数据集或者视频异常检测数据集，行为识别数据集又可以为ucf101数据集。
[0059]
ucf101是从youtube收集而得的动作识别数据集，共包含101类动作，其中每类动作由25个人做动作，每人做4-7组，共13320个视频；在动作的采集上，ucf101也具有非常大的多样性，包括相机运行、外观变化、姿态变化、物体比例变化、背景变化、光线变化等。
[0060]
综上所述，ucf101在数据量方面和在数据量种类丰富程度上均满足了自监督学习训练的要求，所以在本方案中以ucf101为例进行说明，选取数据集ucf101作为训练测试样本并对其操作，划分为训练集(80％)和测试集(20％)。
[0061]
在步骤s2中，提取每个视频流的第一帧图像和最后一帧图像，并将同一视频流余下的帧图像分别与第一帧图像和最后一帧图像拼接形成拼接向量；假设一个视频流包括5个关键帧图像，则形成的拼接向量分别为125，135，145，拼接向量的流程图可以参考图3。
[0062]
在步骤s3中，采用余下的帧图像对应的伪标签作为对应拼接向量的伪标签向量，将公开数据集中所有视频流得到的拼接向量作为预训练神经网络的训练集。
[0063]
通过形成的拼接向量进行神经网络的预训练，神经网络学习到的不是单纯的图片的特征，不再试图从伪标签为1的图片向量特征集合中学到共有特征，而是尝试学习每个拼接向量之间的差异，每个拼接向量伪标签之间的差异正是由于第i帧视频帧向量(i《1《n)，
与第一帧视频帧向量和最后一帧视频帧向量之间的差异所导致的，结合视频帧的前后特征进行评估，体现了视频时间维度上的相关性。
[0064]
使用修改后的网络模型，在ubuntu20.04系统下,在python版本3.6、pytorch版本1.8.0的运行环境下进行实验，并且通过调参数后得到的训练结果如表2所示：
[0065][0066]
从表2可以看出，如果不使用拼接方法，通过调整firstthresh与secondthresh(这两个阈值用于调节正负样本的比例)、学习率(lr)和训练迭代次数(epoch)，用以评价训练结果优劣的两个重要指标：准确率(accuracy)和损失(loss)均处于动态震荡之中，这说明调整训练相关参数已经无法有效提高训练结果的有效性，必须使用调整相关参数外的方法对训练数据做出改进。
[0067]
如果不对训练集做拼接处理，那么网络模型学习到的将仅是训练集中标签为1的视频帧集合的共有特征，如果一旦输入非训练集的视频流，网络仍会将符合训练集公共特征的视频帧判定为重要帧(即判定结果为1，表示该帧重要)，这使得网络的判定结果具有很强的随机性以及不可靠性，因为定义某一视频帧的重要(标签为0)与非重要(标签为1)并不是基于训练集提取出的共有特征，而是基于这一帧在这个视频流里是否具有重要性，所以网络学习到的不应该是训练集中标签为1的视频帧集合的公共特征，而应该是去学习如何判断一帧视频帧在这个视频流中具有重要性；本方案通过采用拼接向量后，使得神经网络能够有效学习视频帧之间的差异性，通过学习到的差异性强弱即可有效判断该帧在其所属视频流中是否属于重要帧。
[0068]
使用控制变量法，在控制训练集正负样本比例、学习率、训练迭代次数相同的情况下，将拼接向量与未拼接向量的实验结果相比，可以发现误差低了一个数量级，准确率提升了10个百分点，说明对采用拼接向量的方式对于网络模型的改进是有效果的。使用拼接的方法能够更加有效的让神经网络学习到正确的提取特征的方法，并且此方法的实现与神经网络的类型并没有关联，具有很强的移植性，在后续迁移到不同神经网络时候仍然适用。
[0069]
本方案还提供了一种基于自监督学习的神经网络模型的预训练数据处理装置，其包括：
[0070]
关键帧图像提取模块，用于获取公开数据集，提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签；
[0071]
拼接向量生成模块，用于提取每个视频流的第一帧图像和最后一帧图像，并将同一视频流余下的帧图像分别与第一帧图像和最后一帧图像拼接形成拼接向量；
[0072]
标记模块，用于采用余下的帧图像对应的伪标签作为对应拼接向量的伪标签向量，将公开数据集中所有视频流得到的拼接向量作为预训练神经网络的训练集。
[0073]
其中，关键帧图像提取模块包括：
[0074]
帧选取模块，用于遍历公开数据集中的视频流，并将其第一帧图像存储至关键帧列表；
[0075]
相似度计算模块，用于选取下一帧图像作为当前帧图像，并计算当前帧图像与关键帧列表中每帧图像的相似度，之后对计算的相似度进行归一化操作；
[0076]
第一判断模块，用于判断相似度计算模块归一化后的所有相似度是否都大于预设阈值，若是，则将当前帧图像的伪标签标记为1，并存储至关键帧列表，否则将当前帧图像的伪标签标记为0；
[0077]
第二判断模块，用于判断视频流中的每帧图像的伪标签是否均已更新，若是，进入第三判断模块，否则返回相似度计算模块；
[0078]
第三判断模块，用于判断公开数据集中的视频流是否均已遍历，若是，进入拼接向量生成模块，否则返回帧选取模块。
[0079]
本技术还提供一种计算机可读存储介质，存储有可执行指令，可执行指令被处理器执行时实现权神经网络模型的训练数据处理方法。
[0080]
本技术还提供一种基于自监督进行视频目标的识别方法，其，包括：
[0081]
采用预训练数据处理方法获得的第一训练集对神经网络进行训练，得到预训练神经网络模型；
[0082]
获取预设数量已标记的行为识别图像作为第二训练集对预训练神经网络模型进行训练，得到行为识别神经网络模型；
[0083]
将待识别视频输入行为识别神经网络模型进行目标识别。
[0084]
本方案的预训练数据处理方法与基础网络的关系不大，是对神经网络训练方式的一种创新，因此适用于所有的神经网络。
[0085]
综上所述，本方案提供的预训练数据处理方法通过相似度可以获得视频流的关键帧，然后通过构造拼接向量，从时间维度上建立重要帧与非重要帧的联系，使得神经网络能从高层语义的角度理解一系列关键帧，达到有效将一个视频进行“压缩”的目的，从而能实现下游任务的迁移。

技术特征：
1.基于自监督学习的神经网络模型的预训练数据处理方法，其特征在于，包括：s1、获取公开数据集，提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签；s2、提取每个视频流的第一帧图像和最后一帧图像，并将同一视频流余下的帧图像分别与第一帧图像和最后一帧图像拼接形成拼接向量；s3、采用余下的帧图像对应的伪标签作为对应拼接向量的伪标签向量，将公开数据集中所有视频流得到的拼接向量作为预训练神经网络的训练集。2.根据权利要求1所述的预训练数据处理方法，其特征在于，所述提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签的方法进一步包括：s11、遍历公开数据集中的视频流，并将其第一帧图像存储至关键帧列表；s12、选取下一帧图像作为当前帧图像，并计算当前帧图像与关键帧列表中每帧图像的相似度，之后对计算的相似度进行归一化操作；s13、判断步骤s12中归一化后的所有相似度是否都大于预设阈值，若是，则将当前帧图像的伪标签标记为1，并存储至关键帧列表，否则将当前帧图像的伪标签标记为0；s14、判断视频流中的每帧图像的伪标签是否均已更新，若是，进入步骤s15，否则返回步骤s12；s15、判断公开数据集中的视频流是否均已遍历，若是，进入步骤s2，否则返回步骤s11。3.根据权利要求2的预训练数据处理方法，其特征在于，计算当前帧图像与关键帧列表中每帧图像的相似度的方法为欧几里得距离、余弦距离、曼哈顿距离、切比雪夫距离、马氏距离、闵可夫斯基距离或感知哈希方法。4.根据权利要求2的预训练数据处理方法，其特征在于，计算当前帧图像与关键帧列表中每帧图像的相似度的方法为感知哈希方法。5.根据权利要求1-4任一的预训练数据处理方法，其特征在于，所述公开数据集为行为识别数据集或者视频异常检测数据集。6.根据权利要求5的预训练数据处理方法，其特征在于，所述行为识别数据集为ucf101数据集。7.基于自监督学习的神经网络模型的预训练数据处理装置，其特征在于，包括：关键帧图像提取模块，用于获取公开数据集，提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签；拼接向量生成模块，用于提取每个视频流的第一帧图像和最后一帧图像，并将同一视频流余下的帧图像分别与第一帧图像和最后一帧图像拼接形成拼接向量；标记模块，用于采用余下的帧图像对应的伪标签作为对应拼接向量的伪标签向量，将公开数据集中所有视频流得到的拼接向量作为预训练神经网络的训练集。8.根据权利要求7所述的预训练数据处理装置，其特征在于，所述关键帧图像提取模块包括：帧选取模块，用于遍历公开数据集中的视频流，并将其第一帧图像存储至关键帧列表；相似度计算模块，用于选取下一帧图像作为当前帧图像，并计算当前帧图像与关键帧列表中每帧图像的相似度，之后对计算的相似度进行归一化操作；
第一判断模块，用于判断相似度计算模块归一化后的所有相似度是否都大于预设阈值，若是，则将当前帧图像的伪标签标记为1，并存储至关键帧列表，否则将当前帧图像的伪标签标记为0；第二判断模块，用于判断视频流中的每帧图像的伪标签是否均已更新，若是，进入第三判断模块，否则返回相似度计算模块；第三判断模块，用于判断公开数据集中的视频流是否均已遍历，若是，进入拼接向量生成模块，否则返回帧选取模块。9.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至6任一项所述的神经网络模型的训练数据处理方法。10.一种基于自监督进行视频目标的识别方法，其特征在于，包括：采用权利要求1-6任一所述的预训练数据处理方法获得的第一训练集对神经网络进行训练，得到预训练神经网络模型；获取预设数量已标记的行为识别图像作为第二训练集对预训练神经网络模型进行训练，得到行为识别神经网络模型；将待识别视频输入行为识别神经网络模型进行目标识别。

技术总结
本发明公开了一种神经网络模型的预训练数据处理、装置、存储介质、识别方法，其中预训练数据处理方法包括获取公开数据集，提取公开数据集中每个视频流的关键帧图像和非关键帧图像，并为每张关键帧图像和非关键帧图像生成伪标签；提取每个视频流的第一帧图像和最后一帧图像，并将同一视频流余下的帧图像分别与第一帧图像和最后一帧图像拼接形成拼接向量；采用余下的帧图像对应的伪标签作为对应拼接向量的伪标签向量，将公开数据集中所有视频流得到的拼接向量作为预训练神经网络的训练集。到的拼接向量作为预训练神经网络的训练集。到的拼接向量作为预训练神经网络的训练集。

技术研发人员：冯宇王一婷邹凯旭郝宗波张涛陈明旺黄俊
受保护的技术使用者：电子科技大学
技术研发日：2022.03.18
技术公布日：2022/7/5

转载请注明原文地址: https://www.8miu.com/read-10809.html

专利

最新回复(0)