本发明涉及数字人,特别涉及一种数字人数据获取方案及多模态驱动模型训练方法。
背景技术:
1、现有的数据采集方法依赖于大规模的数据收集,往往需要昂贵的设备和大量的人力,且过程繁琐,效率低下,需要耗费用户大量的时间,并且现有的录制方案冗余和重复步骤较多。此外,数据采集的复杂性和繁琐性也可能影响数据的质量和多样性,导致数据获取难度大。
2、目前的训练数据多依赖于特定的数据源,都是单纯的音频和对应的口型视频。对文本的处理多是将文本转化为对应的语音再进行训练。这种单一的模态方法限制了模型的适应性和泛化能力。
3、因此,有必要提供一种数字人数据获取方案及多模态驱动模型训练方法,以实现更加自然的数字人生成效果。
技术实现思路
1、本发明的目的在于提供一种数字人数据获取方案及多模态驱动模型训练方法,以实现更加自然的数字人生成效果。
2、为了解决现有技术中存在的问题,本发明提供了一种数字人数据获取方案及多模态驱动模型训练方法,包括以下步骤:
3、采用视觉编码器从图像中提取唇部动作特征,并将其转换为视觉表示;
4、采用音频编码器将原始音频信号转换为连续的特征序列;
5、采用一同步模块将视觉编码器输出的视觉表示和音频编码器输出的连续的特征序列进行融合,得到融合后的特征向量;
6、录制多个显示数字人表情和动作的视频;
7、设计文本编码器处理网络输入的文本,使用时间序列学习模型将语音处理成文本时间序列数据;
8、将融合后的特征向量、多个显示数字人表情和动作的视频输入初始多模态驱动模型进行训练,得到能用的多模态驱动模型,将处理后的文本及文本时间序列数据输入能用的多模态驱动模型,生成数字人画面。
9、可选的,在所述数字人数据获取方案及多模态驱动模型训练方法中,
10、视觉编码器使用卷积神经网络作为基础结构,卷积神经网络通过多层卷积层、池化层和全连接层自动学习图像中的空间特征,并有效提取唇部动作信息。
11、可选的,在所述数字人数据获取方案及多模态驱动模型训练方法中,卷积层用于捕捉局部特征,池化层用于降低特征维度并增强特征的鲁棒性;全连接层将提取到的特征映射到一个固定维度的向量,这个向量即为视觉表示。
12、可选的,在所述数字人数据获取方案及多模态驱动模型训练方法中,音频编码器采用循环神经网络或长短期记忆网络的结构,处理音频信号中的时间序列数据,并形成连续的特征序列。
13、可选的,在所述数字人数据获取方案及多模态驱动模型训练方法中,同步模块由一组全连接层构成。
14、可选的,在所述数字人数据获取方案及多模态驱动模型训练方法中,融合方式如下:
15、采用特征拼接、加权平均或者交叉注意力机制的方式进行融合。
16、可选的,在所述数字人数据获取方案及多模态驱动模型训练方法中,还包括以下步骤:融合后的特征向量输入到全连接层,所述全连接层输出音唇同步的评分,根据评分调整视觉编码器和音频编码器;采用音唇同步的评分对录制的视频进行质量判断与数据筛选。
17、可选的,在所述数字人数据获取方案及多模态驱动模型训练方法中,录制不含表情的视频的方式如下:
18、录制动作视频时,要求5分钟内完成多个动作,每个动作不超过3秒并在完成后回到起始姿势,头部动作幅度不超过30度,面部为无表情状态;
19、录制静止视频时,视频持续15秒,保持静止不动,头部动作幅度不超过30度,手部无动作,面部为无表情状态;
20、录制说话视频时,避免抿嘴,说话时嘴部自然闭合,面部为无表情状态。
21、可选的,在所述数字人数据获取方案及多模态驱动模型训练方法中,含表情的视频包括:静止状态与表情匹配,动作状态与表情匹配。
22、可选的,在所述数字人数据获取方案及多模态驱动模型训练方法中,
23、静止状态包括:右下斜头动作、左下斜头动作、深呼吸动作以及轻微仰头动作;
24、动作状态包括:探头、左斜下点头、右斜下点头、左摆头以及右摆头;
25、表情包括:双眼有神且面带笑意的表情、带有好奇的表情以及皱眉且担忧的表情。
26、在本发明所提供的数字人数据获取方案及多模态驱动模型训练方法中,通过采用视觉编码器、音频编码器以及同步模块,从而能够全面提升获取高质量训练数据的效率,同时设计了一个多模态驱动模型的训练网络,支持多种类型的输入,增加了模型的泛化性和生成质量。
1.一种数字人数据获取方案及多模态驱动模型训练方法,其特征在于,包括以下步骤:
2.如权利要求1所述的数字人数据获取方案及多模态驱动模型训练方法,其特征在于,
3.如权利要求2所述的数字人数据获取方案及多模态驱动模型训练方法,其特征在于,卷积层用于捕捉局部特征,池化层用于降低特征维度并增强特征的鲁棒性;全连接层将提取到的特征映射到一个固定维度的向量,这个向量即为视觉表示。
4.如权利要求1所述的数字人数据获取方案及多模态驱动模型训练方法,其特征在于,音频编码器采用循环神经网络或长短期记忆网络的结构,处理音频信号中的时间序列数据,并形成连续的特征序列。
5.如权利要求1所述的数字人数据获取方案及多模态驱动模型训练方法,其特征在于,同步模块由一组全连接层构成。
6.如权利要求1所述的数字人数据获取方案及多模态驱动模型训练方法,其特征在于,融合方式如下:
7.如权利要求1所述的数字人数据获取方案及多模态驱动模型训练方法,其特征在于,还包括以下步骤:融合后的特征向量输入到全连接层,所述全连接层输出音唇同步的评分,根据评分调整视觉编码器和音频编码器;采用音唇同步的评分对录制的视频进行质量判断与数据筛选。
8.如权利要求1所述的数字人数据获取方案及多模态驱动模型训练方法,其特征在于,录制不含表情的视频的方式如下:
9.如权利要求1所述的数字人数据获取方案及多模态驱动模型训练方法,其特征在于,含表情的视频包括:静止状态与表情匹配,动作状态与表情匹配。
10.如权利要求9所述的数字人数据获取方案及多模态驱动模型训练方法,其特征在于,