本发明涉及数据处理,尤其涉及一种基于crf模型的智能数据打标方法、设备及介质。
背景技术:
1、随着数据量的不断增加和各种任务的复杂性,大量的数据被生成并积累,包括图像、视频、文本等多种类型的数据,因此,数据打标在数据处理领域扮演者至关重要的角色,为了能够提高标注结果的准确性,需要通过自动学习数据中的标注规律,进而实现数据的准确和高效打标。
2、现有的数据打标技术通常依赖于人工标注,耗时且易受主观因素影响。实际应用中,随着标注任务的增加和复杂性的提高,人力成本和效率压力日益突出,导致人工标注对数据标注不准确,从而对进行数据打标时的准确性较低。
技术实现思路
1、本发明提供一种基于crf模型的智能数据打标方法、设备及介质,其主要目的在于解决进行数据打标时的准确性较低的问题。
2、为实现上述目的,本发明提供的一种基于crf模型的智能数据打标方法,包括:
3、采集预设的文本数据、语音数据及图像数据;
4、将所述语音数据转换为目标文本数据,识别所述文本数据及所述目标文本数据中的不符合预设规则的内容;
5、对所述不符合预设规则的内容进行词性标注处理,得到语义标注数据,以及提取所述图像数据对应的图像特征;
6、将所述语义标注数据及所述图像特征合并为数据标注集;
7、根据预设的标注任务需求对crf模型中的状态特征及转移特征进行特征调整,利用所述数据标注集对调整后的crf模型进行参数优化;
8、利用优化后的crf模型对待标注数据进行打标,得到所述待标注数据对应的标注类型。
9、可选地,所述识别所述文本数据及所述目标文本数据中的不符合预设规则的内容,包括:
10、对所述文本数据及所述目标文本数据进行分词,得到文本分词;
11、逐一对所述文本分词进行情感分析,得到每个文本分词对应的情感类别;
12、提取所述情感类别中负面情感类别对应的关键词;
13、将所述关键词与预设的不符合规则的词汇列表中的词汇进行对比,得到不符合预设规则的内容。
14、可选地,所述对所述不符合预设规则的内容进行词性标注处理,得到语义标注数据,包括:
15、对所述不符合预设规则的内容对应的词语序列中的停用词进行去除;
16、将去除停用词后的词语序列进行词性标注,得到文本词语序列中每个分词对应的词性,将每个分词及每个分词对应的词性组合为二元组;
17、汇集所有的二元组为语义标注数据。
18、可选地,所述将所述语义标注数据及所述图像特征合并为数据标注集,包括:
19、获取所述语义标注数据对应的语义标识符,以及获取所述图像特征的图像标识符;
20、判断所述语义标识符及所述图像标识符是否属于同一个实例样本的样本标识符;
21、当所述语义标识符及所述图像标识符不属于同一个实例样本的样本标识符时,按照所述样本标识符将所述语义标识符及所述图像标识符重新匹配,直至所述语义标识符及所述图像标识符属于同一个实例样本的样本标识符;
22、当所述语义标识符及所述图像标识符属于同一个实例样本的样本标识符时,将所述语义标识符对应的文本标注数据及所述图像标识符对应的图像特征合并至数组中,得到数据标注二元组,汇集所有的数据标注二元组为数据标注集。
23、可选地,所述根据预设的标注任务需求对crf模型中的状态特征及转移特征进行特征调整,包括:
24、提取预设的标注任务需求中的标注任务数据类型;
25、当所述标注任务数据类型为文本类型时,将文本数据对应的词性特征作为状态特征,将文本数据对应的词性上下文关联特征作为转移特征;
26、当所述标注任务数据类型为图像类型时,将图像数据对应的像素特征作为状态特征,将图像数据对应的像素空间关联特征作为转移特征。
27、可选地,所述利用所述数据标注集对调整后的crf模型进行参数优化,包括:
28、将所述数据标注集划分为数据训练集及数据验证集;
29、利用所述数据训练集中的数据标注二元组对调整后的crf模型进行训练;
30、通过预设的最大似然估计算法优化crf模型训练过程中的权重参数,并计算crf模型训练过程中的损失值;
31、当所述损失值小于预设的损失阈值时,根据优化后的权重参数输出训练好的crf模型;
32、根据所述数据验证集计算训练好的crf模型的模型评估指标;
33、根据所述模型评估指标对模型状态特征、模型转移特征及模型权重参数进行优化,得到优化后的crf模型。
34、可选地,所述利用所述数据训练集中的数据标注二元组对调整后的crf模型进行训练,包括:
35、提取所述数据标注二元组中的文本标注数据、语音特征及图像特征;
36、将所述文本标注数据输入至调整后的crf模型中的文本状态特征及文本转移特征中进行模型训练;
37、将所述语音特征输入至调整后的crf模型中的语音状态特征及语音转移特征中进行模型训练;
38、将所述图像特征输入至调整后的crf模型中的图像状态特征及图像转移特征中进行模型训练。
39、可选地,所述利用优化后的crf模型对待标注数据进行打标,得到所述待标注数据对应的标注类型,包括:
40、提取所述待标注数据的词语特征,提取所述待标注数据的语音特征,以及提取所述待标注数据的图像特征;
41、利用优化后的crf模型根据所述词语特征进行打标,输出所述词语特征对应的标注类型的第一概率分布,选取所述第一概率分布中概率值最大的标注类型为所述待标注数据的第一标注类型;
42、利用优化后的crf模型根据所述图像特征进行打标,输出所述图像特征对应的标注类型的第二概率分布,选取所述第二概率分布中概率值最大的标注类型为所述待标注数据的第二标注类型;
43、当所述第一标注类型及所述第二标注类型均相同时,输出所述待标注数据对应的标注类型。
44、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
45、至少一个处理器;以及,
46、与所述至少一个处理器通信连接的存储器;其中,
47、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述所述的基于crf模型的智能数据打标方法。
48、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的基于crf模型的智能数据打标方法。
49、本发明实施例通过结合条件随机场模型和机器学习算法,能够自动学习数据中的标注规律和模式,实现高效准确的数据打标;并且适用于各种类型和结构的数据,为用户提供全面、准确的数据标注服务。因此本发明提出的基于crf模型的智能数据打标方法、设备及介质,可以解决进行数据打标时的准确性较低的问题。
1.一种基于crf模型的智能数据打标方法,其特征在于,所述方法包括:
2.如权利要求1所述的基于crf模型的智能数据打标方法,其特征在于,所述识别所述文本数据及所述目标文本数据中的不符合预设规则的内容,包括:
3.如权利要求1所述的基于crf模型的智能数据打标方法,其特征在于,所述对所述不符合预设规则的内容进行词性标注处理,得到语义标注数据,包括:
4.如权利要求1所述的基于crf模型的智能数据打标方法,其特征在于,所述将所述语义标注数据及所述图像特征合并为数据标注集,包括:
5.如权利要求1所述的基于crf模型的智能数据打标方法,其特征在于,所述根据预设的标注任务需求对crf模型中的状态特征及转移特征进行特征调整,包括:
6.如权利要求1所述的基于crf模型的智能数据打标方法,其特征在于,所述利用所述数据标注集对调整后的crf模型进行参数优化,包括:
7.如权利要求1所述的基于crf模型的智能数据打标方法,其特征在于,所述利用所述数据训练集中的数据标注二元组对调整后的crf模型进行训练,包括:
8.如权利要求1所述的基于crf模型的智能数据打标方法,其特征在于,所述利用优化后的crf模型对待标注数据进行打标,得到所述待标注数据对应的标注类型,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至8中任意一项所述的基于crf模型的智能数据打标方法。