一种用于解决样本比例不平均问题的图像分类方法及装置

allin2025-03-23  32


本发明涉及图像处理和图像分类,具体地,涉及一种用于解决样本比例不平均问题的图像分类方法及装置。
背景技术
:1、在机器学习和数据挖掘领域,样本不平衡是一个普遍存在的问题,特别是在对比学习等任务中。在对比学习任务中,通常需要比较两个样本的相似性或差异性,其中正样本表示相似的样本对,而负样本则表示不相似的样本对。然而,由于真实世界数据的复杂性和采集方式的限制,正样本的数量往往远远少于负样本,导致了样本不平衡问题的出现。2、正样本比例过少可能对模型的性能产生负面影响。在对比学习任务中,如果正样本比例太少,模型可能会倾向于忽略正样本而更多地关注负样本,从而导致模型在真实场景中的泛化能力下降,甚至出现严重的过拟合现象。这种情况下,模型往往会出现低准确率和低召回率的问题,无法有效地区分正负样本,从而影响任务的整体效果和应用场景的可靠性。3、因此,针对对比学习中正样本比例过少的问题,需要采取有效的解决方法,以提高模型在样本不平衡情况下的性能和鲁棒性。数据增强、样本再平衡技术、类别重要性加权等方法被广泛应用于解决样本不平衡问题,以帮助模型更好地学习正负样本之间的差异,提高对比学习任务的效果和可信度。技术实现思路1、针对现有技术中的缺陷,本发明的目的在于提供一种用于解决样本比例不平均问题的图像分类方法及装置,本发明方法通过数据增强技术对训练数据进行处理,有效增加了训练样本的多样性,显著提升了图像分类的精度。2、为解决上述问题,本发明的技术方案为:3、一种用于解决样本比例不平均问题的图像分类方法,包括以下步骤:4、输入预训练的样本图像,计算负样本数量;5、将样本图像划分为大小相等的图像块,使用p-stable函数将图像块进行重新组合,并对图像块之间的分割线进行模糊处理,生成图像语义信息不改变的增强图片;6、通过数据增强处理,生成与负样本数量相同的正样本;7、使用正负比例平衡的样本对resnet网络进行训练,并使用训练好的resnet网络对模型进行迁移训练,获得精度更高的分类模型。8、优选地,所述输入预训练的样本图像,计算负样本数量的步骤中,待分类的图像从cifar-10数据集中提取,分类图像包括飞机、汽车、鸟、猫、鹿、狗、蛙、马、羊和卡车,从cifar-10数据集输入预训练的样本图像和计算负样本数量。9、优选地,所述将样本图像划分为大小相等的图像块,使用p-stable函数将图像块进行重新组合,并对图像块之间的分割线进行模糊处理,生成图像语义信息不改变的增强图片的步骤,具体包括:将样本图像划分为大小相等的图像块,并按随机数进行重新组合,所述随机数由增强后的p-stable函数分布生成,其包括高斯分布、列维分布、柯西分布,这些随机数的取值范围与cifar-10数据集中图像块的数量相等,并且每个随机数唯一对应一个图像块,从而确保图像块按这些随机数进行不重复的重新组合,再将图像块与图像块之间的分割线进行模糊处理,然后生成图像语义信息不改变的增强图片。10、优选地,所述通过数据增强处理,生成与负样本数量相同的正样本的步骤,具体包括:11、步骤1:数据准备,提取cifar-10数据集中包含飞机,汽车,鸟,猫,鹿,狗,蛙,马,羊和卡车十类经典图像分类训练图片,并计算出需要生成的正样本数量;12、步骤2:随机数生成,通过p-stable函数分布的原理生成随机数;13、步骤3:数据增强,将输入的图像和与之大小相同的随机数划分为大小相等的图像块,对生成的图像块执行随机打乱操作,对图像块之间的连接线进行模糊处理,增加模型在训练过程中对图像块之间关系的学习难度。14、优选地,所述使用正负比例平衡的样本对resnet网络进行训练,并使用训练好的resnet网络对模型进行迁移训练,获得精度更高的分类模型的步骤中,所述模型为对比学习simclr模型,包括在线网络和目标网络。15、优选地,所述对比学习网络的训练步骤包括:16、步骤1:设迭代次数为t,最大迭代次数为t,t≥40;17、步骤2:将数据增强后的训练样本作为对比学习网络的输入,进行迭代训练,并判断t=t是否成立,若是,得到训练好的对比学习图像分类网络模型,否则,执行步骤3;18、步骤3:采用损失函数l1,并通过当前对比学习图像分类网络模型所输出的目标预测类别,计算当前对比学习图像分类网络模型的损失值l,并通过l对当前对比学习图像分类网络模型的权重进行调整,令t=t+1,执行步骤2;19、步骤4:对比学习网络训练结束后,舍弃目标网络编码器,只保留一个编码器,根据该编码器,所有训练数据可生成自洽表示,然后添加多层感知机的非线性投影头用于训练图像分类,采用激活函数relu,损失函数l对当前图像分类网络模型的权重进行调整,最后,将测试样本输入训练好的图像分类神经网络,获取所有目标的类别,然后计算待分类图像的类别,并将其作为对比学习图像分类的检测结果。20、优选地,所述激活函数relu函数表达式为:21、relu(x)=max(0,wtx+b)22、式中:w代表图像分类网络模型的权重,x代表输入图像分类网络模型的图像,b表示随机权重参数;23、所述损失函数l表达式为:24、25、式中:代表待分类图像的真实标签,y代表图像分类网络模型输出的预测标签,b表示随机权重参数。26、进一步地,本发明还提供一种用于解决样本比例不平均问题的图像分类装置,包括处理器以及用于存储所述处理器的可执行指令的存储器,所述处理器配置为经由执行所述可执行指令来执行如上所述的用于解决样本比例不平均问题的图像分类方法。27、与现有技术相比,本发明具有以下的有益效果:28、1、本发明对待分类的图像进行了基于语义信息不变的正样本数据增强,有效增加了训练数据的多样性;29、2、本发明方法增加了模型训练难度,显著提升了图像分类的精度。技术特征:1.一种用于解决样本比例不平均问题的图像分类方法,其特征在于,所述方法包括以下步骤:2.根据权利要求1所述的用于解决样本比例不平均问题的图像分类方法,其特征在于,所述输入预训练的样本图像,计算负样本数量的步骤中,待分类的图像从cifar-10数据集中提取,分类图像包括飞机、汽车、鸟、猫、鹿、狗、蛙、马、羊和卡车,从cifar-10数据集输入预训练的样本图像和计算负样本数量。3.根据权利要求1所述的用于解决样本比例不平均问题的图像分类方法,其特征在于,所述将样本图像划分为大小相等的图像块,使用p-stable函数将图像块进行重新组合,并对图像块之间的分割线进行模糊处理,生成图像语义信息不改变的增强图片的步骤,具体包括:将样本图像划分为大小相等的图像块,并按随机数进行重新组合,所述随机数由增强后的p-stable函数分布生成,其包括高斯分布、列维分布、柯西分布,这些随机数的取值范围与cifar-10数据集中图像块的数量相等,并且每个随机数唯一对应一个图像块,从而确保图像块按这些随机数进行不重复的重新组合,再将图像块与图像块之间的分割线进行模糊处理,然后生成图像语义信息不改变的增强图片。4.根据权利要求1所述的用于解决样本比例不平均问题的图像分类方法,其特征在于,所述通过数据增强处理,生成与负样本数量相同的正样本的步骤,具体包括:5.根据权利要求1所述的用于解决样本比例不平均问题的图像分类方法,其特征在于,所述使用正负比例平衡的样本对resnet网络进行训练,并使用训练好的resnet网络对模型进行迁移训练,获得精度更高的分类模型的步骤中,所述模型为对比学习simclr模型,包括在线网络和目标网络。6.根据权利要求5所述的用于解决样本比例不平均问题的图像分类方法,其特征在于,所述对比学习网络的训练步骤包括:7.根据权利要求6所述的用于解决样本比例不平均问题的图像分类方法,其特征在于,所述激活函数relu函数表达式为:8.一种用于解决样本比例不平均问题的图像分类装置,其特征在于,所述装置包括处理器以及用于存储所述处理器的可执行指令的存储器,所述处理器配置为经由执行所述可执行指令来执行如权利要求1至7中任意一项所述的用于解决样本比例不平均问题的图像分类方法。技术总结本发明提供了一种用于解决样本比例不平均问题的图像分类方法及装置,所述方法包括:输入预训练的样本图像,计算负样本数量;将样本图像划分为大小相等的图像块,使用P‑Stable函数将图像块进行重新组合,并对图像块之间的分割线进行模糊处理,生成图像语义信息不改变的增强图片;通过数据增强处理,生成与负样本数量相同的正样本;使用正负比例平衡的样本对ResNet网络进行训练,并使用训练好的ResNet网络对模型进行迁移训练,获得精度更高的分类模型。本发明方法通过数据增强技术对训练数据进行处理,有效增加了训练样本的多样性,显著提升了图像分类的精度。技术研发人员:田秀霞,何运飞受保护的技术使用者:上海电力大学技术研发日:技术公布日:2024/10/31
转载请注明原文地址: https://www.8miu.com/read-19503.html

最新回复(0)