本发明涉及深度学习、雾天图像增强以及小样本目标检测技术,具体是一种基于fogdet-net的雾天小样本目标检测方法。
背景技术:
:1、在雾天气候条件下,由于恶劣的环境影响,目标检测算法面临着图像质量较差的挑战。这种现象导致物体的边缘变得模糊或消失,进而影响算法的准确性和鲁棒性,限制了其在各领域中的应用效果。因此,针对雾天气候场景设计专门的目标检测算法具有重要意义。2、为了克服在雾天环境下目标检测所面临的挑战,本发明从多个角度提出了解决方案:3、第一种是采用传统的图像处理技术进行目标检测,这些算法主要基于传统的图像处理技术,如雾图像恢复、直方图均衡和滤波等,通过对图像进行增强来提高图像质量以完成目标检测任务。然而,这些方法的有效性受到先验知识和手动调整的限制,在实际应用中存在较大的局限。4、第二种是采用基于雾程度估计算法的目标检测,该方法首先估计图像中的雾程度并相应地去除雾,然后再使用去雾后的图像进行目标检测。虽然此方法对雾程度的估计比较敏感,但仍然需要解决先验知识调整和计算量大的问题。5、第三种是多模态信息融合的目标检测被广泛应用于自动驾驶领域。该方法将红外线图像、可见光图像等不同模态的信息进行融合,以提高目标检测的鲁棒性和准确性。然而,如果两种模态信息在物理特征上存在较大差异,则融合效果可能会受到很大影响。6、目标检测的泛化能力也很重要,大部分的目标检测器如果要对训练时未见过目标进行检测时需要大量新类数据进行重新训练,需要的代价较大,因此需要一个对于只有少量样本数的新类目标检测网络微调即fine-tuning方法。7、综上所述,针对雾天、目标检测泛化能力的一些问题,急需一种雾天小样本目标检测方法。技术实现思路1、本发明的目的是针对现有技术的不足,而提供一种基于fogdet-net的雾天小样本目标检测方法。这种方法能够不受雾天影响检测出图像中的目标对象,并且能够快速泛化到新的检测类别上。2、实现本发明目的的技术方案是:3、1、一种基于雾天图像目标检测网络(foggy image object detection net,fogdet-net)的雾天小样本目标检测方法,其特征在于,包括如下步骤:4、1)对pascal voc2007数据集进行处理和划分得到base类与小样本目标novel类,过程为:5、1-1)本文只用的是pascal voc2007数据集,该数据集是计算机视觉任务中常用的一个大型标准化数据集,主要用于图像识别、目标检测、语义分割等任务,voc 2007数据集包含9963张标注过的图片,数据集共包含20个类别,涉及人、动物(如猫、狗、牛等)、交通工具(如车、飞机、船等)和室内物品(如椅子、桌子、电视等)等。将该数据集进行预处理,使图像缩放到统一的长×宽为544×544;6、1-2)pascal voc2007数据集中包含9963张正常环境的图片,包含20个类别。首先选取其中15个类为base类,base类包括aeroplane、bicycle、bird、boat、bottle、bus、car、cat、chair、cow、diningtable、dog、horse、motorbike、person,其余5个类为novel类,novel类包括pottedplant、sheep、sofa、train、tvmonitor,将base类以8:2的比例划分成两部分,其中80%为训练集、20%为测试集,训练集共9760张图片,测试集共2440张图片,共有12200张图片,base类结合novel类各选5张图片,构建base类和novel类的平衡训练集共100张图片;7、2)构造检测驱动的多尺度特征增强模块(detection-driven multi-scalefeature enhancement module,ddmsfem)中,如所图2示,对输入进的雾天图像进行特征增强:过程包括:8、2-1)对输入的雾天图片构造多尺度特征,过程包括:将输入进一个7×7卷积层提取特征图,输出特征图的尺寸3×136×136,记为im,再将特征图im输入进1个3×3卷积层进行特征提取,输出特征图的尺寸为3×68×68;记为is,最后再将雾天图片转换为两个尺寸为3×544×544的特征图,分别记为io和il;9、2-2)设计并训练细粒度特征增强模块(fine-grain feature enhancementmodule,fgem),如所图4示,对大尺度特征图进行特征增强,恢复特征图的细节特征,提高了模型的表达能力:过程包括:将步骤2-2)得到的特征图is作为fge模块的输入,fge模块设有3组卷积层和3个池化层,特征图is输入进一个16×3×3的卷积层进行编码,输出特征图经过leaky relu层激活,该特征图记为c1,将c1输入到三个大小分别为3×3、9×9、13×13的池化层中,分别输出特征图记为c2、c3、c4,然后将c1、c2、c3、c4进行通道维度上的拼接,输出特征图记为c5,c5输入到一个16×3×3的卷积层和3×3×3的卷积层中进行解码,经过两个卷积层的特征信息同时经过两次leaky relu层激活,输出的特征图记为c6,然后将c6和is进行逐元素相加,该特征信息经过relu层激活,输出的特征图记为fs;fge模块最终输出的特征图fs的尺寸为3×68×68;10、2-3)设计并训练跨尺度注意力模块(cross scale attention module,csam),如图5所示,用于对原始特征图进行加权,突出重要特征通道,抑制不重要的特征通道,从而抑制雾气带来的噪声干扰。同时,间接地引导了不同尺度特征图的融合过程:过程包括:将步骤2-1)、2-2)得到的特征图is和fs作为csa模块的输入,csa模块由一个channel attention模块、两个卷积层和一个自适应平均池化层组成;channel attention模块由一个1×1卷积层、一个batch normalization层和一个sigmoid层组成,特征图is和fs在通道维度上进行拼接,记为c7,c7输入进一个64×3×3的卷积层中进行编码,输出特征图记为c8,c8输入进自适应平均池化层进行下采样,输出特征图记为c9,c9输入进channel attention模块中,输出特征图记为c10,将c9和c10进行逐元素的相乘,输出特征图记为c11,c11输入到一个3×3×3的卷积层进行解码,输出特征图记为c12,尺寸为3×68×68;11、2-4)设计并训练全局特征增强模块(global feature enhancement module,gem),如图6所示,对小尺度特征图进行细节增强,通过融合下采样后的低分辨率特征图(包含更多语义信息)和原始高分辨率特征图,可以有效地补充和增强细节信息,帮助模型识别目标的整体结构,同时有助于精确定位目标:过程包括:将步骤2-3)得到的特征图c12进行2倍上采样,记为c13,将c13和步骤2-1)得到的特征图im作为第一个ge模块的输入,ge模块设有四个卷积层和一个池化层,将c13输入进1个3×3卷积层进行通道维度的扩展,记为c14,将特征图im输入进1个3×3卷积层进行通道维度的扩展,记为c15,将c14和c15进行逐元素相乘,记为c16,将c13先进行2倍上采样,再输入进1个3×3卷积层进行通道维度的扩展,记为c17,将c16输入进1个2×2的最大池化层进行2倍下采样,记为c18,将c17和c18进行逐元素相加,记为c19,将c19输入进1个3×3的卷积层进行通道维度的压缩,记为c20,将c20和im进行逐元素的相加,记为fm;将步骤2-4)得到的特征图c13进行4倍上采样,记为c21,将c21和步骤2-3)得到的特征图il作为第二个ge模块的输入,执行步骤2-4)相同的操作,输出特征图记为fl;步骤2-4)得到的特征图fm、fl的尺寸分别为:3×544×544,3×136×136;12、2-5)将步骤2-1)、2-2)、2-4)得到的特征图io、fs、fl、fm进行多尺度特征融合:过程包括:将步骤2-2)、2-4)得到的fs和fl分别进行8倍上采样和4倍上采样,上采样通过双线性插值操作执行,分别记为c22和c23,然后将步骤2-3)、2-4)得到的特征图io、fl与c22、c23进行逐元素相加,整合io、fl、fm、fs以获得涵盖全局和局部特征的最终增强层次表示特征图,最后将特征图转换为图片获得最终增强后的雾图像数据集,图片的尺寸为544×544×3;13、3)构造原型聚合小样本目标检测模块(prototypes aggregation few shotobject detection module,pa-fsodm),如图3所示,对增强后的雾天图像进行检测框预测与分类:过程包括:14、3-1)构造提取雾图像特征模块版本1(extract feature in foggy imageversion1module,exinfogv1),如图7所示,对输入的雾天增强后的图像进行中级特征的提取:过程包括:exinfogv1模块设有3个stage,第一个stage由1个7×7卷积层、batchnormalization层、relu层和1个maxpooling层组成,第二个stage由一个cbr1模块和两个cbr2模块组成,cbr1模块由三个1×1卷积层、1个3×3卷积层、4个batch normalization层和3个relu层组成,cbr2模块由2个1×1卷积层、1个3×3卷积层、3个batch normalization层和3个relu层组成,第三个stage由1个cbr1模块和3个cbr2模块组成;图片经过第一个stage进行特征图尺寸的缩写和通道维度的扩展,经过第二个stage进行特征图通道维度的扩展,保持尺寸大小不变,经过第三个stage进行尺寸进一步压缩,通道维度扩展;exinfogv1模块的stage3输出特征图的尺寸为512×68×68,分别记为c24、c25;15、3-2)构造超感知特征聚合模块(hyper-perceptive features aggregationmodule,hpfam),如图14所示,提取有效的特征,并且准确地区分不同的类别,更好地从支持图片中提取特征,再根据匹配结果将这些特征分配到查询特征图中,实现两种特征关系的建模。:过程包括:将步骤3-1)得到的特征图c24、c25作为hpfa模块的输入,hpfa模块设有prototypes distillation模块和prototypes assignment模块,prototypesdistillation模块由1个scale cosine similarity attention模块、1个可学习的嵌入层和1个卷积层组成,prototypes assignment模块由1个scale cosine similarityattention和2个卷积层组成,c24输入进1个3×3卷积层进行通道维度的压缩,记为k1,嵌入层将整个支持特征空间细化为一组代表性特征,它可以过滤噪音并简化训练,输出特征图记为q1,将c24作为v1,将k1、v1和q1输入进scale cosine similarity attention模块进行特征原型的提取,记为c26,另外再引入一个背景特征与c26进行批次维度的拼接,记为c27,将c27输入进1个3×3卷积层进行通道维度的压缩,记为c28,将c25输入进1个3×3卷积层进行通道维度的扩展,记为c29,将c27、c28、c29输入进scale cosine similarity attention模块进行特征提取,记为c30,将c25、c30进行逐元素求和,得到的特征图记为c31,尺寸为3×544×544;16、3-3)构造区域提议网络(region proposal network,rpn),如图15所示,对图像选取候选框,构造roi模块基于生成的候选框,从特征图中提取固定大小的特征:过程包括:将步骤3-2)得到的特征图c31作为rpn模块的输入,rpn模块由1个softmax层、3个卷积层组成,rpn模块先生成21600个候选框,然后将c31输入进1个3×3卷积层,然后分两路输入进两个1×1卷积层和softmax层,计算候选框包含物体的概率,筛选得到300个候选框的坐标,记为c32,然后将c32输入进roi模块,roi模块设有1个max pooling层,c32经过roi模块截取为同等大小的特征图,记为c33,尺寸为3×14×14;17、3-4)构造提取雾图像特征模块版本2(extract feature in foggy imageversion2module,exinfogv2),如图8所示,为所有分支提取高级特征,产生roi特征和类级别原型:过程包括:将步骤3-1)、3-3)得到的特征图c24、c33作为exinfogv2模块的输入,exinfogv2模块设有一个stage,这个stage包含与步骤3-1)一致的1个cbr1模块和两个cbr2模块,将c24、c33输入进stage分别对图像提取roi特征和类原型特征,分别记为c34、c35,尺寸为:3×7×7;18、3-5)构造多源特征聚合模块(multi-source feature fusion module,msffm),由下面公式(1)、(2)执行,进行特征融合,同时更好地区分不同类别的差异。过程包括:将步骤3-4)得到的特征图c34、c35作为msff模块的输入,msff模块设有4个全连接层,c34、c35输入进msff模块后,第一个全连接层对c34、c35逐元素乘积进行线性变换和非线性激活,记为c36,第二个全连接层对c34、c35逐元素差进行线性变换和非线性激活,记为c37,第三个全连接层对c34、c35进行线性变换和非线性激活,综合考虑两个特征之间的相关性和差异性,记为c40,第四个全连接层对c34、c36、c37、c38进行线性变换,进一步融合四个特征,从而得到最终的特征表示,输出的特征图记为c39,尺寸为3×7×7,msff模块由公式(1)、(2)执行:19、f′=[f1(froi⊙pcls),f2(froi+pcls),f3(froi-pcls),f4(froi,pcls),froi](1)20、21、⊙:逐元素乘法;f1、f2、f3:独立的全连接层,带有relu激活函数;fagg:纯全连接层。22、3-6)构造detection head模块对输入的特征图进行检测框预测与分类:过程包括:将步骤3-5)得到的特征图c39作为detection head模块的输入,detection head模块设有两个全连接层、1个roi池化层;将步骤3-5)得到的特征图c39分别经过两个全连接层进行回归预测和对建议框进行分类,得到50个检测框以及检测框对应的50个分类结果;23、4)在base类数据集进行目标检测训练并测试检测效果:过程包括:24、4-1)步骤3-6)得到的预测框相当于一个大小为50的集合,而真实的检测框相当于另一个集合,得到的预测框集合没有与真实的检测框建立一个一一对应关系,也就是接下来需要把预测出来的50个框与真实的检测框做最佳匹配,使得损失最小;25、4-2)模型在训练过程中的损失函数定义如公式(3)所示:26、27、其中δ表示进行最佳匹配后的某种顺序,y={c,b}为预测的分类结果与检测框,为使得最佳匹配后真实分类结果与检测框,m为预测框的数量,标识只有类别不为背景时计算lbbox使用交叉熵为损失,而lb使用计算预测框与真实框l1范数作为损失,即y′为查询图片预测的分类结果与检测框,lmeta同样使用交叉熵损失,即28、4-3)首先计算50个预测框与每个真实框的iou值作为权重,采用kuhn-munkres即km算法计算出预测框与真实框的最佳匹配,真实检测框的顺序记为km算法表示如公式(4)所示:29、30、采用km算法找到一个使得损失最小的匹配序列,然后将得到的最小损失进行反向传播进行训练;31、4-4)对预测分数设置一个阈值,只有预测的置信度大于阈值的预测框进行输出;32、5)基于base类和novel类平衡训练集进行小样本新类物体目标检测fine-tuning:过程如下:33、5-1)第一阶段根据步骤4)采用大量的base类数据样本对模型进行常规目标检测训练,网络的损失由步骤4-2)、4-3)所述组成;34、5-2)第二阶段是基于小样本fine-tuning,在保持整个detection-driven multi-scale feature enhancement模块以及prototypes aggregation few shot objectdetection模块除检测头的部分的参数不变的情况下,去除模型检测头的参数,为新的类别分配随机初始化的权值,之后再在步骤1-1)构建的base类和novel类平衡训练集上fine-tuning,这个过程采用余弦相似性取代交叉熵作为损失,并且缩小学习速率。35、本技术方案采用detection-driven multi-scale feature enhancement模块,对输入进的雾天图像进行特征增强,该模块包含了fine-grain enhancement模块、crossscale attention模块和global enhancement模块来对不同尺度特征图采用不同的策略进行特征增强,从而更好地从高分辨率和低分辨率特征中捕获全局和局部信息;接着使用prototypes aggregation few shot object detection模块对增强后的雾天图像进行检测框预测与分类,该模块包含了hyper-perceptive features aggregation模块、multi-source feature fusion模块,将最具代表性的支持特征提炼成细粒度的原型特征,然后通过注意力机制,hpfa模块将细粒度原型与查询特征图中的每个位置进行匹配,并将最相关的原型分配到相应的位置。这相当于将支持特征中的关键信息传递到查询特征图中,帮助模型更好地理解查询图像中的目标物体。通过原型蒸馏和分配,hpfa模块建立了支持分支和查询分支之间的细粒度特征关系,使得模型能够利用支持图像中的信息来更好地识别和定位查询图像中的目标物体;msff模块用于融合roi特征和原型特征的模块,通过非线性变换和特征拼接的方式,更有效地探索高级特征之间的关系,从而提升小样本目标检测的性能;然后送入detection head模块,以提高模型进行检测时判断目标位置信息的准确性;最后使用base类进行常规的目标检测训练基础上保留特征提取模块权重再在base类和novel平衡的数据集上fine-tuning。36、这种方法能够不受雾天环境下拍摄的影响,对于产生的雾天图像仍然可以进行很好地识别来检测出图像中的目标对象,并且使用fine-tuning技术,可以快速学习对小样本新类物体的检测。当前第1页12
技术特征:1.一种基于雾天图像目标检测网络(foggy image object detection net,fogdet-net)的雾天小样本目标检测方法,其特征在于,包括如下步骤:
技术总结本发明公开了一种基于Fogdet‑Net的雾天小样本目标检测方法,所述方法包括如下步骤:1)利用大气散射模型和公开数据集合成雾天数据集,然后得到base类与novel类的平衡训练集;2)构造DDMSFE模块对输入的雾天图像进行特征增强;3)构造PA‑FSOD模块对雾天图像进行检测框预测与分类,4)在base类数据集进行目标检测训练并测试检测效果;5)基于base类和novel类平衡训练集进行小样本新类物体目标检测Fine‑tuning。这种方法能够不受雾天环境下拍摄的影响,对于产生的雾天图像仍然可以进行很好地识别检测出图像中的目标对象,并且使用Fine‑tuning快速泛化到新的检测类别上。
技术研发人员:江泽涛,黄佳彬,钟宁,刘畅,侬成一
受保护的技术使用者:桂林电子科技大学
技术研发日:技术公布日:2024/10/31