1.本发明涉及建筑识别技术领域,特别是涉及一种农村宅基地建筑识别方法 及系统。
背景技术:2.《关于进一步加强农村宅基地管理的通知》中指出要严格落实“一户一宅
”ꢀ
规定,农村村民一户只能拥有一处宅基地,面积不得超过本省、自治区、直辖 市规定的标准,严禁城镇居民购买宅基地。《关于做好农村宅基地制度改革试 点地区宅基地基础信息调查工作的通知》中指出要综合运用遥感、测绘、互联 网、大数据、云计算、人工智能等信息技术开展宅基地基础信息调查工作,全 面摸清县域宅基地规模、布局、权属、利用状况等基础信息,为深化农村宅基 地制度改革试点提供支撑。
3.然而,当前对农村宅基地宗数、面积等信息的调查主要采用人工目视解译、 实地测绘等传统方法。但这种方法工作量大,周期长,出图效率低,很难满足 国家对宅基地统计和管理的需求。
技术实现要素:4.本发明的目的是提供一种农村宅基地建筑识别方法及系统,基于高分辨率 遥感影像和深度学习相关技术理论对农村宅基地的快速智能识别,为后续对宅 基地宗数、单宗面积及总体面积等信息的统计提供了技术基础。
5.为实现上述目的,本发明提供了如下方案:
6.一种农村宅基地建筑识别方法,包括:
7.基于包括农村宅基地的遥感图像构建训练集;
8.基于encoder-decoder结构构建msanet网络模型;所述msanet网络模 型采用融合混合时空注意力机制模块的resnet_v2_50为backbone;所述 msanet网络模型中设立边界提取模块;
9.通过所述训练集对所述msanet网络模型进行训练;
10.通过训练好的msanet网络模型对待识别的遥感图像进行农村宅基地建 筑识别。
11.可选地,所述基于包括农村宅基地的遥感图像构建训练集,具体包括:
12.获取包括农村宅基地的遥感图像;
13.对所述遥感图像进行切分;
14.对切分后的图像进行图像增强处理;
15.对处理后的图像进行标注构建训练集。
16.可选地,所述msanet网络模型的语义提取部分和边界提取部分的损失函 数均采用带权重的二分类交叉熵损失函数。
17.可选地,所述混合时空注意力机制模块包括通道注意力模块和空间注意力 机制模块。
18.本发明还提供了一种农村宅基地建筑识别系统,包括:
19.训练集构建模块,用于基于包括农村宅基地的遥感图像构建训练集;
20.模型构建模块,用于基于encoder-decoder结构构建msanet网络模型; 所述msanet网络模型采用融合混合时空注意力机制模块的resnet_v2_50为 backbone;所述msanet网络模型中设立边界提取模块;
21.训练模块,用于通过所述训练集对所述msanet网络模型进行训练;
22.识别模块,用于通过训练好的msanet网络模型对待识别的遥感图像进行 农村宅基地建筑识别。
23.可选地,所述训练集构建模块具体包括:
24.图像获取单元,用于获取包括农村宅基地的遥感图像;
25.切分单元,用于对所述遥感图像进行切分;
26.图像增强处理单元,用于对切分后的图像进行图像增强处理;
27.训练集构建单元,用于对处理后的图像进行标注构建训练集。
28.可选地,所述msanet网络模型的语义提取部分和边界提取部分的损失函 数均采用带权重的二分类交叉熵损失函数。
29.可选地,所述混合时空注意力机制模块包括通道注意力模块和空间注意力 机制模块。
30.根据本发明提供的具体实施例,本发明公开了以下技术效果:
31.针对当前宅基地传统调查方式的局限性,本发明基于高分辨率遥感影像和 深度学习相关技术理论对农村宅基地的快速智能识别,用于对农村宅基地的快 速智能识别,为后续对宅基地宗数、单宗面积及总体面积等信息的统计提供了 技术基础,为国家在农村宅基地数字化管理、制度改革和决策等方面提供依据 和技术支撑。
附图说明
32.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是 本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性 的前提下,还可以根据这些附图获得其他的附图。
33.图1为本发明实施例农村宅基地建筑识别方法的流程图;
34.图2为msanet网络结构图;
35.图3为resnet_v2_msa结构图;
36.图4为通道注意力机制;
37.图5为空间注意力机制;
38.图6为具体实施例农村宅基地建筑识别方法的整体流程图;
39.图7为农房密集地区的识别结果;
40.图8为山区农房稀疏地区的识别结果。
具体实施方式
41.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完
整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造 性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
42.本发明的目的是提供一种农村宅基地建筑识别方法及系统,基于高分辨率 遥感影像和深度学习相关技术理论对农村宅基地的快速智能识别,为后续对宅 基地宗数、单宗面积及总体面积等信息的统计提供了技术基础。
43.为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和 具体实施方式对本发明作进一步详细的说明。
44.如图1所示,本发明提供的一种农村宅基地建筑识别方法,包括以下步骤:
45.步骤101:基于包括农村宅基地的遥感图像构建训练集。
46.步骤102:基于encoder-decoder结构构建msanet网络模型;所述msanet 网络模型采用融合混合时空注意力机制模块的resnet_v2_50为backbone;所 述msanet网络模型中设立边界提取模块。边界提取模块用于提取宅基地精细 边界,用来refine宅基地提取效果。
47.本发明msanet架构采用resnet_v2_50为backbone提取特征,并将上述 的混合注意力模块嵌入到backbone网络中,提高前景信息的“被关注度”, 实现对前景信息的精准提取,同时,考虑到农村宅基地分布较为紧密,边缘部 分噪声大,不易分割出单独的宅基地个体,所以设立边界模块提取边缘特征来 refine提取效果。如图3所示,将混合注意力机制msa模块(mixedspatiotemporalattentionmodule)嵌入到resnet每个bottleneck的残差模块结 构中,以提取更精细的语义信息。
48.msanet网络结构图如图2所示,msanet模型核心思想是利用端到端的 训练方式,网络以残差网络resnet_v2_50等sota网络为backbone,添加混 合时空注意力机制,增强前景信息的权重,具体为:将每一层特征图经过混合 时空注意力模块后生成注意力热图,与解码阶段的特征图拼接,形成具有权重 效应的特征图。使用金字塔池化结构模块(aspp)作为编码端提取特征,其中 resnet_v2_50为含输入流、中间流和输出流的dcnn网络,aspp则为含多 个空洞卷积扩张率的多尺度金字塔特征提取模块,放置在编码阶段最后一层特 征图之后来提取全局信息。解码端以一个较为简易的合并上采样模块预测输出 分割结果,融合resnet_v2_50输出的底层特征和编码端输出高层特征再进行 双线性插值上采样,能用较少的训练集得到较好的训练分割效果。最后设立了 边界提取模块,所述边界提取模块的实施过程为:将解码阶段每一层拼接后的 特征图经过步数为1、输出通道数为1的basicblock,输出形状与特征图一样, 通道数为1的边界图,利用多层不同分辨率的标签约束边界的生成,从而提取 出精细的边缘特征。
49.模型采用了空洞卷积代替传统卷积方式,扩大感受野获取更多的上下文信 息来解决降采样导致输出特征分辨率较小的问题,以远程连接方式将低层特征 信息和高层特征信息融合。低层特征信息含有更多的边缘信息,有利于提高训 练精度,高层特征信息提取更复杂特征,解码端通过双线性插值上采样的方式 恢复目标细节信息和空间维度。但该网络由于编码模块在训练过程中逐渐缩减 输入数据的空间维度导致有用信息丢失,在解码时不能很好实现细节恢复。
50.视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快 速扫
描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦 点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节 信息,而抑制其他无用信息。
51.senet就是通过自学习方式来学习每个特征通道的重要程度,然后根据这 个重要性来增加有用特征和抑制用处不大的特征权重,聚焦于有用特征通道重 要性权重的学习,加强有用特征的传播能力来提高网络模型泛化能力。
52.遥感图像中存在空间尺度大、地物种类多、类内方差大等特点,而农村宅 基地具有目标小、分布散、数据不平衡等特点,在大范围遥感图像中属于小目 标类。为解决农村地区宅基地识别存在的挑战与困难,本发明聚合了空间注意 力机制和通道注意力机制,结合遥感影像上下文信息,来增强算法对前景目标 的适应性拟合。
53.通道注意力机制如图4所示。将输入的特征图,经过基于width和height 的全局平均池化(globalaverage pooling),然后经过mlp。将mlp输出的 特征进行sigmoid激活操作,生成最终的channel attention featuremap。将该 channel attention featuremap和input featuremap做elementwise乘法操作,生成 spatial attention模块需要的输入特征。以上是通道注意力机制的步骤。
54.通道注意力机制(channelattentionmodule)是将特征图在空间维度上进 行压缩,得到一个一维矢量后再进行操作。在空间维度上使用全局平均值池化 (globalaverage pooling)进行压缩。平均池化可用来聚合特征映射的空间信 息,送到一个共享网络,压缩输入特征图的空间维数,再使用sigmoid函数激 活以产生通道注意力图。单就一张图来说,通道注意力,关注的是这张图上哪 些内容是有重要作用的。平均值池化对特征图上的每一个像素点都有反馈,将 关注的前景信息加上更大的权重。通道注意力机制可以表达为:
55.mc(f)=sigmoid(mlp(avgpool(f)))=sigmoid(w1(w0(favg)))
56.空间注意力机制如图5所示。将channel attention模块输出的特征图作为 本模块的输入特征图。首先做一个基于channel的globalaverage pooling,然 后将结果经过一个1
×
1卷积操作,保持维度为1个channel。再经过sigmoid 生成spatial attention feature。最后将该feature和该模块的输入feature做 elementwise乘法,得到最终生成的特征。
57.同样,空间注意力机制(spatialattentionmodule)是对通道进行压缩,在 通道维度进行了平均值池化。avgpool的操作就是在通道上提取平均值,提取 的次数是高乘以宽,平均值池化对特征图空间位置上的每一个像素点都有反 馈,将关注的前景信息的空间位置加上更大的权重,确保训练与预测的过程中 前景的“被关注度”更高。
58.步骤103:通过所述训练集对所述msanet网络模型进行训练。
59.步骤104:通过训练好的msanet网络模型对待识别的遥感图像进行农村 宅基地建筑识别。
60.具体实施例如下:
61.本发明选取浙江省湖州市德清县作为试验区,以mapbox影像为底图,下 载0.29m分辨率遥感影像作为数据源。使用基于python语言开发的开源标注 软件labelme制作样本标签,将大尺度的遥感图像切分成多个512*512的小图 建立训练数据集,使用重采样策略,设定采样阈值,平衡前景背景目标,并对 训练数据进行图像增强操作。然后将整个训练集
输入到改进后的msanet网络 进行训练,训练到损失值在某个范围内收敛。训练结束后,选择有标注的验证 集对模型进行验证,并计算miou等评价指标。最后将模型部署到线上,在线 提取农房过程中,选择好的某农村区域的遥感影像,利用训练好的网络模型得 到农村地区建筑物预测分割结果,并结合图形学相关理论进一步优化预测结 果。具体流程图如图6所示。
62.德清县同时存在山区和平原,不同的地貌有很大的类内差异,背景信息极 为丰富。山区农房分布稀疏,数量较少,存在严重的数据不平衡现象。平原地 区房屋屋顶的形状、纹理、颜色种类多,前景信息之间也存在很大的类内方差; 同时,多数农房与田地、河流等地物在色调、明暗度上较为相似,极易对前景 的分割产生误报。
63.从德清县县域影像中的不同位置均匀的裁剪5幅15000
×
15000以上的影 像用于训练与验证,另随机裁剪4幅影像用于测试结果。对5幅用于训练与验 证的影像进行二分类标注,房屋标注为前景,其余标注为背景。然而,15000
ꢀ×
15000的遥感影像无法输入网络中进行训练和预测,且数据存在严重的不平 衡现象,故将4张用于训练的大图采用随机裁剪+过采样裁剪的方式裁剪为512
ꢀ×
512的小图。其中,过采样裁剪的具体实施方式为:随机裁剪的图像中,如 果前景像元数/总像元数》=0.08,则保留,否则舍弃,继续裁剪以达到该条件。 为了避免过拟合等现象,本发明采用了调整亮度值、添加椒盐噪声、随机翻转、 随机旋转和随机缩放等数据扩增技术,最后,训练集数据为3305张训练集数 据,验证集数据为1张标注过的大图随机裁剪成的850张512
×
512的小图。
64.遥感影像中地物特征复杂,仅采用原始的resnet骨架网络易受阴影、树 木遮挡等噪声的影响,难以精准的识别出农房这样的小目标,故本发明采用带 有混合时空注意力模块的resnet_v2_50为骨架网络提取农房信息,使得网络 更关注前景目标特征。每一张512
×
512的小图经过多层特征采样处理得到精 细化的农房边界,用边界结果改善分割图效果,达到准确提取农房的目的。
65.如图2所示,以某个批次内的一张图像为例,在第一层中,原始图像通过 卷积核大小为7
×
7,步数为2的卷积层和步数为2的最大池化层下采样,得 到原图大小1/4的特征图,并经过resnet的第一个3层的bottleneck(步数均 为1),得到特征图1,特征图1经过混合时空注意力模块生成注意力热图1, 与解码阶段最后一层上采样的特征图拼接,形成具有权重效应的特征图1-1。 特征图1经过resnet的第二个4层的bottleneck,得到原图大小1/8的特征图 2,特征图2经过混合时空注意力模块生成注意力热图2,与解码阶段第三层 上采样的特征图拼接,形成具有权重效应的特征图2-2。编码阶段的后两部分 分别经过resnet第三个6层的bottleneck和第四个3层的bottleneck形成特征 图3和4,其中,第四个3层的bottleneck采用dilated为2的空洞卷积,使得 后两个特征图大小均为原图的1/16。特征图3经过同上述一样的过程,生成注 意力热图3,和解码阶段第二层上采样的特征图相拼接生成特征图3-3。特征 图4则经过后述aspp结构生成多尺度特征图,并将多尺度特征图经过同上述 一样过程,生成注意力热图4,与特征图4拼接形成解码阶段的第一层特征图 4-4。aspp结构采用不同dilatedrate并联的方式,在不降低图像分辨率的情况 下获得了多尺度的感受野,原aspp结构中使用dilated rate为1、6、12、18 的空洞卷积进行组合,本发明发现使用较大的dilatedrate卷积核虽能达到全局 感受野,但却忽略了很多语义细节信息,无法有效的减少背景信息的误报,故 重新调整dilatedrate为1、2、4、8,放置在编码阶段最
后一层特征图之后来 提取全局信息,这样既保持了细节的语义信息特征,又能获得全局的感受野, 达到聚合上下文信息的目的。农村地区房屋分布紧密,下采样过程中仅通过语 义信息很难分割出单独的宅基地,所以考虑设立单独的边界模块,从语义信息 中提取边缘信息。具体为:将解码阶段特征图1-1、2-2、3-3、4-4分别经过步 数为1、输出通道数为1的basicblock层,生成形状与解码阶段特征图一样、 通道数为1的边界图1、2、3、4,利用多层不同分辨率的标签约束边界的生 成,最后将提取的多层边界图相拼接,融合至解码阶段特征图1-1中,完成refine 过程。
66.为了网络快速收敛、防止陷入局部最优,本发明采用adam方法作为优化 器训练网络,其中的超参数设置为:β1=0.9,β2=0.999,ε=1e-8
。全局训练步数 设置为60000步,学习率learning rate设置以固定步长衰减的方式逐步递减, 初始学习率为1e-3
,之后每20000步下降为原来学习率的10%,最终训练结束 时学习率为1e-5
。由于硬件限制,本发明设置batch size为8进行迭代训练。
67.本发明从正负样本比例的角度出发考虑损失函数,为了均衡图像中正负样 本的比例,本文的损失函数采用如下带权重的二分类交叉熵损失函数,其中, 设置正负样本权重比例为3:1。
[0068][0069]
最终,网络训练结果在验证集上的表现如图7-8所示。评价指标miou达 到了86.7%,准确率达到了93.5%,说明了网络在农村地区宅基地识别上的有 效性。
[0070]
本发明还提供了一种农村宅基地建筑识别系统,包括:
[0071]
训练集构建模块,用于基于包括农村宅基地的遥感图像构建训练集;
[0072]
模型构建模块,用于基于encoder-decoder结构构建msanet网络模型; 所述msanet网络模型采用融合混合时空注意力机制模块的resnet_v2_50为 backbone;所述msanet网络模型中设立边界提取模块;
[0073]
训练模块,用于通过所述训练集对所述msanet网络模型进行训练;
[0074]
识别模块,用于通过训练好的msanet网络模型对待识别的遥感图像进行 农村宅基地建筑识别。
[0075]
其中,所述训练集构建模块具体包括:
[0076]
图像获取单元,用于获取包括农村宅基地的遥感图像;
[0077]
切分单元,用于对所述遥感图像进行切分;
[0078]
图像增强处理单元,用于对切分后的图像进行图像增强处理;
[0079]
训练集构建单元,用于对处理后的图像进行标注构建训练集。
[0080]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是 与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于 实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较 简单,相关之处参见方法部分说明即可。
[0081]
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施 例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的 一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变 之处。综上所述,本说明书
内容不应理解为对本发明的限制。