新闻资讯

利用基于注意力机制的深度学习模型对温室栽培的谷物作物进行高通量峰值检测

介绍
从大量图像数据中精确可靠地提取表型性状对于研究生物和非生物因素对谷类作物产量和农艺稳健性的影响至关重要。由于不同的光学设置、照明条件以及从不同表型设施获得的温室图像中观察到的穗状外观,检测温室环境中谷类作物的穗状花序构成了巨大的挑战[ 1]。特别是,欧洲浓密小麦品种中穗和叶颜色的相似性以及缺乏明确的穗轮廓阻碍了植物内部区域中突现穗的检测。为了解决小尖峰模式检测的问题,可以通过简单地放大输入图像来提高特征分辨率。

然而,这导致深度神经网络(DNN)模型训练和测试的时间消耗显着增加,并且在预处理阶段丢失了尖峰的丰富上下文特征。另一种方法是增加对象的特征维度,这可以通过组合增强的高级特征和低级特征来实现,从而生成对象的单个多尺度特征表示[ 2]。然而,提取的特征可能不足以区分和区分小内部尖峰。毕等人。[ 3 ] 为 3 层神经网络开发了各种架构,调整隐藏层节点的数量来对 4 个不同的小麦品种进行分类,以提取穗性状。米斯拉等人。[ 4 ]介绍了SpikeSegNet,这是一种通过利用两个连续的特征网络来完成尖峰检测的系统:一个致力于局部补丁提取,另一个专注于全局掩模细化。庞德等人。[ 5 ]部署了一个专为识别小穗和随后计数而设计的 DNN。

琼艳等. [ 6 ] 通过使用 Frangi 过滤器提取特征并随后将它们训练为人工神经网络(ANN)的输入,对小麦的顶部穗进行了分割。纳里塞蒂等人。引入了对浅层 ANN 架构的各种增强功能,包括集成 Frangi 线滤波器,这可以显着改善最终的分割结果。尽管如此,在人工神经网络框架内仍需要做出进一步的重大努力,特别是在新获取的温室图像的参数调整方面[ 7 ]。莫塔吉等人。[ 8] 设计了一种新颖的基于可变形部件的模型,该模型利用每个候选检测周围的全局和局部上下文,这可以帮助检测所有尺度的物体,特别是在小物体的情况下。Hasan 等人使用 R-CNN。[ 9 ] 完成了穗计数和检测任务,在包含 20 个麦田图像的数据集上取得了令人印象深刻的 0.95 的 F1 分数,每个图像的平均穗计数在 70 到 80 之间。

近年来,人们对 RCNN [ 10 ] 和 Faster-RCNN (FRCNN) [ 11 ] 提出了一些改进。他等人。[ 12]提出了对RCNN的改进,在特征图上的卷积层之前添加金字塔池化层。PASCAL 视觉对象类 (VOC) 是基准数据集之一,包含 20 个对象类别,是通用对象检测中使用最广泛的基准数据集。与整个图像和其他基准数据集(例如类似性质的 COCO 数据集)相比,PASCAL VOC 中的对象实例占据较大的像素区域。当前的目标检测器,如 FRCNN,总是利用卷积神经网络来提取越来越抽象的特征表示。在此过程中,小尺度物体的中间特征图通常被步幅大于 1 的卷积层或池化层频繁下采样。在 FRCNN 中,当在小规模物体上进行训练时,突出的提取特征和显着特征在特征图中没有足够的信息来进行准确的定位任务。因此,直接应用传统 FRCNN 会通过检测尖峰等小模式而导致准确性降低,这一点也就不足为奇了。11 , 13 ]。

因此,在这项工作中,我们对传统的 FRCNN 架构进行了一些修改,以减轻特征信息的损失,例如卷积层的数量、滤波器组合以及添加的注意机制来保留,然后增强相关的高价值特征温室穗的混合小麦品种。在我们之前的研究 [ 1 ] 中,对用于模式检测的 2 个最著名的 DNN 框架 FRCNN 和 YOLOv3/v4 进行了评估,以检测来自 2 个不同表型分析设施(进一步称为 Photon Systems Instruments [PSI] 和 Leibniz Institute)的尖峰。分别是植物遗传学和作物植物研究 [IPK] 数据集)(见图1)。因此,两种 DNN 检测模型都仅在来自一个设施 (PSI) 的地面实况图像上进行训练,但在 PSI 和 IPK 图像上进行评估。

图。1。来自 2 个不同温室表型分析设施的小麦品种侧视图图像示例:(A) PSI 和 (B) IPK。顶部钉子封装在橙色盒子中,而内部钉子封装在浅蓝色盒子中。
两种检测器对 PSI 数据的预测均表现良好,具有穗检测和评估措施,小麦品种的平均精度 (mAP) 范围在 0.78 ≤  mAP 0.50  ≤ 0.95 和 0.47 ≤  mAP 0.50−0.95  ≤ 0.66 之间,具体取决于不同的穗地点[ 1 ]。两个mAP均在“检测 DNN 中的评估指标”部分中定义。使用 FRCNN(mAP 0.50),PSI 小麦品种顶部穗的 mAP 为 0.99,内部穗为 0.91(mAP 下降 8.08%)。然而,当应用于另一个温室设置 (IPK) 的“看不见的”(外部验证集)图像时,两个 DNN 检测器的尖峰模式检测精度均显着降低(0.233 ≤ mAP  ≤ 0.410)。在这项工作中,我们通过将 FRCNN 检测框架应用于来自不同光学设置的先前图像来提高其准确性和通用性。在当代文献中,从表型分析设施获取的小麦数据集包含单个或多个品种,其穗状花序具有相似的光学外观和纹理,并且经过训练的 DNN 用于预测特定数据集 [ 6,7,9 ]]。针对每个新品种图像数据重新训练 DNN 要求很高且效率低下。因此,值得通过正则化技术来提高模型性能,通过更多的图像增强策略使代表性数据集多样化,从而打造强大的 DNN。图像的多样性应该足以让模型了解与正常尖峰外观的偏差,并且在某些情况下还可以处理噪声目标,而不会影响模型的准确性。由于 DNN 模型训练的地面实况数据的生成是整个 DNN 训练流程的主要瓶颈,因此我们的研究解决了模式检测交叉应用到新的“看不见的”数据的准确性的重要问题以及利用数据增强的适应策略。在生成对抗网络(GAN)等增强策略中,首先,研究增强尖峰图像的学习对于确定 DNN 是否从 GAN 增强中学习并保持其相对于原始图像的性能是必要的。其次,当每个品种具有相对于背景的不同颜色图时,为了找出每个品种重新训练图像的正确比例,不​​影响准确性并将开销保持在最低限度是有用的。

最近,深度学习模型在机器学习应用中融入了注意力机制,以提取卷积层中对象的显着特征,对显着特征进行加权,并忽略不太显着的特征。胡等人。[ 14 ]提出了他们的挤压和激励(SE)-Net,这是一个注意模块,它计算每层中特征图的通道维度,从而为对象的一些突出特征赋予权重,并抑制其余的休眠特征。郭等人。[ 15 ]提出了SPA-Net,它将空间金字塔结构引入到单个注意力模块中。它结合了对象的结构正则化和结构信息。胡等人。[ 16]提出了一种竞争性挤压激励机制,该机制从残差通道和身份通道中捕获竞争关系,并扩展了通道式注意模块。基于 Transformer 的模型是采用自注意力机制的最先进的检测模型 [ 17 , 18 ]。在本研究中,我们采用了 FRCNN 卷积层中的注意力机制来捕获尖峰的特征图。FRCNN和FRCNN-A的总体流程如图2所示。我们对这项工作的贡献可以总结如下:

图2 . FRCNN(上)与 FRCNN-A(下)的训练过程和架构元素的比较方案。
1.我们提出了ASPikeNet,一种残差网络,减少了主干架构中非必要的卷积层,并适应定位小规模物体,例如尖峰。
2. 我们通过 FRCNN-A 中的注意机制提高了网络的鲁棒性,以抑制假阳性预测,主要是植物的内部尖峰。
3. 我们使用最先进的 Swin Transformer 对 FRCNN 和 FRCNN-A 进行了比较分析,并评估了它们在空间分类尖峰上的性能。
材料和方法
图像数据
在这项研究中,获取了 IPK(德国加特斯莱本)和 PSI(捷克共和国德拉索夫)温室种植小麦品种的可见光图像。以我们之前的工作为基础 [ 1],利用来自单个表型分析设施、PSI 的小麦图像和多个品种进行 DNN 模型训练,当前的研究显着扩展了范围。我们合并了一个新的、更加多样化的数据集,其中包括来自 2 个不同位置的图像:PSI 和 IPK。该数据集不仅包含更多种类的小麦品种(PSI:19 和 IPK:122),而且丰富了 DNN 模型的训练、验证和增强过程。使用来自 IPK 和 PSI 的温室小麦图像生成基线和主要数据集,无需任何增强或转换。从 IPK 表型分析设施中,我们获得了一个由 3 组不同图像组成的数据集,每组图像从侧面捕获了 122 个独特小麦品种的总共 150 张随机选择的图像的几个不同角度,分辨率为 3,315 × 4,462。3个不同的视角对应0 ∘(52 个图像)、45  ∘(43 个图像)和 90  ∘(55 个图像)。从 PSI 获取 300 张图像时仅使用了一个视角。在基线数据集中,包含 300 个 PSI 和 150 个 IPK 图像。注释对于训练我们的机器学习模型至关重要,因为它为它们提供了学习和做出准确预测所需的信息。我们使用 LabelImg 软件来制作尖峰周围的地面实况 [ 19]。边界框的绘制方式使其定位穗,而不是所有细长的穗芒,以确保不同品种之间的一致性。为了训练和测试目的,数据集按照80:20的公比进行细分,分别得到360张小麦图像(240 PSI和120 IPK)的训练集和90张小麦图像(60 PSI和30 IPK)的测试集。
实验设计
为了测试 DNN 检测器在“看不见的”品种和光学设置上的稳健性,为训练集生成了 9 个数据集,包括 PSI、IPK 和增强 IPK 图像(参见表 1 )。测试集仅包含原始 IPK 图像。原始训练集的混合组合用于测试 FRCNN 和我们在一个特定数据集上训练的模型可以通过渐进式数据增强扩展到另一种不同的小麦品种和光学设置的程度。原始数据集逐步扩展,并从新的(目标)表型分析工具(在我们的例子中:IPK)自动生成新图像。

表格1。用于训练尖峰检测模型的 10 个训练图像集概述,这些图像集是通过组合 PSI (2022) 和 IPK (2018) 温室表型设施的图像生成的,并通过自动增强的 IPK 图像逐步扩展。颜色代码对应于IPK图像的相对数量:分别为T 1至T 3的蓝色渐变、T 4至T 6的橙色渐变以及T 7至T 9的红色渐变。
这 9 个 IPK 和 IPK 增强图像组合的目标是剖析主要在 PSI 数据集上训练的 DNN 的性能,这些 DNN 可以以最小的努力适应 IPK 的新图像生成地面真实图像。采用传统几何变换和生成对抗组合的策略进行数据增强。在训练集的所有 9 个组合中,IPK 增强图像与几何变换和 GAN 变换图像的比例相同(50:50)。为了生成用于训练的合成图像,我们实现了 FastGAN 架构 [ 20]。该模型在 PyTorch 中进行训练,输入分辨率为 1,024 × 1,024。FastGAN 的输入针对 1,024 × 1,024 进行了优化;因此,我们裁剪了与植物相邻的右侧和左侧,以及植物冠层正上方的区域,这在所有图像中都是相似的。裁剪后图像的平均分辨率为1,200 × 2,800。训练阶段总共完成了 90k epoch。生成的图像是基于 Frechet 起始距离 (FID) 并通过选择更真实的示例从 80k 纪元拍摄的。使用 PyTorch-fid 库计算得出的生成图像的 FID 为 157.50 [ 21 ]。图3显示了 FastGAN 生成的精选示例。

图3 . 由 FastGAN 生成的温室种植植物的合成图像示例(选自 80k 纪元)。
尖峰检测 DNN 模型
更快的 RCNN
在我们之前的工作 [ 1 ] 中,我们使用了具有 Inception v2 主干、固定宽高比和具有 100 个候选对象的区域提议网络 (RPN) 的 FRCNN。该 RPN 很大程度上优化了 PASCAL VOC 等大型对象的纵横比。然而,RPN 的固定框面积大于平均尖峰边界框 (120 × 200)。在我们之前的方法中,使用的 3 纵横比区域为 0.5、1 和 2,而边界框区域为 128 2、256 2和 512 2。为了解决这个问题,对 FRCNN 在特征提取器、锚框和 RPN 方面进行了一些修改,如“FRCNN-A:带有 ASPikeNet 和注意力模块的 Faster-RCNN”部分所述。在两侧都有一个锚框,我们添加平均大小的边界框或选择捕获尖峰特征分辨率的边界框。FRCNN 的架构包括特征提取、区域提议和最终检测器。在第一阶段,提出多个对象作为后续主要对象检测器的候选对象。候选对象是尖峰或背景。输入图像的分辨率为 2,560 × 2,560。RPN 使用N每个位置有 10 个不同长宽比和大小的锚框。RPN 以零均值高斯分布启动。这个锚翻译是不变的。它在每个位置都使用相同的。RPN的添加获得了更高的精度,但以计算资源为代价。卷积层和主要目标检测器中的特征是共享的。在第一阶段,选择 100 个候选者进行特征提取。根据其峰值,它们被标记为阳性或阴性。用于评估正锚点选择的指标是交并集(IoU)。使用 IoU > 0.7 的阈值。总损失计算为softmax损失(分类和L1损失)。由于大多数锚点都有背景并且是负面的(非尖峰提案),因此以小批量计算损失以消除任何偏差。RPN 中提取的特征被输入感兴趣区域 (ROI) 池化,作为全连接层的特征向量。输出是由具有一组类概率的 softmax 层获得的二进制输出。该网络通过随机梯度下降(SGD)进行优化,并使用指数衰减作为学习参数。

斯温变压器
Swin Transformer 在训练期间构建一个分层特征图来定位对象。基于 Transformer 的 DNN 的想法在自然语言处理中已经实现了好几年。随后,视觉变换器(ViT)概念被扩展到计算机视觉。Swin Transformer 特征提取包括分层特征图和移位窗口变压器。ViT 中分层特征提取的这两个阶段提高了检测和分割任务的准确性。在ViT中,使用了多头自注意力(MSA)模块。它被由窗口 MSA (W-MSA) 和移位窗口 MSA (SW-MSA) 组成的 Swin Transformer 块所取代。Swin Transformer 的架构如图4所示

图4 . Swin Transformer 的架构。
FRCNN-A:带有 ASPikeNet 和注意力模块的 Faster-RCNN
在我们之前的研究中[ 1],我们比较了来自 2 个不同表型分析设施的几种尖峰检测器。我们观察到,在叶子包围的植物中部出现的尖峰对 DNN 构成了最重大的挑战。FRCNN或其他1级和2级检测器大多被设计并应用于自然环境中的物体,例如农作物病害检测或田间表型分析中的应用。在这些情况下,前景对象的相对尺寸大于背景结构。随着网络的发展,后续卷积层中尖峰特征的显着性在 DNN 中逐渐减弱,从而导致有价值信息的丢失。为了解决这个问题,我们对 FRCNN 的架构进行了一些修改,以减少基本特​​征的稀释并定位相对较小的对象,例如尖峰图案,
ASPikeNet
与其他 DNN 类似,FRCNN-A 网络的输入大小为 2,560 × 2,560。通过将图像的分辨率从 3,315 × 4,462 裁剪,图像已缩小至 2,560 × 2,560。选择特定分辨率以保持卷积层为32的倍数,这可以帮助优化网络的性能和内存使用。每层都与 3 × 3 的滤波器核进行卷积。ASPikeNet 采用由 5 个卷积层组成的主干架构,其中使用的滤波器组合为 [12、18、36、48 和 72]。卷积层中训练图像的输出分辨率和特征图总结在表2中。

ASPikeNet 采用 3 × 3 块进行调整,该块镜像 ResNet [ 22 ] 中的残差块。我们使用层CONV3、CONV4和CONV5作为金字塔注意力块并充当多层特征融合。它按 1 × 1、2 × 2 和 4 × 4 缩放。较高层为尖峰提取更抽象和上下文相关的特征。CONV5 层还通过双线性插值将特征恢复到原始大小。它结合了来自特征金字塔不同上下文级别的注意力加权特征图。特征融合旨在产生捕获局部尖峰轮廓的统一表示。来自多个尺度的特征被串联起来。

将提取的用于查找对象补丁的特征输入到 RPN 中,RPN 通过预测潜在的对象边界框来生成感兴趣的区域(建议)。由于训练集中只有成熟的尖峰,我们选择固定的锚定比率。我们可以使用具有固定锚比例的锚框,而不是使用具有各种长宽比的锚框。这意味着锚框的长宽比在整个 RPN 中保持不变。RPN 锚定比率涵盖了尖峰长度的范围,该范围随两个表型分析设施的尖峰而变化。然后,ROI 池化有助于对齐和提取固定大小的特征图。

在分类器阶段,从建议区域提取的特征被进一步处理,以实现准确的分类和定位。提取的特征被输入到具有批量归一化和修正线性单元(RELU)激活函数(CONV-BN-RELU)的2个连续卷积层,然后是全局平均池化和1×1卷积,如图5所示。这有助于增强学习到的聚合特征的判别特征。全局平均池化是一个 1 × 1 卷积层,对特征执行线性变换以获得细粒度的调整和优化。分类器中使用的目标函数是 softmax 损失,用于测量预测类别概率与真实标签之间的差异。卷积层的融合特征图被选取并通过全局平均池化函数。基于这些判别特征,分类器首先预测当前块中是否存在检测目标,然后检测器准确地定位它们。

检测 DNN 中的评估指标
在本研究中,mAP 被用作评估 DNN 的性能指标。mAP 计算为不同召回阈值水平下精度值的加权平均值。在 0 和 1 之间等距的 11 个召回级别计算精度,以获得平均精度值。mAP 0.5:0.95计算一系列 IoU 阈值的平均精度,特别是从 0.5 到 0.95,增量为 0.05。这种综合方法可确保对模型性能进行平衡评估,同时捕获检测精度和定位精度。
在 PASCAL VOC2007 评估措施的背景下,当预测边界框和地面真实边界框之间的 IoU 为 0.5 时,mAP 为 0.5。mAP 指标提供了精确率-召回率曲线的整体视角,并为每个召回级别确定了最大精度值。

结果
FRCNN-A 和其他 2 个 DNN 在 Ubuntu 20.04 操作系统、Ryzen 7 3800x 上的 Python 3.8 下实现,并辅以 NVIDIA 2080 Ti 显卡作为训练环境。网络在 SGD 优化器上进行了优化。在我们的研究中,我们在基线数据集和T 1−9上训练了 3 个尖峰检测模型。FRCNN 需要 900 到 1,200 个时期,FRCNN-A 需要 800 到 1,000 个时期,Swin Transformer 需要 2,500 到 3,000 个时期,展示了最佳性能所需的不同时期范围。FRCNN-A 模式的训练和评估是使用来自 2 个不同表型分析设施的小麦品种图像进行的,如材料和方法中所述。在训练深度学习模型时,我们采用动态学习率策略来优化模型收敛。具体来说,我们将初始训练阶段的学习率初始化为 0.0001。在训练的中点,对应于我们实验设置中的第 500 轮,我们应用了学习率调整,将学习率降低了 0.1 倍。在224×224图像尺寸上,FRCNN、FRCNN-A的训练参数个数,
当基于平均精度(AP)评估不同模型的性能时,我们观察到,当应用于原始图像数据集而无需任何额外的数据转换或增强时,Swin Transformer 实现了比 FRCNN-A 和 FRCNN 更高的精度

比较这 3 个 DNN 的性能时,带有注意力模块的 FRCNN-A 比 FRCNN 性能好 6.89%,而 Swin Transformer 比 FRCNN-A 性能好 1.1%。然而,FRCNN-A 架构仍有进一步改进的地方,作为动态窗口实现的 Swin Transformer 的准确性更高就证明了这一点。注意力模块捕获多个域窗口中 ROI 的分层上下文。DNN 检测器最具挑战性的任务是表示在大量叶子中出现内部的图像。所有 3 个 DNN 都能以 100% 的准确度检测顶部尖峰。表4总结了对不同位置的穗状花序进行的评估测试,包括顶部出现的穗状花序、被叶子包围的内部穗状花序和遮挡穗状花序。内部穗被定义为位于植物冠层内部的穗,在某些情况下包括位于冠层外围的穗。在这种情况下,标准是如果穗被超过一半的植物叶子包围,则将其归类为内穗;否则,将其归类为内穗。否则,它是顶部尖峰。3 个 DNN(FRCNN、FRCNN-A 和 Swin Transformer)的尖峰检测如图6所示。内部穗被定义为位于植物冠层内部的穗。它们可能部分或完全被背景中的植物叶子或树枝包围,而在某些情况下,它们可能保持未封闭状态;否则,它是顶部尖峰。3 个 DNN(FRCNN、FRCNN-A 和 Swin Transformer)的尖峰检测如图6所示。

最后,我们在由来自 2 个表型分析设施的图像组成的 9 个训练数据集上训练了模型,如“图像数据”部分所述。训练集因 IPK 原始图像和增强图像的组合而异。该计算实验旨在了解模型如何适应和从增强图像中学习,并仅在 IPK 测试集上执行。所有训练集中 PSI 图像的数量保持相同。训练集T 3、T 6和T 9具有相同数量的增强IPK图像(300),以测试DNN的准确性是否因增加原始IPK图像而得到增强。因此,我们得出结论,在比较T 3的准确性时,T 6和T 9具有相同的 IPK 图像计数, T 3  <  T 6  <  T 9的 mAP ,无论使用什么 DNN。

在训练集T 3上,FRCNN-A 的AP 0.5为 79.11,Swin Transformer 较 FRCNN-A(80.05)和 FRCNN(78.9)提高了 1.18%。在T 6和T 9中,FRCNN-A 的AP 0.5为84.58 和85.00,而Swin Transformer 的AP 0.5为87.76 和89.45,增长了3.75%和5.23%。此外,DNN 的 mAP 在T 1到T 3、T 4到T 6以及T 7到T 9的测试中增加目的是确定增加 IPK 增强图像的数量是否可以提高 DNN 的准确性。综上所述,FRCNN < FRCNN-A < Swin Transformer 在T 3、T 6和T 9上的 mAP 。表5概述了 FRCNN、FRCNN-A 和 Swin Transformer 3 种检测模型的 mAP,它们在 9 个不同的训练集上进行训练,并在 IPK 测试集上进行测试。

比较 FRCNN-A 和 FRCNN,原始 FRCNN 中引入的修改在所有训练集上都显示出改进。在T 6和T 9上,FRCNN-A将AP 0.5提高了1.78%和0.90%。3 个 DNN 在训练集T 0上的平均 mAP 为 88.3%,而在训练集T 9上的 mAP为86.23%。FRCNN 参数设置为默认值。使用与 FRCNN-A 中相同的激活函数。在 RPN 中,anchor box 也和 FRCNN 一样保持固定。因此,大多数其他部分网络模型保持不变。Swin Transformer 的先进自适应架构包括分层特征图和移位窗口注意力,这对于不同复杂度的对象的定位来说是高度机械化的。Swin Transformer 的附加属性是其在多种尺度上提取特征图的高度适应性。在基础网络中,这部分设置是针对特定对象类型定义和定制的。
由于特征提取流程中尖峰轮廓不太突出,内部尖峰是最难定位的。Swin Transformer mAP最高;未检测到的尖峰的示例如图7 B所示。

为了评估 3 个网络的性能,我们使用基线和T 1−9训练集上的训练模型测量了它们在原始分辨率测试集上的推理时间。我们在用于训练的类似计算机上运行推理模型,该计算机配备 Ryzen 7 3800x CPU 和 Nvidia GTX 2080 Ti GPU。在原始基线数据集上,FRCNN、FRCNN-A 和 Swin Transformer 每张图像的平均推理时间分别为 3、2.2 和 2.8 秒。在推理时间方面,FRCNN-A 优于最先进的 Swin Transformer 模型,提供更高的速度和效率。3个DNN在原始分辨率和训练集组合上的mAP和推理时间如图8所示。图8中针对训练集 9 绘制了推理时间B. 除了T 9具有最高的 mAP 和所有 3 个 DNN 的平均推理时间缩短 0.05 秒之外,我们观察到在其他训练集上训练的模型的平均推理时间没有变化(见图8 ) )。

讨论
在这项研究中,我们对传统 FRCNN 架构提出了一些改进,以提高其检测不同小麦品种中相对较小且光学高度可变的谷物穗模式的鲁棒性和准确性。为了克服连续卷积层中特征信息的丢失,我们减少了卷积层的数量,并对不同尺度的特征进行融合,这有助于保留和增强尖峰的核心特征。FRCNN 对小物体的识别精度较低,因为 9 个锚框具有相同的长宽比和面积比,从而提高了位置预测。它在 PASCAL VOC 数据集中相对较大的对象上表现良好,而在由 PSI 和 IPK 小麦品种组成的混合小麦品种(包括增强图像)上表现良好,检测网络的准确性下降。3 个 DNN 的结果验证了本研究中提出的 FRCNN-A 的有效性和鲁棒性。Swin Transformer 和 FRCNN-A 有一个注意力机制来提取其架构中的特征图。我们发现 FRCNN-A 在作为基线情况的非增强训练集以及训练集中的增强图像上的检测精度有所提高。另一方面,与 FRCNN-A 和 Swin Transformer 相比,FRCNN 在非增强数据集上的 mAP 下降了 6.67% 和 7.70%。在训练集中 我们发现 FRCNN-A 在作为基线情况的非增强训练集以及训练集中的增强图像上的检测精度有所提高。另一方面,与 FRCNN-A 和 Swin Transformer 相比,FRCNN 在非增强数据集上的 mAP 下降了 6.67% 和 7.70%。在训练集中 我们发现 FRCNN-A 在作为基线情况的非增强训练集以及训练集中的增强图像上的检测精度有所提高。另一方面,与 FRCNN-A 和 Swin Transformer 相比,FRCNN 在非增强数据集上的 mAP 下降了 6.67% 和 7.70%。在训练集中T 3、T 6和T 9中,PSI和IPK增强图像的数量是恒定的,仅通过IPK原始图像进行区分,以查看其对DNN的准确性和泛化性的影响。在我们之前的研究 [ 1 ] 中,经过训练的网络足以检测未见过的谷物作物数据集中的峰值。在我们的研究中,在T 3、T 6和T 9训练集上进行评估时,FRCNN、FCNN-A 和 Swin Transformer 的性能表现出了显着的功效,这些训练集由 PSI 和 IPK 增强图像的平衡组成组成,具有差异IPK 原始图像。在T如图 3、T 6和T 9所示,所有 3 个 DNN 均表现出相对于其先前训练集的最高 mAP(T 3  >  T 1-2、T 6  >  T 5−1和T 9  >  T 1-8)。因此,网络性能的比较表明,随着 IPK 原始图像和增强图像数量的增加,精度呈正相关,但是当 PSI 和 IPK 增强图像之间的合成均匀时,训练集中原始 IPK 图像的数量会增强 mAP所有 DNN(T 3到T 6上的 9.6%)Swin Transformer 中T 6至T 9为 1.92% )。当根据尖峰的空间位置比较 DNN 时,顶部尖峰比内部尖峰表现出更高的检测精度,如表4所示。当前的研究未包括新出现的峰值。IPK 测试的内部尖峰与背景中的叶/茎的对比度低于 PSI 尖峰。因此,它们的本地化和提取更具挑战性。混合品种的训练集也表明两个品种的高度泛化。网络倾向于学习每个品种的特征并相应地调整特征图。在一些测试图像中,Swin Transformer 和其他 DNN 无法检测到不平凡的内部尖峰,如图7所示。

T 1、T 4和T 7的 mAP 中实例的增强图像和较少原始图像训练的相关性给出了在高斯噪声、GAN 增强和其他变换中保留尖峰特征的线索,并且网络倾向于泛化特征,保留的特征与未增强的IPK图像相似。T 9取得的最高 mAP由 DNN(不包括 FRCNN)计算的 AP 低于在基线数据集上训练网络时的 AP 下降与在混合品种上训练时网络特征图的复杂性相关。本研究中研究的网络的计算复杂度和参数训练从 Swin Transformer 降低到 FRCNN 和 FRCNN-A。FRCNN-A 在基线和T 9训练集上表现出相对于 FRCNN 和 Swin Transformer 的推理时间减少。与我们的卷积层和注意力模块相比,inception v2 过去需要很长时间来训练。与 Swin Transformer 和 FRCNN 相比,FRCNN-A 的训练收敛时间显着缩短。

因此,FRCNN-A 提供了一种更高效、更快速的训练替代方案,特别是对于表现出相似特征的数据集。注意力机制通常通过选择性地关注图像最突出的部分来改善模型特征的表示。这有助于减少噪声并提高模型的准确性。此外,通过增强 IPK 图像并将其原始 IPK 包含在同一训练集中,我们旨在研究网络的泛化能力。所提出的解决方案可用于改进大型光学场景中其他小物体的检测,例如水果、花朵等。推广经过训练的网络来检测不同小麦品种或其他谷类作物的有限原始图像上的尖峰仍然具有挑战性。DNN 中的连续卷积层往往会丢失详细的特征信息。在我们的研究中,通过减少卷积层的数量、融合 FRCNN-A 中不同尺度的特征或在 Swin Transformer 中部署计算密集型自注意力机制(每层复杂度:自注意力)来缓解这个问题O ( n 2  ·  d ) 与循环O ( n  ·  d )]。然而,推理时间和准确性之间存在权衡,这在 Swin Transformer 等相对较高深度的 DNN 中阻碍了其在温室设施嵌入式设备中资源受限和实时应用中的部署。尽管本研究中没有对 FRCNN-A 进行消融研究,但计划将来在其他基准数据集上进行测试。

发布日期:2024-04-01