新闻资讯

基于通道注意力 GAN 的合成杂草生成,用于精确杂草识别

介绍
提高作物生产力以满足日益增长的粮食需求是当今全球面临的重大挑战[ 1 ]。杂草是作物生产最重要的生物限制因素之一[ 2 ]。然而,除草剂的广泛使用导致了抗除草剂物种的进化和杂草多样性的丧失[ 3 ]。
定点杂草管理 (SSWM) 是精准农业中经济高效的杂草管理解决方案。它仅涉及田间需要的杂草控制[ 4 ]。实施深度学习(DL)进行杂草幼苗识别可以为SSWM提供准确的杂草定位系统。然而,深度学习的质量在很大程度上取决于用于应对现实世界条件的数据集的大小,并且数据的可用性在特定领域的应用中受到很大限制,例如植物检测和识别[ 5]。杂草数据的注释既耗时又容易出错,因为它依赖于杂草科学和农学的专业知识和技能。因此,包含杂草图像的数据库有限,这是SSWM发展的主要障碍。
数据生成代替传统的数据采集和标注的方式,可以生成真实的图像数据,即按照一定的逻辑模拟自然场景的统计特性,生成大量的人工数据,而无需额外的人工标注。6 ]。这可以很大程度上缓解训练数据缺乏的问题。然而,需要大量且多样化的个体杂草数据来模拟真实的自然场景。传统的数据增强方案(例如旋转、缩放和添加噪声)可以在一定程度上缓解个体数据的稀缺性,但不能从根本上增加个体数据的多样性。
创建生成模型是通过基于相对有限的训练数据生成大型且多样化的个体杂草数据集来获取个体杂草数据的另一种方法。生成模型之前已被用来增强植物分类、叶子计数和叶子分割等任务,并产生了有希望的结果。最近,生成模型通过生成对抗网络 [ 7 ] 取得了巨大进步,引领了通过直接从数据学习的模型生成各种高保真图像的方式。先前的研究表明,利用 GAN 生成的合成样本进行数据增强可以提高各种视觉识别任务的性能 [ 8 ]。
相反,条件生成通过指定生成类别以及输入噪声来实现对输出图像内容的控制。条件 GAN [ 9 ] 通过将输入图像的类别信息以监督形式传递给模型来实现这一点。在辅助分类器GAN[ 10 ]中,通过one-hot编码的方式将图像的类别信息串联在输入噪声中,并通过添加一个附加值来约束判别器来判断合成数据中包含的语义信息是否正确。辅助分类器。在带有投影鉴别器的 cGAN 中 [ 11],判别器的条件是使用其特征与一组学习类嵌入之间的余弦相似度作为区分真实样本和生成的合成样本的附加证据,从而有效地鼓励生成特征与学习类原型相匹配的样本。
在农业领域,越来越多的研究人员开始使用 GAN。朱弗里达等人。[ 12 ]提出了一种称为 ARIGAN 的条件 GAN 模型,用于使用公式化的叶子计数生成拟南芥植物的图像。他们表明,用于训练数据增强的合成图像可以将叶子计数的绝对差异减少 5.4%。朱等人。[ 13 ]利用带有叶子掩模的条件 GAN 来生成植物图像。他们报告说,当使用合成图像增强训练数据时,绝对计数差异减少了 16.7%。马德森等人。[ 14 ]结合WGAN-GP[ 15 ]和ACGAN[ 10]提出了WacGAN] 以植物种类为条件项。WacGAN 可以在保证图像保真度的同时生成九类植物图像,并在多类判别性测试中取得了 58.9% 的性能。马德森等人。[ 16 ] 通过提出 WacGAN-info 扩展了他们的模型,该信息用无监督学习分支补充了 GAN 配置,以通过一组额外的潜在输入变量来控制合成数据的视觉外观。他们报告称,生成的合成样本与预期物种相似,平均识别准确率达到 64.3%。埃斯佩霍-加西亚等人。[ 17] 比较了 DCGAN 使用不同网络配置和超参数生成合成番茄和黑茄属图像的生成效果,并使用生成的用于数据增强的合成数据评估了杂草识别的性能。他们报道了番茄合成的最佳 Fréchet 起始距离 (FID) 得分为 86.93,黑龙葵的最佳 Fréchet 起始距离 (FID) 得分为 153.44,并且在识别准确率方面获得了 90% 到 100% 的良好表现。
尽管先前的研究已经证明了 GAN 在生成合成农业图像数据以增强训练数据集方面的潜力,但生成的合成数据的质量和保真度仍然具有挑战性。尽管之前的研究显示了这种潜力,但之前的一些方法仍然存在像素错误,并且生成的合成样本通常与预期物种仅模糊相似,导致平均识别准确度约为 64.3%。这种准确性水平较低,可能会阻碍下游任务。
我们提出了一种方法,通过结合一种新颖的架构来解决这些挑战,该架构可以提高生成图像的视觉质量和可辨别性。本研究的主要贡献总结如下。
1.    
我们提出了一种基于通道注意力机制的 GAN (CA-GAN) 架构,旨在缩小 GAN 生成的数据与真实图像之间在保真度、多样性和分类准确性方面的差距。
2.    
我们使用基准分割植物幼苗数据集 (sPSD) 和辅助可持续农业生态系统服务研究所 (ISAS) 数据集将我们的模型与其他 GAN 架构进行比较。
材料和方法
我们的研究利用两个数据集:sPSD(作为模型比较的基准)和 ISAS(针对日本常见的杂草物种)。sPSD 允许我们通过提供多种物种进行比较分析来衡量我们的模型相对于现有方法的性能。与此同时,ISAS 数据集的设计重点关注日本最常见的杂草,解决该地区早期杂草检测的具体挑战。
对早期生长阶段的重视具有战略意义,因为早期干预对于杂草管理至关重要。在这个阶段识别和解决杂草生长问题是防止入侵物种定植和扩散的关键,入侵物种以后的管理可能会更加困难,并可能导致农作物产量大幅损失。通过针对初始生长阶段,我们的研究旨在提高杂草控制实践的功效。
基准数据集 sPSD
sPSD [ 18 ] 作为主要基准数据集,包含在温室条件下栽培的 12 个不同物种的植物幼苗的分段 RGB 图像。
为了使数据集与我们对杂草早期生长阶段的研究重点保持一致,排除了任何维度空间分辨率超过 400 像素的图像。此步骤有效地删除了后期生长阶段的表示,确保数据集由早期幼苗组成。
由于[ 16 ]中所述的分割问题,除 ZEAMX 之外的草类物种也被排除在外,导致最终数据集中出现了九种植物物种

辅助数据集ISAS
ISAS 数据集作为辅助数据集来评估模型的稳健性。2018年和2019年季节的数据收集是在东京大学可持续农业生态系统服务研究所(ISAS,北纬35°44′09”和东经139°32′24”)的温室中进行的。日本常见的五种夏季一年生杂草独立栽培,每个空腔托盘种植同种杂草。所有种子均购自 ESPEC MIC Corporation ( https://www.especmic.co.jp/ )。
为了便于数据标注,我们独立种植不同种类的杂草,即每个空腔托盘种植相同种类的杂草。使用颜色检查器对图像进行统一的颜色校正。此外,遮荫可能会导致叶子变形。为了确保我们的数据与真实田间数据一致,我们在自然生长季节利用100%自然光条件来模拟大田作物条件下杂草的生长环境。
为了生成针对杂草早期生长阶段的数据,收集了从子叶阶段到第四真叶阶段的数据。使用Labelbox数据标注平台( https://labelbox.com/ )手动拍摄原始RGB图像数据并在检测级别进行标记。
预处理协议
预处理协议设计为对于 sPSD 和 ISAS 数据集都是统一的,以保持单个杂草的纵横比并确保植物在图像中占据高比例的像素。该协议涉及几个步骤。
1.    
删除尺寸大于 400 像素的超大图像。
2.    
将图像填充到标准化尺寸(sPSD 和 ISAS 均为 470 × 470 像素)。
3.    
将填充的图像裁剪为 400 × 400 像素的中心帧。
4.    
将裁剪后的图像大小调整为 128 × 128 像素的统一分辨率,适合我们的 CA-GAN 模型输入。
特别是对于 ISAS 数据集,在预处理之前使用 Easy Plant Canopy Coverage (EasyPCC) 版本 2 [ 19 ]进行分割。EasyPCC 是一款专为高通量测量植物冠层覆盖率而设计的工具,为分析不同田间条件下的大量图像提供了可靠且自动化的方法。这种方法确保了我们的分割在不同光照条件和杂草生长阶段都是精确且一致的。
表1和表2概述了各自的数据集,包括物种详细信息和样本计数,其中我们注意到植物物种是使用 EPPO 编码方案识别的。图1和图2显示了每个数据集的示例,并增强了对比度以实现更好的可视化。

通道注意力机制驱动的GAN
通道注意力块
SA-GAN[ 20 ]添加了自注意力模块[ 21 ]来提高生成器和判别器对全局结构进行建模的能力,这使得模型能够关注图像的重要区域并考虑全局依赖性,从而产生生成更真实、高质量的图像。然而,自注意力模块消耗大量的计算资源和内存。对于 SA-GAN,自注意力模块应用于特征图,特征图是具有空间维度的二维张量,导致计算复杂度为 O( n 2 dk ),其中k是特征图的数量。然而,这种方法的计算成本可能很高,特别是对于较大的图像。此外,自注意力模块需要大量内存来存储注意力分数,这对于某些硬件配置来说可能是令人望而却步的。
受 SA-GAN 的启发,我们引入了通道注意力模块,特别是挤压和激励(SE)网络 [ 22],进入我们的 GAN 架构。这种修改有效地解决了杂草图像生成的挑战,杂草图像通常由于光照条件、遮挡和生长阶段等因素而表现出相当大的可变性。通道注意力使我们的模型能够通过强调信息丰富的特征并抑制不太有用的特征来自适应地重新校准通道特征响应。这种适应性对于捕捉和重现各种杂草物种及其生长阶段之间的细微差别至关重要。此外,通道注意力机制对于处理农业环境中常见的不平衡数据集特别有益,其中某些杂草物种代表性不足。通过使用通道注意力,我们的 GAN 可以更有效地强调不常见杂草的独特特征,
此外,虽然通道注意力稍微增加了计算量,但它比 SA-GAN 中使用的自注意力模块更有效。在生成器和鉴别器块的剩余部分中引入了SE 模块(图3 ),以了解每个特征通道的重要性。如图3所示,配备SE模块的生成器和鉴别器块架构过滤掉不太有用的特征通道并增强有用通道的权重,从而在可管理的计算需求下产生更好的结果。

架构说明
作为基线,我们采用了 Miyato 等人的 SN-GAN 架构。[ 23 ],它使用铰链损失[ 24 ] GAN 目标。我们使用类条件 BatchNorm [ 25 ] 向生成器提供类信息,并使用投影 [ 11 ]向鉴别器提供类信息。
除了类条件 BatchNorm 之外,我们还采用了如图4所示的潜在映射网络,类似于 Karras 等人。[ 26 ],通过在中间向量内产生潜在输入向量来解开潜在空间和视觉特征。在实践中,我们首先将类信息嵌入到代码中,将这些代码与噪声向量连接起来,并将它们发送到五层映射网络。
我们的模型采用了 Brock 等人的几种架构选择。[ 27 ]包括我们用于描述网络宽度的术语。网络宽度由通道乘数 ( ch ) 和逐层常数的乘积决定。对于生成器,对于 128 × 128 分辨率输入,分层常量设置为 [16, 8, 4, 2, 1]。第i层的宽度计算为ch和第i个常数的乘积,并且生成器中残差网络之前的所有层都使用初始层的乘数,我们将其表示为ch 0。在我们的模型中,ch设置为64。同样,对于判别器,对应的ch为[1,2,4,8,16,16]。
评估指标
进行目视检查和统计评估以评估合成数据的保真度。这种方法确保对模型性能的整体理解,同时考虑定性和定量方面。
类别区分度测试
作为我们统计评估的一部分,类别区分度测试起着至关重要的作用。它衡量合成样品准确代表预期物种的程度。这是通过使用训练有素的辅助分类器(特别是 ResNet-56 模型)来实现的,我们首先在真实数据集上对其进行训练。随后,我们将该分类器应用于合成数据集并计算每个类别的辨别准确率。因此,该辅助分类器的辨别准确性反映了合成样本被分类为特定物种的精确程度。需要注意的是,虽然类别区分性测试可以深入了解特定分类器的样本识别能力,但它也间接作为 GAN 模型产生不同物种的能力的参考。
Fréchet起始距离
为了量化合成数据集和真实数据集之间的相似性,我们利用 FID 分数。FID 已证明与人工对合成样品质量的评估具有很强的相关性。它是通过测量两个高斯分布之间的 Fréchet 距离来计算的,该距离适合从初始网络中提取的特征表示。
ResNet 得分
作为对上述指标的补充,我们引入了 ResNet 分数(RS)作为一种创新指标,特别侧重于评估生成图像的多样性和清晰度。受初始分数 (IS) 的启发,RS 调整其方法以使用 ResNet 架构。考虑到我们的数据集特别关注各种植物物种,RS 利用我们的 ResNet 模型(在同一数据集上训练)的能力为每个生成的图像提供分类概率分布。RS 评估两个关键方面:不同类别分类的清晰度(表明模型的置信度)以及这些类别之间图像的多样性。它计算每个图像的预测类别分布的熵(为了清晰)和所有图像的平均熵(为了多样性),
结果
我们训练了两个独立的模型:一个用于基准 sPSD,另一个用于辅助 ISAS 数据集。每个模型均使用单个 GeForce RTX 3090 GPU 以 50 的批量大小进行 70,000 次迭代(即生成器总共更新 70,000 次)的训练。我们使用 Adam 优化器,β 1  = 0.5,β 2  = 0.9,学习率为 2 × 10 −4。我们应用铰链损失而不是 Wasserstein 损失。除了这两个之外,我们还为辅助 ISAS 数据集训练了一个模型,同时未从原始图像数据中去除背景,以展示背景对模型性能的影响。
我们还复制了最先进的 WacGAN-info [ 16 ] 和 SN-GAN [ 23 ] 网络进行比较。对于SN-GAN,我们应用相同的设置来获得公平的横截面比较结果:在训练WacGAN-info[ 16 ]时,训练设置与原始论文[ 16 ]中给出的相同,即crit重复为设置为5,生成器学习率设置为lr  = 0.001,判别器学习率设置为0.0002,info项系数设置为2。分类损失函数项系数w C  = 7.5,info损失项系数w I  =15,梯度惩罚系数λ = 10,并 应用Leaky ReLU 斜率= −0.2。
基于 Sun 等人的方法。[ 28 ],我们同样展示了我们的结果,在图5中展示了 CA-GAN 在 sPSD 上的训练损失曲线。我们观察到生成器和鉴别器损失在前 5,000 次迭代内快速收敛,并在 10,000 次迭代后逐渐稳定。值得注意的是,损失曲线的收敛速度和时间主要取决于生成器和鉴别器之间的平衡。因此,我们将判别器与生成器的训练比设置为 2:1,并使用 Xavier 方法[ 29 ]初始化模型权重。

训练完成后,采用 CA-GAN 模型为每个类别生成 1,000 个合成样本,随后将其用作评估类别辨别力和 FID 分数的附加测试集。
合成数据的目视检查
图6和图 7显示了从合成数据集中随机选择的合成数据的示例。通过目视检查合成数据样本,很明显,即使使用相同的噪声输入,所提出的 GAN 模型也可以在不同类型的杂草之间产生视觉上不同的样本。

在图8中,示出了通过CA-GAN模型生成的植物幼苗的合成示例。图中还提供了 WacGAN-info 模型生成的植物幼苗和合成样本的真实示例,作为视觉评估的参考。为每个物种生成了九个样本,所有样本都使用具有类别编码变化的相同固定随机噪声向量。这证明了 CA-GAN 模型能够为 sPSD 中存在的每个不同物种生成视觉上不同的样本,因为每列样本的外观各不相同。

合成样品由围绕植物中心排列的多片叶子组成。与 [ 生成的样本相比 16生成的样本],CA-GAN 模型显示了生成更复杂的形状和纹理特征的能力。例如,我们的CA-GAN模型可以清晰地生成叶子的边缘,达到逼真的效果,而WacGAN-info生成的样本往往无法完美模仿真实数据的细节,特别是在生成独立叶子方面,导致模糊边缘,甚至将它们合并在一起。同时,WacGAN-info有时会生成错误数量的叶子(例如GERPU),这在一定程度上表明它无法准确生成规定物种的植物,而CA-GAN则不会出现此错误。此外,WacGAN-info 生成的植物包含大量像素错误,而我们的 CA-GAN 几乎没有任何此类错误,并且可以真实地模拟叶子的纹理。
通道注意力机制可视化
我们在图9中可视化了通道注意机制之前和之后的特征图,以帮助我们直接比较激活并观察通道注意机制对生成器的影响。

可以很明显地观察到,在应用通道注意力之后,模型更多地关注于生成植物本身,而不是它们的周围环境或背景,这意味着通道注意力机制的应用导致模型的焦点发生了明显的转变,将更多注意力集中在准确渲染植物本身,而较少关注周围环境或背景。这凸显了模型优先考虑和捕获主题的基本特征的增强能力。
类别区分度测试
我们还在真实数据集上训练了一个辅助分类器,以观察当经过训练的 GAN 响应不同类标签时生成的数据类的准确性。同样基于ResNet模型的辅助分类器在sPSD和ISAS数据集的真实数据上分别实现了99.22%和98.49%的分类准确率(图10),这表明训练得到的辅助分类器足够准确提供接近真实情况的分类标签。

然后我们将分类器应用于合成数据集,图8显示了分类结果。如图所示。如图 11和12 所示,我们的 CA-GAN 网络在 sPSD 和 ISAS 数据集上分别获得了 82.63% 和 93.46% 的分类精度,这两者都高于当前最先进的方法。

我们还在辅助 ISAS 数据集上训练了一个分类器,这次没有从图像数据中删除背景,以演示背景删除的影响。在此设置中,我们的 CA-GAN 网络的分类准确度仅为 84.00%,与去除背景的 ISAS 数据集上的性能相比明显较低。这一结果也支持我们的假设,即在生成过程中包含背景会大大增加模型的复杂性。然后,模型必须考虑不同的土壤质地、湿度水平和照明条件,这些条件在不同的环境中可能会有很大差异。
FID分数测试
最终的 CA-GAN 在基准 sPSD 上获得了 20.95 的最低 FID 分数,在辅助 ISAS 数据集上获得了 24.31 的最低 FID 分数。结果表明,CA-GAN 在 ISAS 数据集上表现最佳,同时在 sPSD 上实现了与 SN-GAN 相当的结果(表3)。

RS测试
使用 RS 对我们的 CA-GAN 模型进行的评估取得了有希望的结果。在 sPSD 上,我们的 CA-GAN 达到了 8.64 的 RS,与 SN-GAN 相当,并且显着超过了 2.30 的基线分数。尽管略低于 WACGAN-info 的 8.68 分,但我们模型的竞争性能证明了其在生成高质量和多样化图像方面的功效。在 ISAS 数据集上,我们的 CA-GAN 的 RS 为 4.97,不仅与 SN-GAN 的性能相当,还略高于 WACGAN-info 的 4.94 分数,同时大大优于 4.56 的基线分数(表3)。
讨论
在这项研究中,我们展示了测试 GAN 在杂草合成中的使用的实验结果。特别是,我们探索了使用 GAN 来生成杂草物种的图像。
这项研究的一个关键方面是利用潜在空间在杂草的早期生长阶段实现持续控制。通过实验,我们证明了生成器网络可以在潜在空间内实现九种代表性农业杂草(不包括禾本科杂草)的早期生长阶段的连续性控制。这是通过选择两个固定噪声向量z 1和z 2来执行的并对它们进行线性插值来执行的。其结果是产生连续变化的噪声输入,然后将其馈送到发生器中。因此,我们获得了随着输入噪声逐渐变化而平滑变化的生成图像,证明了训练后的生成器网络的连续性。
图13显示了通过选择两个固定噪声向量z 1和z 2 ,在z 1和z 2之间进行线性插值,并将获得的连续变化噪声输入到发生器中获得的结果。不同的列代表不同种类的杂草,而不同的行从上到下代表输入噪声从z 1到z 2的连续变化。

这表明可以适当地利用连续性特征来实现对杂草生长连续性的一定程度的控制。例如,我们可以使用此功能生成在特定特征(例如颜色、形状或大小)上逐渐变化的杂草物种的图像。这些特征对于杂草管理至关重要,因为准确识别杂草种类及其特征至关重要。
然而,这种控制杂草生长阶段的方法具有很大的局限性。例如,我们首先要确定代表杂草生长最早、最成熟阶段的噪声,这在实际操作中是困难的。因此,我们需要开发一种更稳定的方法来控制植物的生长阶段。
此外,我们的流程通过数据清理和在 GAN 网络中加入通道注意力模块,在小数据集上取得了良好的生成结果。然而,小训练样本的生成性能仍有改进的空间,例如 sPSD 中的 ZEAMX 品种,其包含少于 200 个训练图像。在生成的图像的某些区域中,仍然存在粗糙的边缘甚至像素错误。因此,除了改进网络之外,还需要更多的数据才能获得更好的生成结果。
我们未来的研究应该采取措施:(a)实现对生长阶段的控制;(b)建立全自动数据收集系统以获得大量高分辨率图像数据。

发布日期:2024-04-01