新闻资讯

高光谱图像结合机器学习的油菜成熟度分类

介绍
油菜是全球主要的油料作物,近年来产量不断增加[ 1 ]。由于其在食品和非食品领域的巨大价值,对油菜籽的需求一直在稳步增长[ 2 ]。最佳种子成熟度对于成功育种和最大化产量潜力至关重要。过早或延迟收获可能会导致种子质量下降和产量下降。值得注意的是,植物油的生产主要是在种子发育的成熟阶段合成的[ 3 ]。然而,由于连续总状花序的开花和豆荚开裂不同步,同时收获油菜籽并不能确保均匀成熟[ 4]。综合上述分析,油菜成熟度分级对于提高菜籽油品质、加快育种研究具有重要意义。
人们对作物成熟度的分类进行了大量研究。传统的分析方法,如气相色谱和高效液相色谱 (HPLC),以及化学分析方法,如凯氏定氮法和索氏提取法,已被用于评估作物成熟度 [ 5 ]。例如,使用电子鼻或气相色谱法对不同成熟阶段的芒果进行收获、保存和评估,然后使用多元统计进行分类[ 6 ]。同样,使用美能达色度计和高效液相色谱仪测量了 7 个不同成熟阶段番茄的表面颜色和番茄红素含量,从而可以研究成熟度、颜色和番茄红素含量之间的关系 [ 7 ]。
然而,传统方法在分类过程中可能会对样品造成物理影响,使其不适合高通量分析。因此,其他研究人员尝试建立基于测量的物理指标的成熟度预测模型。人工神经网络已被用来评估油棕新鲜果串的成熟度,依靠颜色和质地作为关键参数[ 8 ]。在另一项研究中,在发育和成熟阶段测量了两个无损参数,即颜色和品质,并使用连续数据集校准模型,以对不同成熟阶段的番茄果实进行分类[ 9]。然而,由于油菜籽在收购和加工过程中呈黑褐色,籽粒直径较小,仅根据物理指标实现成熟度分类的高精度具有挑战性。
高光谱成像(HSI)是一种基于多波段图像的技术,可以同时提供与植物和生物化学相关的空间和光谱信息[ 10 , 11 ]。与破坏性采样方法相比,它提供了一种节省时间且具有成本效益的方法[ 12 , 13 ]。其应用包括检测大米中的蛋白质含量[ 14 ]、预测苹果中的可溶性固形物[ 15 ]以及预测油菜籽中的叶绿素含量[ 16] 。]。由于其高通量和无损性质,HSI 还被用于评估作物成熟度。例如,对于玉米,从高光谱图像中提取胚侧、胚乳侧和两侧的平均光谱,并结合偏最小二乘判别分析(PLS-DA)算法和特征波长建立稳健的模型开发用于准确评估玉米种子成熟度[ 17 ]。同样,利用花生样品不同成熟阶段的高光谱数据,利用支持向量机(SVM)建立基于特征波长的判别模型,从而实现花生簇成熟度的预测[ 18]]。使用 400 至 1,000 nm 波长范围内的 HSI 系统估算秋葵的成熟度,并创建了结合有效波长、纹理特征和融合数据的成熟度分类模型[ 19 ]。通过选择特征波长,可以减少非线性的影响,从而提高数据处理效率并提高模型的准确性和鲁棒性[ 20]。因此,在利用HSI预测作物成熟度时,通常的做法是通过选择特征波长来建立成熟度分类模型。在对山茶果的研究中,使用 PLS-DA 开发了分类模型,并通过主成分加载、二维相关光谱以及无信息变量消除和连续投影算法(SPA)来选择特征波长[21 ]。另一项研究利用稳定性竞争自适应重加权采样(CARS)从高光谱苹果数据中提取特征波长,并应用偏最小二乘回归来预测可溶性固形物含量和淀粉模式指数,从而实现苹果成熟度的空间分布分析[ 22]。对于早期和成熟阶段采集的草莓样本,通过顺序特征选择处理高光谱数据以选择特征波长,并使用卷积神经网络对草莓样本特征波段对应的空间特征图像进行分类,准确率达到了令人印象深刻的98.6%在测试集上 [ 23]。HSI技术凭借其高通量能力,可以最大程度地减少测量过程中样品的损坏,消除化学污染,并在模型建立后快速有效地确定样品成熟度。由此可见,上述研究结合了HSI技术和常用的分类算法来预测作物的成熟度,为油菜成熟度的分类提供了一种更有效的方法。
材料和方法
实验和技术设计
本研究可概括如下:收集不同成熟阶段油菜籽的光谱图像,并从感兴趣区域提取光谱数据。采用多种预处理技术增强信噪比,采用多种分类算法建立全面的成熟度分类模型。利用多种特征波长选择算法选择特征波长,基于这些特征波长构建分类模型,比较各种波长选择算法和建模算法的性能,确定预测油菜成熟度的最佳模型。说明了使用 HSI 对油菜籽成熟度进行系统分类的关键步骤(图1))。实验过程中使用的主要脚本和数据集可通过以下链接访问:http://plantphenomics.hzau.edu.cn/usercrop/Rice/download。文件夹中的“reflectance.xlsx”文件包含光谱反射率数据。不同的片名对应于各自预处理后得到的反射率数据。“code”文件夹包含分类和特征波长提取的代​​码。

图。1。油菜成熟度分级的总体过程 (A) 3 个不同成熟度的油菜籽。(B) 恒生指数采集系统。(C) 校准和预处理。(D) 光谱数据预处理。(E) 特征波长选择。(F) 分类模型。
材料
本试验以优质油菜品种“花油杂62”为样品。该品种在中国油菜产业中具有一定的代表性,使得研究成果更具应用性和推广性。种子于2020年10月20日在中国武汉华中农业大学试验田播种。2021年4月19日至2021年5月17日,共采集7批次实验样品。绿色成熟期于4月19日至23日采集,黄色成熟期于4月28日至5月2日采集,完全成熟期于5月7日、12日和5月17日采集。根据长角果的采样时间和颜色,将长角果分为3类。绿色成熟阶段的特点是绿色,黄色成熟阶段油菜籽呈红棕色和黄色混合,完全成熟阶段油菜籽颜色趋于黑色。每批次在现场随机选取10个采样点,单位面积为1 m×1 m。在每个采样点,通过收集位于主株底部的豆荚来收获 5 株油菜籽植株。然后,将收集到的豆荚在实验室中手工剥落,得到油菜籽。油菜籽荚储存在通风良好的环境中,温度在20至25℃之间。在此过程中,种子的含水量逐渐降低至均匀水平,随着干燥过程,绿色和黄色的种子会自然变黑(图1)。每批次在现场随机选取10个采样点,单位面积为1 m×1 m。在每个采样点,通过收集位于主株底部的豆荚来收获 5 株油菜籽植株。然后,将收集到的豆荚在实验室中手工剥落,得到油菜籽。油菜籽荚储存在通风良好的环境中,温度在20至25℃之间。在此过程中,种子的含水量逐渐降低到均匀水平,随着干燥过程,绿色和黄色的种子会自然变黑(图1)。每批次在现场随机选取10个采样点,单位面积为1 m×1 m。在每个采样点,通过收集位于主株底部的豆荚来收获 5 株油菜籽植株。然后,将收集到的豆荚在实验室中手工剥落,得到油菜籽。油菜籽荚储存在通风良好的环境中,温度在20至25℃之间。在此过程中,种子的含水量逐渐降低至均匀水平,随着干燥过程,绿色和黄色的种子会自然变黑(图1)。收集到的豆荚在实验室里手工剥去,得到油菜籽。油菜籽荚储存在通风良好的环境中,温度在20至25℃之间。在此过程中,种子的含水量逐渐降低到均匀水平,随着干燥过程,绿色和黄色的种子会自然变黑(图1)。收集到的豆荚在实验室里手工剥去,得到油菜籽。油菜籽荚储存在通风良好的环境中,温度在20至25℃之间。在此过程中,种子的含水量逐渐降低至均匀水平,随着干燥过程,绿色和黄色的种子会自然变黑(图1)。1A)。试验共收获不同成熟度油菜籽1500粒,其中青熟期种子400粒,黄熟期种子400粒,全熟期种子700粒。
高光谱采集系统
该系统获得了油菜籽样品的高光谱图像(图1 B),该系统包括高光谱相机(光谱范围为 400 至 1,000 nm,狭缝宽度为 25 μm,光谱分辨率为 1.9 nm,共314个频段)、卤素灯(功率150W)、电动移动载台(移动速度2mm/s)、计算机。拍摄后获得的每个样本均以二进制数据流格式保存,大小为3.16GB。

高光谱图像采集和预处理
图2说明了从二进制值数据中提取光谱反射率的完整处理流程。每个样品的全波段光谱图像是通过重组从 HSI 系统获得的二进制数据流获得的。使用 ENVI 5.1 软件(Environment for Visualizing Images software,Research Systems Inc.,Boulder,CO,USA)裁剪高光谱图像,以删除不必要的区域并提高处理速度。大津算法 [ 25使用 ] 在 440 nm 波长(背景板和油菜籽光谱之间具有最佳对比度)对图像进行分割,得到油菜籽的二值图像。对连通域进行标记以从油菜籽图像中提取感兴趣区域,并使用全波段图像的二值图像掩模获得全波段反射率曲线。

图2 . 光谱数据处理程序。
应用各种预处理操作来减轻样本变化、光散射和基线漂移的影响[ 26 ]。预处理算法包括 Savitzky–Golay (SG)、一阶导数 (D1st)、二阶导数 (D2nd)、标准正态变量 (SNV) 和去趋势算法。另外,考虑到它们的具体特点,SG与D1st结合、SG与D2nd结合、SNV与去趋势结合对原始光谱数据进行预处理。Kennard–Stone 算法 [ 27]用于将数据以3:1的比例划分为训练集和测试集(训练集,1,125;测试集,375)。在本研究中,在训练和测试数据集中确保了绿色、黄色和完全成熟阶段的比例相等。训练数据集用于模型训练,而测试数据集用于评估模型的分类性能。
特征波长选择
高光谱图像包含大量光谱数据,通常表现出冗余,因此需要选择相关的特征波长。该研究使用了 3 种不同的算法,即 SPA、CARS 和区间变量的迭代空间收缩 (IVISSA),来提取特征波长。随后,根据各自的特点,将这两种算法结合起来,以提高特征波长选择的效率。
SPA 是一种确定性搜索技术,以其可重复的结果和卓越的验证集选择能力而闻名[ 28 ]。该算法将最大投影波长识别为特征波长,从而减轻原始输入的碰撞影响。实验建立了10到100个波长变量的范围,特征波长的确定依赖于均方根误差(RMSE)的变化。CARS采用“适者生存”的原则来选择特征波长,使用5次运行结果中交叉验证RMSE最小的波长组合[ 29]。本研究中,采用“中心”预处理方法,进行了 1000 次蒙特卡罗采样。为了解决 CARS 在选择光谱特征时的不稳定性,选择了在 5 次独立运行中产生交叉验证的最小 RMSE 的特征波长。IVISSA是在VISSA算法的基础上选择波长间隔的算法。它结合了全局和局部搜索来迭代优化光谱间隔的位置、宽度和组合[ 30 ]。
CARS算法在油菜光谱数据降维方面表现不佳,但在降维数据上表现出良好的建模性能。与直接使用 CARS 相比,CARS-SPA 减少了变量数量并提供了更多信息[ 31 ]。虽然 IVISSA 在选择特征波长方面表现出良好的性能,但仍然存在光谱重叠。为了缓解数据共线性问题,建议使用 SPA。最近的研究报告了使用 IVISSA-SPA 二次提取光谱数据的积极结果 [ 32 , 33 ]。
分类模型
本节比较了极限学习机(ELM)、k近邻(KNN)、随机森林(RF)、PLS-DA和SVM等5种分类算法,建立了不同成熟度油菜分类的最佳模型。阶段。
ELM 是一种基于前馈神经网络的增强型单向反馈神经网络算法[ 34 ]。利用ELM构建油菜成熟度判别模型时,采用的激活函数为Sigmoid函数。ELM的神经元数量设置在30~100个范围内,步长为10,同时调整隐层神经元数量以获得各种光谱数据的最优配置。
KNN 算法是一种常用的监督学习方法,它表现出良好的分类性能,同时需要相对较少的参数[ 35 , 36 ]。利用KNN进行分类时, K值的选择显着影响分类精度。一般来说,随着K值的增大,准确分类的概率也随之增大。模型中的K值范围从 5 到最大 30,以步长 1 递增。
RF 是一种利用 Bagging 作为框架的决策树集成模型[ 37 ]。RF 使用集成方法,生成大量决策树,每棵树都根据原始训练数据进行训练。输出类别是通过树之间的多数投票来确定的[ 38 ]。在本研究中,Bagging框架的参数“ N ”值配置为500,决策树的最大深度“ M ”范围为1到20,网格搜索的步长为1。
PLS-DA 算法是一种基于偏最小二乘回归分析的监督分类方法,通过组合预测变量来生成与目标结果表现出最高相关性的潜在变量,从而实现降维 [ 39 , 40 ]。PLS-DA 方法在各个领域都有广泛的应用,包括化学分析 [ 41 ]。PLS-DA 模型中的参数“ N ”非常重要。如果设置太小,判别模型会因为信息不足而变得不准确。相反,将值设置得太大会增加过度拟合的可能性。
SVM是一种经典的监督机器学习模型,能够对线性和非线性模型进行分类,在各个领域得到广泛应用。本研究中,SVM算法采用径向基函数作为核函数,通过五重交叉验证方法和粒子群优化算法对惩罚因子“ C ”和核参数“ G ”进行优化。“ C ”表示目标函数的惩罚系数,其范围设置为0到100。
模型评估
本研究使用ENVI v5.3进行油菜籽反射率的提取,同时使用MATLAB 2019a完成预处理、特征波长提取和建模任务。

结果
频谱特性分析
图3所示的平均光谱曲线揭示了 420 至 530 nm 之间 3 个成熟度油菜籽光谱曲线的相似性。在 530 至 720 nm 范围内,绿色和黄色成熟阶段的反射率表现出相似性,但在完全成熟阶段和其他两个阶段之间观察到细微差别。在 720 至 982 nm 范围内,成熟阶段与其他 2 个阶段之间的差距逐渐增大。图4A显示了不同成熟度油菜籽的原始反射率曲线。由于在 400 至 420 nm 和 982 至 1,000 nm 之间的光谱中观察到大量噪声,因此实验仅限于 420 至 982 nm 之间的波长范围。

图3 . 油菜籽光谱反射率的平均值和标准差。

图4 . 不同预处理方法的光谱曲线。(A) 生的。(B) SG。(C) SNV。(D) D1。(E) D2nd。(F) 去趋势。(G) SG + D1。(H) SG + D2nd。(一)SNV+去趋势。
光谱数据预处理结果
不同方法处理的光谱曲线存在显着差异(图4)。对原始光谱进行SG处理可以减少光谱曲线的波动,从而获得更平滑的外观(图4B)。经过SNV处理后,光谱变化增加,而曲线呈现出相对一致的趋势(图4C)。导数处理导致不同成熟度油菜籽光谱曲线变化不一致,后半段光谱波动较大(图4D和E)。对光谱进行去趋势处理会导致不同成熟度油菜籽的光谱趋势不同(图4 )F 和 G)。对光谱应用 SG + 导数预处理表明 800 至 1,000 nm 波长区域内的波动减少。SNV +去趋势预处理的应用放大了曲线的趋势,同时减少了光谱差异的区域(图4 I)。
基于全波长的建模分析
包括整个波长的准确度和精确度在内的建模结果(表1和表S10)揭示了使用不同的预处理光谱数据作为输入时的显着变化。在 5 种分类算法中,与使用原始光谱数据相比,使用带有 D1st、SG + D1st 和 SG + D2nd 的预处理光谱数据可产生更好的建模结果。除RF模型外,D2nd在所有模型中均优于原始谱模型,SNV+detrend在除KNN模型外的所有模型中均优于原始谱模型。总体而言,如精度结果所示,D1st、D2nd、SG + D1st、SG + D2nd 和 SNV + detrend 有助于提高油菜籽光谱数据的信噪比

5种建模方法中,ELM和SVM表现出最高的建模性能,总体预测精度超过92%。SG + D1st 产生了 ELM 的最高建模结果,预测精度达到 97.33%。D2nd 取得了 SVM 的最佳建模结果,预测精度为 97.87%。表S1至S3呈现每个类别的分类精度和召回率,从而深入了解模型在各个类别中的性能,并对其整体性能进行综合评估。3个类别的准确率表明,第3个类别的评估指标明显高于前2个类别。这与 3 个类别的平均光谱曲线的一致趋势一致。因此,对于前2类的判断更为关键。在全波长建模中,与其他模型相比,ELM 和 SVM 模型在区分绿色成熟期和黄色成熟期方面表现出更好的能力。
特征波长选择结果
结果表明,应用D1st、D2nd、SG + D1st、SG + D2nd 和SNV + detrend 提高了油菜成熟度模型的准确性(表1)。因此,从原始光谱数据中提取特征波长,并使用这 5 种方法对数据进行预处理。

以SPA为例,得到不同预处理算法使用SPA算法的RMSE曲线(图5)。SPA算法对原始数据(图5A )和D1st(图5B)、D2nd(图5C)、SG+D1st(图5D)处理后的数据得到的特征波长数, SG + D2nd(图5E)和 SNV + detrend(图5F)分别为 41、42、44、44、51 和 44。从原始光谱数据中选取的特征波长主要集中在450~550 nm波段,其他波段分散分布(图6 )A)。D1st选择的特征波长主要集中在450至550纳米和850至1,000纳米范围内,在其他波段有分散分布,但主要集中在这些波段波长的峰值处(图6B)。600至800 nm范围内的波长未使用D2nd进行选择,而其他波长呈现分散分布,主要位于各个波长带的转折点(图6 C)。与D1st相比,SG + D1st方法在600至900 nm范围内选择了更多数量的特征波长,主要集中在波长的局部峰值点和转折点(图6 D)。使用 SG + D2nd 所选特征波长的分布与 D2nd 类似(图 2)。6E)。通过 SNV 和 detrend 组合选择的特征波长主要集中在 900 nm 波长附近(图6 F)

基于特征波长的建模分析
根据上述分类结果,ELM和SVM模型表现出最高的分类精度,因此选择它们来利用特征波长建立预测模型。根据表4和表5以及表S11和S12在波长选择算法方面,总体精度从高到低依次为IVISSA-SPA、CARS、IVISSA、CARS-SPA、SPA。与其他 3 种特征波长选择方法相比,使用 CARS 和 IVISSA-SPA 算法提取的特征波长表现出优越的预测精度。D2nd-IVISSA-SPA-SVM 在所有模型中取得了最高的准确率,准确率高达 97.86%,准确率达到 94.98%。在各个类别的分类精度方面,绿色和黄色成熟阶段类别也表现出较高的分类性能(表S4至S9)。

虽然基于特征波长的模型可能会牺牲一些光谱信息,但它们成功地减轻了原始数据中存在的冗余。因此,选择合适的特征波长方法对于建立精确的模型至关重要。预处理后的数据精度超过了原始光谱,表明通过预处理有效增强了模型的信噪比和鲁棒性。D2nd 表现出最高的平均精度,表明导数处理增强了光谱灵敏度,并有效地描绘了光谱曲线轮廓的变化,从而突出了不同成熟度油菜籽光谱数据的细微差别。
讨论
虽然一些研究探索了高光谱数据和机器学习算法的融合来进行无损油菜籽质量参数分析,但该领域的成熟度检测研究仍然有限。例如,一些研究使用可见光和近红外(NIR)高光谱数据结合机器学习技术来量化油菜叶子中的氮水平[ 42 ]。另一项研究利用 NIR HSI 光谱和化学计量学来评估油菜籽的质量参数 [ 43]。这项研究初步验证了利用全波长范围对油菜籽成熟度进行分类的可行性。随后,应用一系列特征选择算法从全波长中提取特征波长,目的是在保持分类精度的同时减少数据冗余。通过分析各特征波长选择算法提取的特征波长分布,大多数特征波长位于700~900 nm区间范围内。此外,5种特征波长提取算法中,建模效果最好的CARS和IVISSA-SPA提取的波长最多位于800~900 nm。因此,与油菜籽成熟度相关的波长可能位于800至900 nm之间。这也对应于“光谱特征分析”部分中油菜籽3个不同成熟阶段的平均光谱曲线。在反射率差异较大的波段中,更容易分离不同成熟度水平的油菜籽。另一项使用 HSI 来评估成熟度的研究油茶果实同样识别出 800 至 900 范围内的特征带 [ 21 ]。通过高光谱系统测定油棕果实的成熟度,发现750至900 nm波长范围(近红外区域)可以准确地区分3种不同的成熟度类别,与本文的结论类似[ 44 ]。有趣的是,未熟、成熟和过熟3个成熟阶段的光谱曲线也与本研究中观察到的光谱曲线趋势一致。细胞结构和叶片含水量对 700 至 900 nm 范围的 NIR 和短波红外波段有重要影响 [ 45],在研究辣椒种子中的水分含量和光谱带之间的关系时,在 800 至 900 nm 范围 (NIR) 附近进行了类似的识别 [ 46 ]。这进一步证实水分是影响油菜成熟度的关键因素。在利用 HSI 预测杏仁等油籽作物的脂质含量的研究中,还定位了 900 nm 范围内的特征带 [ 47]。因此,水分和含油量可能是影响油菜成熟度不同阶段光谱反射率的关键因素。D2nd 处理的光谱可以更好地强调与成熟度相关信息(例如水分含量)相关的光谱差异。IVISSA在选择特征波长方面表现出良好的性能,但往往会选择相对较多的特征波长。SPA的使用可以减少所选特征波长中的冗余和共线性。它们的组合可能会更准确地覆盖所选波长,特别是捕获与油菜籽成熟度相关的关键信息。油菜籽成熟度的预测可能涉及复杂的非线性关系。
本研究存在地理位置对油菜生长过程的影响等潜在影响因素。这些变化可能导致油菜籽在不同的生长条件下具有不同的光谱特征。在进一步的研究中,将考虑在不同地理位置、年份和种植条件下进行验证,以增强模型的普遍性。将考虑简化的传感器技术和优化的数据收集流程,以在实际应用中实现油菜成熟度的低成本预测。尽管本次调查存在某些局限性,例如有机会完善油菜籽分类等级并利用反射率之外的其他光谱图像信息来辅助分类,
该研究证实了 HSI 技术在无损检测油菜成熟度方面的潜力。获得了干油菜籽的高光谱图像,并提取了感兴趣区域的反射率值。使用SG、D1st、D2nd、SNV、去趋势、SG+D1st、SG+D2nd、SNV+去趋势来减少成像过程中产生的噪声的影响。采用SPA、CARS、IVISSA及其组合算法进行特征波长提取,同时采用ELM、KNN、RF、PLS-DA和SVM建立判别模型。
对各种预处理算法、特征波长提取算法和分类算法进行了比较,以评估其性能。结果证明了结合预处理、特征波长提取和机器学习算法的模型在预测油菜籽成熟度方面的有效性。其中,D2nd-IVISSA-SPA-SVM模型表现出最好的建模效果。重要的是,基于无损且高效的HSI的成熟度分类模型成为未来油菜籽成熟度分类的有前景的工具。这些发现为该领域创新方法的进步提供了宝贵的见解和灵感。

发布日期:2024-04-01