新闻资讯
介绍
人工智能(AI)技术的最新进展已经彻底改变了许多领域,并广泛应用于医疗、金融、交通和教育等各个行业。当前的人工智能方法包括一系列技术,从标准机器学习模型(例如决策树和线性回归)到更复杂的深度学习模型(例如多层感知器(MLP)、卷积神经网络(CNN)、循环神经网络(RNN)和变压器。如今,基于 Transformer 的模型已经在各个领域展示了其多功能性,从机器翻译、情感分析和问答等自然语言处理任务 [ 1 – 3 ] 到计算机视觉任务 [ 4 –6 ]例如图像生成、对象检测和图像分割。随着模型架构和硬件技术的进步,最先进的深度模型,如 GPT-3 [ 7 ] 和 ViT [ 8 ],发展到更大的尺寸和复杂性,突破了数千亿个参数的界限。尽管复杂性的增加提高了这些模型的准确性,但可解释性的挑战却加剧了,使得理解这些黑盒模型的内部运作和决策过程变得困难。
可解释的人工智能(XAI)方法通过提供透明度和信任,在人工智能系统的决策过程中发挥着至关重要的作用。这些 XAI 属性证明了 AI 模型预测的合理性,从而在人类用户之间建立信任并在必要时调试模型。利用 XAI 方法是不可避免的,特别是在医疗保健 [ 9 , 10 ]、法律 [ 11 ]、交通 [ 12 ] 和金融 [ 13 ] 等领域] 所做的决定会产生严重后果。例如,XAI 帮助医生和医疗专业人员理解和信任人工智能模型提出的建议,从而促进更好的患者护理和治疗计划。在金融领域,XAI 解释信用评分决策,帮助银行了解影响个人或公司信誉的因素并减少潜在的坏账。XAI 帮助解释法律文件和先例,协助律师建立更有力的案件,并确保公正的判决。此外,XAI 通过解释自动驾驶汽车的决策过程并确保安全性和可靠性,同时增强公众对这一尖端技术的接受度,从而为自动驾驶汽车提供支持。
现有的 XAI 方法涵盖不同类型的技术,包括基于规则的解释、特征重要性分析、局部代理模型、基于原型/示例的解释、反事实、模型蒸馏和注意力机制。XAI 方法通常根据其阶段(事前与事后)、范围(本地与全局)、输入数据(数字/分类、图像、文本和时间序列)和输出格式(数字、规则、文本、视觉、音频和混合)[ 14]。提供解释的阶段是指生成解释的阶段,其中ante hoc方法通过考虑训练过程之前和期间的可解释性来使模型自然地可解释,而post hoc方法利用外部解释器模型来确保可解释性,而无需在训练之后改变原始模型。训练。全局解释针对整个模型,而局部解释则明确解释特定输入的推论。除了方法上的差异之外,XAI 模型使用的输入数据表示和输出格式在人工智能任务领域以及人类用户的人口统计和专业水平方面也有所不同。
XAI 模型生成的解释的输出格式在提高可解释性水平和帮助人类用户更好地理解模型方面发挥着重要作用,具体取决于用例场景。许多 XAI 方法使用数字、基于规则、文本和视觉解释,所有这些都以视觉方式呈现,以增强与人类用户的沟通。数值解释的示例包括提供特征重要性分数、类别概率或权重(例如线性模型中的系数或基于树的模型中的重要性值),以量化不同变量对模型推理的影响。规则解释包括呈现模型做出决策所遵循的逻辑规则或决策路径,使模型输出背后的逻辑清晰,并使决策过程透明。视觉解释利用图像、热图或显着图的通信能力来突出显示输入数据点的重要特征或部分,使用户能够理解影响模型决策过程的因素。文本解释涉及自然语言陈述的澄清。最近的调查[[图14、15 ]总结了XAI领域关于使用这些视觉上吸引人或人类可读格式提供解释的方法。除了这些格式之外,音频解释还提供了一种独特的方式来呈现吸引听觉的解释。这包括提供语音、声音信号或从音频任务的原始输入导出的部分输入音频,或用于其他模态的非音频格式的声音化。
通过将其他领域的 XAI 方法应用于这些模型或使用特定于音频的 XAI 方法,可以使音频模型变得可解释和透明。开发 XAI 音频方法背后的主要思想是通过利用音频的表达能力来提供更有意义和更容易理解的解释,这是解释音频任务的直观手段[ 16]。尽管大多数 XAI 方法已被提出来提供视觉解释或仅在视觉任务和数据集上进行测试,但某些方法有潜力通过简单的修改来解释音频模型。当在音频任务中使用这些方法时,音频处理任务中使用的数据表示和 XAI 方法的原始数据表示(例如,音频频谱图和标准图像)之间的相似属性被认为可以提供有意义的解释。相反,也有大量的工作提出了专门用于解释音频模型的 XAI 方法。虽然有些方法是建立在现有 XAI 方法的基础上并进行了实质性改进,但其他方法则提出了从头开始构建的全新方法,以使音频模型可解释。在本研究中,我们概述了现有的 XAI 技术,通用的或特定于音频的,用于解释音频模型。我们还旨在强调开发生成音频解释的 XAI 方法的潜力,从而在该领域带来有希望的研究。
本文的其余部分组织如下:我们首先在“使用通用 XAI 方法解释音频模型”部分中通过根据模型的输入数据表示对它们进行分类,概述了适用于音频模型的现有 XAI 方法。在“音频特定 XAI 方法”部分,我们重点关注当前音频特定 XAI 方法,以释放音频解释专业化的潜力。最后,我们讨论了几个悬而未决的问题并强调了潜在的研究方向,包括在音频数据上测试 XAI 方法、生成可听的解释,以及在得出结论之前从非音频模式提供可听化的解释。
使用通用 XAI 方法解释音频模型
波形、声谱图和梅尔频率倒谱系数 (MFCC) 等音频表示形式提供了转换和分析音频数据的不同方式,支持自动语音识别 (ASR)、音频分类、说话人识别和信号处理等任务。根据音频表示的选择和任务的特征,使用各种深度模型架构,包括 MLP、CNN、RNN 和 Transformer。除了 AI 系统的这些设计选择之外,选择适当的 XAI 方法对于使用户能够理解和信任这些系统做出的决策也至关重要。在本节中,我们概述了适用于音频处理模型的通用 XAI 方法,并考虑了这些模型的输入数据表示
传统特征提取器
常见的特征提取工具包,例如 openSMILE [ 17 ]、openXBOW [ 18 ]、DeepSpectrum [ 19 ] 和 auDeep [ 20 ],利用各种音频处理方法从音频数据中提取不同的声学特征。这些提取的特征的数字表格结构使用户能够直接训练可自我解释的人工智能模型,例如线性回归或决策树。此外,有意义的描述符(例如音调、响度和 openSMILE 中生成的片段数量)提供了文本解释。例如,在情绪识别任务中,愤怒的音频可以解释为“音频中的情绪是愤怒的,因为响度很高”。
频谱图表示
频谱图及其衍生物(例如 MFCC)通常用于表示音频。它们提供音频信号的频率内容和时间变化的可视化和定量描述,从而能够详细分析音频信号特征并识别模式。
鉴于其类似图像的性质,CNN 主要用于处理各种音频任务的频谱图。适用于这些模型的流行 XAI 方法使用引导反向传播 [ 21 ],该方法通过计算梯度的估算版本来修改反向传播,从而创建特征相关性。它通过来自更高层的附加引导信号增强了标准反向传播;也就是说,它在梯度计算期间仅反向传播正梯度,这增加了要观察的高层单元的激活。通过在神经网络中反向传播模型预测,逐层相关性传播 (LRP) [ 22],另一种技术,为特定像素或神经元授予相关性分数。它使用受守恒特性约束的特制局部反向传播规则,这要求神经元接收到的相同数量的内容再次传播到底层。积分梯度[ 23 ]是一种有效的公理归因技术,只需调用几次常规梯度运算符即可轻松实现,并且无需更改原始网络。它计算沿连接输入图像和基线图像的直接线的梯度积分,从而提供对特征归因的全面评估。[ 24的作者]提出了梯度加权类激活映射(Grad-CAM),这是一种为CNN设计的特征归因方法,通常应用于最后一个卷积层。它创建一个粗略的定位图,使用相关分类分数相对于最终卷积层中的特征的梯度,突出显示任何预测类别的图像中的关键区域。
与模型无关的 XAI 方法,例如局部可解释的与模型无关的解释 (LIME) [ 25 ] 和 SHapley Additive exPlanations (SHAP) [ 26] 提供了一种解释音频模型的独特方法,无论模型架构如何。LIME 在给定预测的局部区域使用可解释的代理模型来近似原始复杂模型,为每个预测提供忠实的解释。它对特定输入示例周围的样本点进行局部扰动,以根据预测的变化来识别特征重要性。SHAP 结合了合作博弈论,提出了一个统一的框架,用于计算每个特定预测的附加特征重要性。该框架具有几个理想的属性(局部准确性、缺失和一致性),这些属性对于其他附加特征归因方法来说是新颖的。这两种方法还提供了一种直接将特征重要性分配给预定义的较大数据部分的方法,例如简单的频谱图补丁或音频源,而不是组合各个时频点的相加分数。这些重要的高级组件的提取使得提供更有意义和更容易理解的音频解释成为可能。使用 LIME 和 SHAP 分配给预定义频谱图块的样本特征重要性如图 2 所示。
Transformer 模型是一类强大的神经网络架构,最近彻底改变了深度学习的各个领域。尽管它们最初是为了自然语言处理 (NLP) 任务而引入的,但它们的影响已经从 NLP 扩展到计算机视觉和音频任务。视觉中 Transformer 模型的例子包括视觉 Transformer (ViT) [ 8 ] 和数据高效的图像 Transformer,它们通过利用自注意力机制和分层表示在图像分类、对象检测和图像分割方面表现出了卓越的性能。最近,人们越来越关注这些模块提供的注意力图是否有助于解释模型决策的推理——Wiegreffe 和 Pinter [ 27] 提出了解释注意力的可能性。因此,在变压器视觉模型中,注意力机制可用于提供解释或视觉解释。[ 28 ]的作者证明了来自不同头部的注意力图可以关注图像的不同语义区域。因此,提供注意力图非常有用,因为它允许用户可视化模型对音频频谱图特定组件的关注。为了超越注意力可视化来解释变形金刚,Chefer 等人。[ 29 ]提出了一种计算相关性的新方法。该方法基于深度泰勒分解原理分配局部相关性[ 30],然后通过各层传播相关性分数。传播涉及注意力层和跳跃连接,这对现有的特征归因方法提出了挑战。
除了特征重要性方法之外,基于原型/示例的解释还提供了一种有效的方法,通过解决诸如“模型最有可能错误分类哪种输入?”等问题来解释具有合成或自然输入“示例”的音频模型。哪些训练样本可能被错误标记?”或“哪个输入最能激活中间神经元?” 而Koh 和Liang [ 31 ] 以及Pruthi 等人。[24] 利用影响函数对测试损失具有最大“影响”的训练数据点,Olah 等人。[ 32] 在指定集合中搜索自然示例,或使用梯度下降来合成示例,最大限度地激活两者感兴趣的神经元。后者还使用优化方法将模型行为的原因与单纯的相关性隔离开来,旨在了解模型真正在寻找什么。使用这些方法提供自然示例对于音频模型具有相当大的优势,因为还可以提供与示例频谱图相对应的原始音频来增加人类对模型的可解释性。尽管原始波形音频已包含在数据集中,但当相位信息可用时,它会被重建以用于合成示例。
基于表示的解释是一种全局解释方法,通过分析深度模型的中间表示来导出模型理解。[ 33 ]中的网络剖析方法是第一个识别一系列广泛的人类标记的视觉语义概念的方法,包括颜色等低级概念和对象等高级概念。然后,它收集 CNN 的隐藏变量对这些已知概念的响应,以量化隐藏变量-概念对的对齐情况。尽管这在计算机视觉中已被证明是成功的,但已经确定了针对音频领域的新概念,例如频率、音调、音素和其他音频部分或概念。使用概念激活向量 (TCAV) 进行定量测试 [ 34] 通过利用其内部表示来衡量模型预测对用户提供的概念的敏感性。网络剖析需要分段和注释样本级别的概念标签,而 TCAV 仅需要存在概念的一组样本和不存在概念的一组样本。这也为不可本地化的概念提供了优势,例如样本波形中与频率相关的特征。因此,TCAV 提供的解释并不限于预先存在的功能,这些功能为非专家用户提供了探索他们定义的音频概念的灵活性。
波形表示
尽管 MFCC 和频谱图提供了音频的频谱表示,但当相位信息被丢弃时,它们会丢失一些时间信息。波形保留了所有时间特征,使模型能够捕获音频信号中的细微变化和复杂模式。随着深度模型架构的进步,例如变压器和自监督学习(SSL)策略,波形表示已变得有利于深度音频处理,以捕获细粒度的时间细节,而不需要任何特征提取方法[ 35]。在 XAI 的背景下,波形表示比频谱表示具有一定的优势。这提供了更容易理解的解释,而不需要额外的重建。频谱表示在音频重建到原始域的过程中经常会遇到信息丢失,这主要是因为丢弃了相位信息。
Wav2Vec 2.0 [ 36 ]、VQ-Wav2Vec [ 37 ] 和 HuBERT [ 38 ] 是众所周知的基于 Transformer 的模型,它们使用 SSL 来学习大规模数据的音频表示。它们都使用原始波形作为输入表示,并且通常用于各种音频和语音处理任务,如[ 35 ]中分析的那样。为在原始波形数据上训练的音频变压器提供注意力图是增强这些大型模型可解释性的有效方法[ 39 ]。
由于丢弃了诸如相位信息之类的内容,原始波形表示的维度通常比频谱图表示的维度更高。使用特征归因方法共享高维波形表示音频中的时间点重要性对于用户来说可能难以理解。因此,SHAP 和 LIME 通过直接将重要性分配给分解的音频补丁而不是单个时间点,在解释波形馈送模型方面具有优势。同样,这可以使用加性归因方法(例如 LRP)通过聚合各个时频点的加性分数来实现。因此,为用户提供了更有意义的音频片段,使他们能够聆听并增强理解。
音频特定的 XAI 方法
与计算机视觉和自然语言处理等其他领域的模型相比,音频处理模型具有独特的特征。这些特征源自音频数据的属性和专门为处理它们而设计的深层模型架构。因此,开发专门针对音频模型的 XAI 方法对于增强这些模型的可解释性(超越肤浅的理解)至关重要。音频特定的 XAI 方法旨在解释复杂的音频信号,利用人类通过聆听来解释和声、节奏和其他高级概念的能力。表2总结了音频特定的 XAI 方法。
利用现有的特征归因方法来理解音频模型的预测是一种幼稚的方法。贝克尔等人。[ 40 ]利用LRP探索了音频领域深度模型的可解释性。他们的目的是解释使用原始波形和频谱图训练的多个深度模型,用于语音数字和说话者性别的分类任务。对于这两项任务,作者研究了特征相关性得分和概念(例如音素或某些频率范围)之间的联系。在[ 41 ]中,作者使用了DFT-LRP[ 42],这是LRP的最新修改版本,用于解释不同架构的音频事件检测模型。他们对预测类别的每个时频分量的重要性进行了评分。然后,这些见解用于确定音频事件检测模型最合适的输入表示,并了解模型的推理是否符合人类需求。
将音频输入分解为有意义的组件提供了一种有效的方法来公开 XAI 方法要考虑的音频部分。咳嗽石灰 [ 43] 扩展了 LIME 方法来解释专门针对咳嗽数据定制的音频处理模型。CoughLIME 的关键部分是将输入音频分解为人类可以解释的组件,这与直接在音频频谱图上使用标准 LIME 不同。强调两种分解方法:响度和非负矩阵分解(NMF)。前者的目标是通过计算音频功率并对原始波形进行阈值化来提取单个咳嗽声,而后者则利用 NMF 将频谱图矩阵分解为频谱模式和时间激活矩阵。音频分解后,CoughLIME 会为每个分解部分分配重要性。鉴于 NMF 分解应用于频谱图级别,逆短时傅立叶变换用于从被认为重要的 NMF 分量生成可听的解释。作者表明,CoughLIME 可以为 2019 年冠状病毒病 (COVID-19) 检测生成忠实的音频解释(见图 1)。2)。使用并行方法,audioLIME [ 44 ] 通过基于通过源分离提取的组件创建扰动过程来扩展 LIME。它的目的是解释与 Spleeter [ 45 ] 作为源分离系统生成的源有关的音乐标签模型。例如,audioLIME 解释了一个预测标签“女歌手”,其中包含与女歌手分离的声音或“摇滚”,其组件包括驱动鼓组和失真吉他。
除了使用现有的 XAI 方法来创建特定于音频的方法之外,[ 46] 从头开始提出了一个解释器网络。他们的目的是用有意义的音频对象来解释音频处理模型,并让用户能够聆听它们。他们的解释器网络采用 NMF 作为音频分解方法。他们设计了 2 个形成解释器模块的代理模型:(a) 一个正则化解释器模型,它将目标网络的隐藏层表示作为输入,并产生预学习 NMF 组件的时间激活作为中间输出;(b) 一个简单模型汇集 NMF 组件的时间激活,并使用线性层来模拟原始分类器的输出。它还学习一个单独的 NMF 解码器,以确保中间表示对应于预先学习的频谱模式字典的时间激活。对于音频解释生成,通过使用(b)中线性层的汇集时间激活和权重估计其相关性来选择重要组件。仅使用相关组件执行 NMF 反演即可获得可听的波形解释。作者通过将音频与不同类别的样本混合来定性地验证了他们的方法。他们还说明,这些解释强调了感兴趣的音频对象。数字 他们还说明,这些解释强调了感兴趣的音频对象。数字 他们还说明,这些解释强调了感兴趣的音频对象。
ASR 是音频处理中的一项主要任务,它输出给定音频输入的转录。转录的长度根据音频输入的长度而变化,这使得解释它们比使用简单的分类标签更具挑战性。X-ASR [ 47 ] 为 ASR 转录提供了解释,作为音频帧的子集,它是转录的最小且充分的原因。它修改了现有的XAI方法、统计故障定位(SFL)[ 48 ]、因果关系[ 49 ]和LIME来构建框架X-ASR。为了使用这些适应模型生成解释,它还利用了分类步骤,其中根据相似性度量附加正确或不正确的标签。
讨论和未来方向
由于音频数据的独特属性以及需要模型来处理这些数据,解释音频模型不同于解释计算机视觉和自然语言处理等其他领域的模型。尽管这篇综述涵盖了有关音频模型可解释性的大量研究,但在解决解释这些模型的必要性方面仍有改进的空间。当前的问题和这些问题的未来潜在方向逐项列出如下:
• 虽然常见 XAI 技术的性能已在计算机视觉和 NLP 任务中得到验证,但几乎没有作者测试他们的方法并在音频数据集上展示结果。考虑到音频的表达能力和该领域广泛的 AI 模型,我们强调在音频数据集上测试未来 XAI 研究的重要性,这将增强音频的可解释性。
• 独立选择原始波形或频谱图来表示音频数据并提供可听的解释是增强音频模型可解释性的有效且直观的方法。因此,通过重建频谱图级解释或复杂波形特征为最终用户生成可听的解释可能是一个潜在的研究领域。
• 虽然通过使用超像素为这些图像部分分配特征重要性来定义图像数据中的高级概念相对容易,但需要在音频数据中定义类似的概念。例如,在通过咳嗽声音检测 COVID-19 时,模型在做出决定时可能会判断咳嗽是湿咳还是干咳。在声谱图或波形级别中定义此类概念可能有助于理解音频中对决策更有意义的部分,因为它们提供了类似于本例中的医学专家的类似人类的推理。
• 提供音频解释不应仅限于提供音频模型的可解释性。正如[ 16 ]中所提出的,由于音频的表达能力及其针对基于视觉的用户交互的补充通信通道,声音化也具有为非音频模型提供音频解释的巨大潜力。
结论
本概述总结了专注于音频处理模型的 XAI 方法,以提高其可解释性和可解释性。现有方法从两个角度进行分享:(a) 使用通用 XAI 方法解释音频模型和 (b) 音频特定 XAI 方法。在第一类中,我们研究了常见的 XAI 方法,这些方法在音频模型中具有很高的应用潜力,可以增强模型的可理解性和信任度。第二类分享了专门针对音频模型的 XAI 方法,突出了这些方法相对于常见 XAI 方法的优势。我们通过组织对音频输入表示的选择、音频模型架构以及为这些模型提供解释的格式的研究,系统地回顾了这两个类别的最新文献。