注意力机制及其在医学视觉任务中的作用研究
2023-02-16
摘要:注意力机制模仿人类对特定信息的认知机制,放大关键细节,更多地关注数据本身,其本质就是定位感兴趣的信息,抑制无用信息。注意力也是一种对输入分配偏好的资源分配机制,计算一系列的注意力系数或权重参数。在计算机视觉领域中,注意力基于原有数据觅求信息间的关联,突出待处理对象的重要特征并捕捉图像感受野。本文基于注意力机制一般原理,阐释注意力之于神经网络的重要性,提升了神经网络近似复杂函数的能力,一定程度上缓解了深度神经网络“黑匣子”的不可解释问题。本文重点分析了基于自注意机制的Transformer:模型容量大、能更好地学习信息表征、可提取更高维的信息,以“长程依赖”的优势建模,克服CNN不能捕获图像全局信息的缺憾,是一种较强大的视觉识别工具。鉴于局部和全局特征对于医学图像分割这种密集的预测任务而言缺一不可,未来结合Transformer的整体捕获和CNN的局部提取工作将推动医学视觉任务的进一步突破。
关键词:注意力;自注意力;Transformer;医学视觉任务
注意力机制由Bengio团队于2014年提出,近年被广泛用于深度学习的各个领域,在计算机视觉任务中用于捕捉图像的感受野。注意力机制本质是聚焦局部信息、有选择性地增强重要特征,抑制次要部分。基于自注意力机制的Transformer于2017年被谷歌团队首先提出,是深度学习领域非常受欢迎的一种架构,具有天生的全局自我注意功能。在医学视觉任务中涌现出诸多基于Transformer的医疗影像处理模型和网络[1]。
1 注意力机制基础
注意力机制源于人们对人类视觉的研究,根据认知科学,人类的视神经接收到的数据量远超过其处理能力。因此,人脑对输入的信息进行权衡,只关注必要的信息,即选择性视觉注意力。在认知神经学中,它是人类不可或缺的一种复杂的认知功能:将注意力聚焦于待关注的重点目标,忽略次要区域,之后投入更多的注意力资源以获取更多的细节信息。基于这种视觉所特有的信号处理机制,人们可高效筛选出有用信息,极大地提高了信息处理的效率与准确性。
深度学习中的注意力类似于人的选择性视觉注意力,核心也是从众多信息中选择对当前任务更有用的信息并予以聚焦,聚焦的过程表现为对权重系数的计算,权重越大越聚焦于其对应的值上。注意力机制可以看作一种通用的思想,本身并不依赖特定框架,有三种层面的含义:从数学公式和代码实现上可理解为加权求和;形式上可理解为键、值和查询(这是每个输入的3种表达形式);物理意义上可理解为相似性度量。目前,注意力方法大都是基于各个不同的维度,利用有限的资源进行信息的充分利用。注意力机制可用于任何类型的输入,在矩阵值(如图片)输入的情况下即为视觉注意力[2],视觉注意力是许多主流视觉任务的流行语[3]。
注意力机制分类:①根据可微与否,分为硬性注意力和软性注意力,前者也叫强注意力,其实现方式有两种:可选取最高概率的信息作为输入,或通过在注意力分布上随机采样、随机选择某个信息作为需要注意的目标。硬性注意力更加关注点,图像中的每个点都有可能延伸出注意力,同时强调动态变化。因为是随机预测的过程,故硬注意力是不可微的,不方便用梯度反向传播计算,训练过程往往是通过增强学习来完成的,如常见的图像裁剪就属于硬注意力处理。软注意力机制指在选择信息的时候,需要计算输入信息的加权平均,是确定性的注意力,是可微的,这点比较重要,因为可直接利用梯度通过前向传播、后向反馈来学习,最终获取注意力权重。②根据注意力所关注的域,主要分为空间注意力模型、通道注意力模型及两者混合注意力。空间注意力模型本质是定位目标并进行一些变换、获取权重。在医学视觉任务中,仅关注与任务相关的医学图像区域,寻找网络中对应的重要部位进行处理,如关注兴趣区进行对象检测。通道注意力机制,本质在于建模各个特征之间的重要性,不同的图像任务可以根据输入进行特征分配,每个通道(特征图)都关注输入的特定部分,注意力分数可根据通道计算。高玉兵(2021)[4]提出一种基于混合注意力机制的3D脑肿瘤图像分割架构HANet(Hybrid Attention Network),引入基于通道和空间的混合注意力机制模块,进一步挖掘脑肿瘤图像的高维特征,克服了病灶区纹理模糊和原图像线性特征不足的问题,同时也减小了脑图像的噪声。
2 注意力之于神经网络的重要性
神经网络的真正意义是函数近似器,通过不同的架构可近似出不同类别的函数。神经网络具有隐式注意力,从数据中提取有意义的信息。目前,基于深度学习技术的语义分割网络普遍存在以下弱项:特征提取模块包含较多的网络层、学习参数较多、网络训练需要多次迭代;对于医学图像分割任务,多数网络的边缘分割效果较差;对于空间上下文信息的捕获建模不足,导致网络的泛化能力较差。
①注意力机制给予神经网络显式注意能力:使得一个可以通过神经网络进行很好地近似的函数空间得到极大扩展,从而使神经网络能逼近更复杂的函数,有利于新的用例产生。因为在计算能力有限的情况下,注意力是解决信息超载问题的一种资源分配方案,计算资源向更重要的任务倾斜。直观地讲,神经注意力机制能使神经网络具备专注于其输入(或特征)子集的能力[2],选择特定的输入。通过任务分解,设计不同的分支结构,专注于不同的子任务,重新分配网络学习能力。即注意力机制主要包括:决定亟待关注的输入部分;将有限的信息处理资源分配于重要的任务。
②注意力机制缓解了深度神经网络(或深度学习)结构的不可解释性问题。深度学习模型一度被喻作黑匣子,其可解释性一直备受争议。注意力机制可以探索模型结构的内部工作,针对输入和输出均为一个系列的问题。注意力模型的一个重要假设是学习得到的注意力权重,体现了当前需输出的数据与输入序列的某些特定位置数据的相关性。注意力模型也因其直观性、多功能性和可解释性而跻身近年来人们研究的热点,其变体已被应用于不同应用领域的任务中。
3 Transformer及其核心部分
Transformer由文献[5]提出,起源于机器翻译任务,为序列到序列的预测而设计,解决了序列中无法并行的问题,是一种以自注意力机制为核心功能单元的架构,可以将注意力的层块堆叠。
①自注意力(或自关注机制)。自注意力是Transformer的最重要组件。通过各输入项彼此交互作用,计算自身内部的相关性(权重),以得到更好的表征,由此决定对每个输入所分配的权重。这样减少了对外部信息的依赖,并擅长捕捉数据或特征的内部相关性。即通过输入项内部“表决”,决定给予更多注意力分数的对象。输出是这些交互作用和注意力得分的聚合。在处理很长的输入时,具有并行计算的优势。对图像而言,自注意力是特征图之间的自主学习,权重可分配在位置、时间及通道方面。注意力机制在视觉任务中,主要针对每个像素点在解码阶段对输入的信息赋予不同权重,以聚焦图像中的相关区域,并捕捉图像各部分间的结构性长程依赖关系[3]。
②多头(Multi-Head)注意力模块。Transformer中每个注意力处理器被称为头(Attention Head),多头注意是多个自注意力结构的结合。具有相同输入的不同线性变换,也叫多头自注意机制。多头注意有助于模型捕获输入的各个方面,并提高其表达能力。深度学习中最常见的一种框架是编码-解码,Transformer模型亦如此[4]。多头注意力模块是编码(Encoder)阶段的重点,为Transformer提供动力,使用多个自注意力层分组计算,在每个子层中,使用自注意机制来关联输入数据及其在相同输入序列中的位置,然后将它们的输出按列拼接,得到一个大的特征矩阵,最后经过一层全连接,得到输出矩阵。多头模块中每个头可学习到在不同表示空间中的不同特征[6],不同头学习到的注意力侧重点不同,这样扩展了模型的容量。通过组合几种类似的注意力计算,注意力机制会具备更强的辨别力。多头注意模块增加了网络中参数的个数,也增强了模型的表达能力。
综上,Transformer可以并行地计算节点和对于之前序列的关联度,或者仅关注几个关联度高的节点,大大增强了记忆力,最终可以不受梯度消失的影响,能够保留长期记忆。Transformer也可通过增加网络的深度,充分挖掘深度神经网络的潜在特性,有利于提升模型的准确率。另外,由于在编码端并行输入,没有顺序信息,对此,Transformer框架中有位置编码部分,弥补了注意力机制本身不能捕捉位置信息的缺陷。
4 注意力机制在医学图像中的应用
①Transformer基于“长程依赖”的优势建模。图像的上下文信息对于医学图像的分割性能至关重要。由于CNN的卷积单元仅关注像素邻域,尽管后期感受野扩大,但终究是局部运算,限制了全局语义信息的获取。因为CNN的卷积核输入无关静态值,无法动态适应输入尺寸的变化,故对长距离的信息不能有效建模。近年来,针对上下文信息捕获的工作主要有两方面:扩大感受野和引入注意力机制[7]。前者通过增大卷积核尺寸或网络深度扩展感受野,但增大了计算开销。另外,CNN还需要大量的解码器堆叠来将高级特征映射到原始空间分辨率[8],可见此法不尽期许。
捕获全局信息是注意力机制用于医学图像任务的直接驱动。因为自注意力权值是输入相关的动态值,易于捕获不同位置间复杂的相关性,有助于捕获全局的上下文信息,同时保持输入和输出的空间分辨率不变[7]。Transformer从使用自注意力机制进行全局信息建模中受益[9]。基于编码器和解码器堆栈的Transformer模型中的注意力表现:编码器中自注意力—输入序列注意自身;解码器中自注意力—目标序列注意自身;解码器中的编码器—解码器注意-目标序列注意输入序列。文献[9]通过在每个体积之间建模的长距离依赖性可更准确地描述脑肿瘤,并产生更好的分割掩模。Transformer在计算机视觉领域成功应用的典范是VIT(Vision Transformer):将输入图像分割为一系列小块(patches),并将这些小块之间的相互性建模为序列[9]。VIT依据其重要的非局部自注意力,使得每一层均具有全局感受野[10]。
②Transformer具体应用。由于原始Transormer没有涉及局部连接的感应偏置,导致对局部结构的提取不足(如线、边缘、颜色等),但对于医学图像分割这种密集的预测任务而言,局部和全局特征都至关重要[9]。因此,将CNN获取的局部信息和Transormer捕捉的全局信息结合,如在Transormer的某些组件中插入几个卷积[11],可提高分割性能。Trans-former与U-Net相结合组成TransUNet:transformer对卷积神经网络特征映射中的标记化图像块进行编码作为输入序列,以提取全局上下文信息,借助U-Net恢复局部空间信息来增强更精细的细节。在包括多器官分割的医疗应用中,TransUNet取得了优于各种竞争方法的性能。文献[12]通过提出多复合Transformer(MCTrans)网络,学习不同像素的跨尺度依赖关系,整合特征学习和语义结构挖掘于一体:MCTrans将多尺度卷积特征嵌入为一个标记序列,并执行尺度内和尺度间的自注意力,取代之前工作中的单尺度注意力。文献[13]将自注意力集成到卷积神经网络中,以增强医学图像分割。在编码器和解码器中应用自注意力模块,提出一种有效的自注意力机制以及相对位置编码,将自注意力操作的复杂性显著降低,以最小的成本捕获不同规模的远程依赖关系。为克服医学图像数据集的欠缺,Valanarasu等(2021)[14]提出轴向注意力模型,用深的网络处理局部信息,浅的网络处理全局信息,并在自注意力模块中引入附加的控制机制来扩展现有体系结构,通过这种局部-全局训练策略对整个图像和图像块进行操作以分别学习全局和局部特征,进一步提高了视觉性能。
5 Transformer的优劣
优势:Transformer基于内部的自关注机制,解决了长程依赖问题。Transformer有非常大的模型容量,可以获取更高维的信息,学习到更好的表征。Transformer成为人工智能(AI)领域颇有前景的规模化解决方案。由于引入注意力机制使神经网络能够自主学习,同时注意力建模也可帮助人们理解深度学习架构的内部工作,了解神经网络“眼中”的世界[3],故可缓解一度被称为黑匣操作的深度学习的可解释性问题。
短板:大模型本质上要求在预训练阶段大量吸收数据以缓解下游小样本学习的压力,故不可避免地产生了新的矛盾:大模型被喂入的数据越多,模型就越需要一种广泛而分散的数据分布,这对于数据集欠缺且样本分布很不平衡的医学图像而言,进行局部拟合的难度就越大。可见,用Transformer做医学图像分割任务相比卷积神经网络需要更大的数据集来训练模型。加之Transformer的显著缺陷是对计算和存储的要求特别高[7],故高计算成本、大数据要求也成为其真正落地医学视觉任务的瓶颈。
简单而言,注意力机制是一个估计重要性的过程,可解决对不同特征进行无差别处理的问题,解决了并行计算,速度加快。基于不同层次的注意力机制,更为有效的特征聚合方法设计有待研究。Transformer具有强大的全局建模能力,长距离的信息不会被弱化,但同时由于缺乏正确的归纳偏置导致其泛化性能不如CNN。实际应用中,视觉Trans-former常常从纯粹的结构回归为不同的混合形式,全局与局部信息相结合。卷积擅长提取细节,能有效处理低级特征,但要捕获全局信息往往得堆叠很多个卷积层,而Transformer善于把握整体,故结合CNN可增强Transformer的局部性。未来基于两者结合的工作将推动医学图像任务的更多突破[8]。
参考文献:
[1]ZHOU H Y,GUO J S,ZHANG Y H,et al.Nnformer:interleaved transformerfor volumetric segmentation[Z/OL].(2021-09-07)[2022-12-02].https://arxiv.org/abs/2109.03201.
[2]KOSIOREK A.神经网络中的注意力机制[J].机器人产业,2017(6):12-17.DOI:10.3969/j.issn.2096-0182.2017.06.002.
[3]CHAUDHARI S,MITHAL V,POLATKAN G,et al.An attentive survey of attention models [Z/OL].(2019-04-05)[2022-12-02].https://arxiv.org/abs/1904.02874.
[4]高玉兵.基于混合注意力机制的多模态脑肿瘤图像分割方法研究[D].吉林大学,2021.DOI:10.27162/d.cnki.gjlin.2021.004539.
[5]VASWANI A,SHAZEER N,PARMAR N,et al.Attention is all you need [Z/OL].(2017-12-06)[2022-12-02].https://arxiv.org/abs/1706.03762.
[6]VIG J.A multiscale visualization of attention in the transformer model[Z/OL].(2019-06-12)[2022-12-02].DOI:10.18653/v1/P19-3007.
[7]ZHENG S X,LU J C,ZHAO H X,et al.Rethinking semantic segmentation from a sequence-to-sequenceperspective with transformers[Z/OL].(2021-07-25)[2022-12-02].https://arxiv.org/abs/2012.15840.
[8]HAN K,WANG Y H,CHEN H T,et al.A survey of vision transforme[Z/OL].(2022-02-23)[2022-12-02].https://arxiv.org/abs/2012.12556.
[9]WANG W X,CHEN C,DING M,et al.Transbts:Multimodalbraintumor segmentation using transformer:Medical Image Computing and Computer Assisted Intervention-MICCAI2021.Lecture Notes in Computer Science,vol 12901.Springer,Cham[C/OL]. [S.l.:s.n.],2021.https://doi.org/10.1007/978-3-030-87193-2_11.
[10]LIU Z,MAO H Z,WU C Y,et al.A convnet for the 2020s[Z/OL].(2022-03-02)[2022-12-02].https://arxiv.org/pdf/2201.03545.pdf.
[11]WU S T,WU T Y,TAN H R,et al.Pale transformer:a general visiontransformerbackbone with pale-shaped Attention[Z/OL].(2021-12-28)[2022-12-02].https://arxiv.org/abs/2112.14000.
[12]JI Y F,ZHANG R M,WANG H J,et al.Multi-compound transformer for accurate biomedicalimage segmentation[Z/OL].(2021-06-28)[2022-12-02].https://arxiv.org/pdf/2106.14385.pdf.
[13]GAO Y H,ZHOU M,METAXAS D.UTNet:a hybrid transformer architecture for medical image segmentation[Z/OL].(2021-09-28)[2022-12-02].https://arxiv.org/abs/2107.00781.
[14]VALANARASU J M J,OZA P,HACIHALILOGLU I,et al.Medicaltransformer:gated axial-attention for medical image segementation[Z/OL].(2021-07-06)[2022-12-02].https://arxiv.org/abs/2102.10662.
作者:任晓丽