欢迎访问视觉与智能学习实验室网站!

通知公告

祝贺:实验室团队博士生孙添力一篇论文“Explainability of Speech Recognition Transformers via Gradient-based Attention Visualization”被IEEE Transactions on Multimedia录用

作者: 时间:2023-06-08 点击数:

    祝贺实验室团队博士生孙添力一篇论文“Explainability of Speech Recognition Transformers via Gradient-based Attention Visualization”被IEEE Transactions on Multimedia录用。现有的Transformer可解释性方法大多是基于模型信息流对自注意力进行融合,由于残差连接的存在,需要引入自注意力的初始值,而该值的存在会严重影响ASR这种多token输出任务的可解释性结果。经过严格的理论推导,我们提出了直接的矩阵相加,替代矩阵相乘,实现多层自注意力融合的方法Grad-SAS。这一方面简化了Transformer可解释性的理论,另一方面也降低了传统可解释性方法的时间复杂度,提升了方法的效率。大量实验显示,我们的方法在应用于图像任务时,与传统方法相比,能够在不影响准确性的情况下提升效率;在应用于ASR任务时,可以有效实现传统方法无法达到的可解释性效果。相应的可解释性结果有助于进一步理解ASR Transformer的工作原理。另外,基于本文的可解释性方法,提出了一种ASR Transformer的正则化训练方法,可以有效减轻训练过程中的过拟合,提升模型准确率。


本文方法

可解释性实验

模型识别准确率

 

版权所有:同济大学 视觉与智能学习实验室

地址:上海市嘉定区曹安公路4800号同济大学嘉定校区智信馆4楼
Email:zhaocairong@tongji.edu.cn