欢迎访问视觉与智能学习实验室网站!

通知公告

祝贺:实验室团队硕士生王雨滨一篇论文 “Learning Domain Invariant Prompt for Vision-Language Models” 被IEEE TIP录用

作者: 时间:2024-01-31 点击数:

祝贺实验室团队硕士生王雨滨一篇论文“Learning Domain Invariant Prompt for Vision-Language Models”被IEEE Transactions on Image Processing录用。提示学习(Prompt learning)通过使用很少的样本来微调可学习的提示向量,从而可以使强大的视觉语言基础模型(如CLIP)适应下游数据集。然而,尽管提示学习方法在域内数据上取得了显著的性能,但它仍然面临着有效泛化到新类别和新域的巨大挑战。现有的一些方法通过为不同域动态生成不同的提示来解决这一问题,这些方法忽略了提示在未见域中泛化的内在潜力。为了解决这一局限性,我们的研究引入了一种创新的提示学习范式,称为MetaPrompt,旨在直接学习少样本场景中的域不变的提示。为了便于独立学习图像和文本输入的提示,我们提出了一种由两对耦合编码器组成的双模态提示微调网络。我们的研究集中于交替式回合训练算法(Alternated Episodic Training Algorithm),以丰富所学提示的泛化能力。与传统的回合训练算法不同,我们的方法以分批次(batch-wise)方式结合了域内更新(in-domain update)和域分割更新(domain-split update)。对于域内更新,我们引入了一种新颖的非对称对比学习(asymmetric contrastive learning)范式,即来自预训练编码器的表征承担监督作用,以规范来自提示编码器的提示。为了提高域外分布的性能,我们提出了一种域分割优化方法,即在域分割更新期间,对跨域任务的视觉提示或跨类别任务的文本提示进行优化。在11个数据集上进行的基类到新类泛化和4个数据集上进行的域泛化的广泛实验显示了良好的性能。与最先进的方法相比,MetaPrompt在基类到新类泛化的整体调和平均值上实现了1.02%的提升,并且在域泛化方面优于所有基准。

版权所有:同济大学 视觉与智能学习实验室

地址:上海市嘉定区曹安公路4800号同济大学嘉定校区智信馆4楼
Email:zhaocairong@tongji.edu.cn