• Complex
  • Title
  • Keyword
  • Abstract
  • Scholars
  • Journal
  • ISSN
  • Conference
搜索

Author:

王鸣展 (王鸣展.) | 冀俊忠 (冀俊忠.) | 贾奥哲 (贾奥哲.) | 张晓丹 (张晓丹.)

Abstract:

近年来,基于自注意力机制的编码器-解码器框架已经成为主流的图像描述模型.然而,编码器中的自注意力只建模低尺度特征的视觉关系,忽略了高尺度视觉特征中的一些有效信息,从而影响了生成描述的质量.针对该问题,文中提出了一种基于跨尺度特征融合自注意力的图像描述方法.该方法在进行自注意力运算时,将低尺度和高尺度的视觉特征进行跨尺度融合,从视觉角度上提高自注意力关注的范围,增加有效视觉信息,减少噪声,从而学习到更准确的视觉语义关系.在M S CO-CO数据集上的实验结果表明,所提方法能够更精确地捕获跨尺度视觉特征间的关系,生成更准确的描述.特别地,该方法是一种通用的方法,通过与其他基于自注意力的图像描述方法相结合,能进一步提高模型性能.

Keyword:

自注意力 图像描述 跨尺度特征融合

Author Community:

  • [ 1 ] [王鸣展]北京工业大学
  • [ 2 ] [冀俊忠]北京工业大学

Reprint Author's Address:

Email:

Show more details

Related Keywords:

Source :

计算机科学

ISSN: 1002-137X

Year: 2022

Issue: 10

Volume: 49

Page: 191-197

Cited Count:

WoS CC Cited Count:

SCOPUS Cited Count:

ESI Highly Cited Papers on the List: 0 Unfold All

WanFang Cited Count: -1

Chinese Cited Count:

30 Days PV: 1

Affiliated Colleges:

Online/Total:724/5281689
Address:BJUT Library(100 Pingleyuan,Chaoyang District,Beijing 100124, China Post Code:100124) Contact Us:010-67392185
Copyright:BJUT Library Technical Support:Beijing Aegean Software Co., Ltd.