面向跨模态数据协同分析的视觉问答方法综述 - Details

Author：

崔政 (崔政.) | 胡永利 (胡永利.) | 孙艳丰 (孙艳丰.) | 尹宝才 (尹宝才.)

Abstract：

协同分析和处理跨模态数据一直是现代人工智能领域的难点和热点,其主要挑战是跨模态数据具有语义和异构鸿沟.近年来,随着深度学习理论和技术的快速发展,基于深度学习的算法在图像和文本处理领域取得了极大的进步,进而产生了视觉问答(visual　question　answering,VQA)这一课题.VQA系统利用视觉信息和文本形式的问题作为输入,得出对应的答案,核心在于协同理解和处理视觉、文本信息.因此,对VQA方法进行了详细综述,按照方法原理将现有的VQA方法分为数据融合、跨模态注意力和知识推理3类方法,全面总结分析了VQA方法的最新进展,介绍了常用的VQA数据集,并对未来的研究方向进行了展望.

Keyword：

跨模态注意力数据融合跨模态数据视觉问答知识推理深度学习

Author Community：

[ 1 ] [尹宝才]北京工业大学
[ 2 ] [胡永利]北京工业大学
[ 3 ] [孙艳丰]北京工业大学
[ 4 ] [崔政]北京工业大学

Reprint Author's Address：

Email：

Show more details

Related Keywords：

Source ：

北京工业大学学报

ISSN： 0254-0037

Year： 2022

Issue： 10

Volume： 48

Page： 1088-1099

Cited Count：

WoS CC Cited Count：

SCOPUS Cited Count：

ESI Highly Cited Papers on the List： 0 Unfold All

WanFang Cited Count： -1

Chinese Cited Count：

30 Days PV： 2

Affiliated Colleges：

学院待认领

Get Fulltext

Library Discovery Baidu Scholar Search WF WF WF WF WF WF WF WF WF

Type
Departments

All Years Choose Year From to